«Шиншилла» больше не проблема: российские учёные научили нейросеть точно распознавать это рукописное слово

Новая технология от Smart Engines исключает ошибки ИИ при чтении редких слов и улучшает обработку документов

Учёные компании Smart Engines разработали нейросеть, способную распознавать рукописное слово «шиншилла» без использования языкового контекста. Это достижение решает ключевую проблему «галлюцинаций» ИИ — ситуаций, когда система подменяет редкие или сложные слова на более распространенные. Технология уже внедрена в системы распознавания российских паспортов, применяемые крупными банками и телеком-операторами.

Как пояснили в компании, слово «шиншилла» стало своеобразным тестом Тьюринга для кириллических OCR-систем: при неаккуратном почерке буквы «ш», «и», «л» визуально сливаются.

Нейросеть «Да Винчи» обучена на 1,2 млн строк синтезированного рукописного текста с равномерным распределением букв. Это позволяет избежать зависимости от языковых шаблонов.

По словам генерального директора Smart Engines Владимира Арлазарова, при обработке документов критически важно считывать именно написанное, а не «исправлять» ошибки на основе контекста.

Технология Smart Engines отличается от традиционных OCR-решений, таких как ABBYY FineReader или Tesseract, которые часто полагаются на языковые модели. Например, зарубежные аналоги могут заменять редкие слова на похожие по контексту, что недопустимо в юридических документах. Разработка российских ученых особенно актуальна для обработки имен собственных, номеров и официальных печатей, где точность превыше всего.

Читать ещё материалы по теме:

Smart Engines представила сервис для распознавания и проверки документов — Smart ID Engine 2.5

В России придумали революционный метод диагностики турбореактивных двигателей в собранном состоянии

Что скрывал Пушкин?: Учёные расшифровали рукописи поэта при помощи нейросети «Да Винчи»