Учёные компании Smart Engines разработали нейросеть, способную распознавать рукописное слово «шиншилла» без использования языкового контекста. Это достижение решает ключевую проблему «галлюцинаций» ИИ — ситуаций, когда система подменяет редкие или сложные слова на более распространенные. Технология уже внедрена в системы распознавания российских паспортов, применяемые крупными банками и телеком-операторами.

Как пояснили в компании, слово «шиншилла» стало своеобразным тестом Тьюринга для кириллических OCR-систем: при неаккуратном почерке буквы «ш», «и», «л» визуально сливаются.
Нейросеть «Да Винчи» обучена на 1,2 млн строк синтезированного рукописного текста с равномерным распределением букв. Это позволяет избежать зависимости от языковых шаблонов.
По словам генерального директора Smart Engines Владимира Арлазарова, при обработке документов критически важно считывать именно написанное, а не «исправлять» ошибки на основе контекста.
Технология Smart Engines отличается от традиционных OCR-решений, таких как ABBYY FineReader или Tesseract, которые часто полагаются на языковые модели. Например, зарубежные аналоги могут заменять редкие слова на похожие по контексту, что недопустимо в юридических документах. Разработка российских ученых особенно актуальна для обработки имен собственных, номеров и официальных печатей, где точность превыше всего.
Читать ещё материалы по теме:
Smart Engines представила сервис для распознавания и проверки документов — Smart ID Engine 2.5
В России придумали революционный метод диагностики турбореактивных двигателей в собранном состоянии
Что скрывал Пушкин?: Учёные расшифровали рукописи поэта при помощи нейросети «Да Винчи»
История редактирования комментария