В НИТУ МИСИС разработали инновационный подход к оптимизации систем оптического распознавания текста (OCR). С помощью машинного обучения и современных генеративных моделей ИИ удалось повысить точность распознавания текста на русском языке и сократить время обучения с нескольких недель до 72 часов.
В условиях, когда компании активно оцифровывают документы — от счетов до архивов, — технологии OCR особенно актуальны. Однако стандартные системы не всегда справляются с реальными сканами, содержащими печати, подписи или нестандартные шрифты. Для повышения качества требуется обучение, которое традиционно занимает значительное время — до двух месяцев.
Учёные НИТУ МИСИС предложили метод на основе комбинации машинного обучения и генеративных моделей ИИ. Они внедрили замкнутый цикл взаимодействия между OCR-движками и языковыми моделями: система самостоятельно анализирует результаты распознавания и корректирует ошибки. Это сократило процесс обучения до 72 часов непрерывной работы.
Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объём тестовой выборки.
Разработчики протестировали систему на идеальных документах и реальных сканах с неровными подписями и печатями. Полученные данные помогли выявить наиболее эффективные комбинации технологий. Перспективные методы на базе нейронных сетей ускорят создание точных и доступных OCR-решений для бизнеса и науки.