Новый способ ускоренной оптимизации систем оптического распознавания текста разработали в НИТУ МИСИС

В НИТУ МИСИС разработали инновационный подход к оптимизации систем оптического распознавания текста (OCR). С помощью машинного обучения и современных генеративных моделей ИИ удалось повысить точность распознавания текста на русском языке и сократить время обучения с нескольких недель до 72 часов.

Увеличительное стекло на клавиатуре
Источник изображения: freepik.com

В условиях, когда компании активно оцифровывают документы — от счетов до архивов, — технологии OCR особенно актуальны. Однако стандартные системы не всегда справляются с реальными сканами, содержащими печати, подписи или нестандартные шрифты. Для повышения качества требуется обучение, которое традиционно занимает значительное время — до двух месяцев.

Учёные НИТУ МИСИС предложили метод на основе комбинации машинного обучения и генеративных моделей ИИ. Они внедрили замкнутый цикл взаимодействия между OCR-движками и языковыми моделями: система самостоятельно анализирует результаты распознавания и корректирует ошибки. Это сократило процесс обучения до 72 часов непрерывной работы.

Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объём тестовой выборки.
Кирилл Пронин, магистрант Института компьютерных наук НИТУ МИСИС

Разработчики протестировали систему на идеальных документах и реальных сканах с неровными подписями и печатями. Полученные данные помогли выявить наиболее эффективные комбинации технологий. Перспективные методы на базе нейронных сетей ускорят создание точных и доступных OCR-решений для бизнеса и науки.

Читайте ещё материалы по теме:

Комментарии