Новый способ ускоренной оптимизации систем оптического распознавания текста разработали в НИТУ МИСИС

Учёные представили новый метод для быстрой настройки OCR-систем

В НИТУ МИСИС разработали инновационный подход к оптимизации систем оптического распознавания текста (OCR). С помощью машинного обучения и современных генеративных моделей ИИ удалось повысить точность распознавания текста на русском языке и сократить время обучения с нескольких недель до 72 часов.

Увеличительное стекло на клавиатуре
Увеличительное стекло на клавиатуре

В условиях, когда компании активно оцифровывают документы — от счетов до архивов, — технологии OCR особенно актуальны. Однако стандартные системы не всегда справляются с реальными сканами, содержащими печати, подписи или нестандартные шрифты. Для повышения качества требуется обучение, которое традиционно занимает значительное время — до двух месяцев.

Учёные НИТУ МИСИС предложили метод на основе комбинации машинного обучения и генеративных моделей ИИ. Они внедрили замкнутый цикл взаимодействия между OCR-движками и языковыми моделями: система самостоятельно анализирует результаты распознавания и корректирует ошибки. Это сократило процесс обучения до 72 часов непрерывной работы.

Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объём тестовой выборки.
Кирилл Пронин, магистрант Института компьютерных наук НИТУ МИСИС

Разработчики протестировали систему на идеальных документах и реальных сканах с неровными подписями и печатями. Полученные данные помогли выявить наиболее эффективные комбинации технологий. Перспективные методы на базе нейронных сетей ускорят создание точных и доступных OCR-решений для бизнеса и науки.

Читайте ещё материалы по теме:

17:43 Новости
Китайские игры заходят через RuStore: магазин даёт до половины установок в России Азиатские издатели отмечают высокий трафик, платежи и возврат аудитории
14:52 Новости
ИИ вместо вечного поиска: как «Алису AI» используют айтишники, юристы и маркетологи Почти четверть обращений с компьютера уже связана с работой, наукой или карьерой
11:42 Новости
Соцсетям предложили самим блокировать дипфейки: в Роскомнадзоре придумали новый подход Подозрительный контент могут временно ограничивать, пока не подтвердят его подлинность
08:33 Новости
Россия должна вложиться в свои аналоги OpenAI, Google и Anthropic: в Минфине рассказали о прорывных технологиях Замминистра Чебесков: развитие больших языковых моделей потребует серьёзных инвестиций
14 мая 10:42 Новости
Первую российскую BIOS убрали из реестра отечественного ПО Минцифры исключило систему из списка из-за неактуальных сведений о продукте
Источники:
Cnews.ru

Сейчас на главной