Nuevo método de optimización acelerada de sistemas de reconocimiento óptico de texto desarrollado en NUST MISIS

Científicos presentaron un nuevo método para la configuración rápida de sistemas OCR

En NUST MISIS se desarrolló un enfoque innovador para la optimización de sistemas de reconocimiento óptico de texto (OCR). Con la ayuda del aprendizaje automático y modelos generativos modernos de IA, se logró aumentar la precisión del reconocimiento de texto en ruso y reducir el tiempo de entrenamiento de varias semanas a 72 horas.

Lupa sobre un teclado

En un contexto donde las empresas digitalizan activamente documentos, desde facturas hasta archivos, las tecnologías OCR son especialmente relevantes. Sin embargo, los sistemas estándar no siempre manejan escaneos reales que contienen sellos, firmas o fuentes no estándar. Para mejorar la calidad, se requiere entrenamiento, que tradicionalmente lleva mucho tiempo, hasta dos meses.

Científicos de NUST MISIS propusieron un método basado en una combinación de aprendizaje automático y modelos generativos de IA. Implementaron un ciclo cerrado de interacción entre los motores OCR y los modelos de lenguaje: el sistema analiza de forma independiente los resultados del reconocimiento y corrige los errores. Esto redujo el proceso de entrenamiento a 72 horas de trabajo continuo.

Uno de los resultados clave fue el aumento de la calidad del reconocimiento: superó el 90% para el idioma ruso, lo que cumple con los requisitos modernos para la automatización del flujo de documentos. Además, los costos de entrenamiento de los modelos se redujeron en casi un tercio, y el uso de redes neuronales generativas redujo el volumen necesario de la muestra de prueba.
Kirill Pronin, estudiante de maestría del Instituto de Ciencias de la Computación de NUST MISIS

Los desarrolladores probaron el sistema en documentos ideales y escaneos reales con firmas y sellos irregulares. Los datos obtenidos ayudaron a identificar las combinaciones de tecnologías más efectivas. Los métodos prometedores basados en redes neuronales acelerarán la creación de soluciones OCR precisas y accesibles para empresas y ciencia.

Lea más materiales sobre el tema: