El Instituto de Estudios Orientales de la Academia de Ciencias de Rusia y Yandex crean un sistema de IA para el análisis acelerado de fuentes orientales

El sistema procesa más de 1,5 millones de documentos en cuatro variantes del idioma chino

El Instituto de Estudios Orientales de la Academia de Ciencias de Rusia, en colaboración con Yandex, ha creado una inteligencia artificial capaz de procesar miles de fuentes primarias en idiomas orientales diariamente. El nuevo asistente de IA analiza textos científicos, extrae hechos clave y genera resúmenes analíticos concisos, incluyendo materiales de medios chinos.

El sistema ya trabaja con más de 1,5 millones de documentos y abarca cuatro variantes del idioma chino: continental, taiwanés, de Hong Kong y de Singapur.

Según el director del Instituto, Alikber Alikberov, el proyecto forma parte de una transformación digital a gran escala de la institución. «La colaboración con Yandex permite ampliar significativamente el volumen y la profundidad del análisis de materiales, manteniendo la fundamentalidad del enfoque académico», señaló.

El investigador principal Alexander Kostyrkin señaló que el tiempo de procesamiento de la información con la ayuda del asistente de IA se reduce de varias horas a 10–15 minutos por tarea de investigación, lo que permite analizar cientos de fuentes diariamente.

El asistente de IA se creó en la plataforma Yandex AI Studio utilizando modelos generativos y tecnologías de Yandex Cloud. El sistema funciona según el principio de la arquitectura RAG: el modelo de lenguaje genera respuestas basadas en datos de su propia base de datos y fuentes adicionales. La vectorización y la búsqueda semántica permiten encontrar información por significado, y el modelo FRED-T5-Summarizer comprime los textos en resúmenes concisos, generando respuestas comprensibles en ruso.

Se presta especial atención al monitoreo de los medios chinos. Anteriormente, el sistema traducía textos a través del inglés, pero con la aparición de grandes modelos Qwen, es posible trabajar directamente con fuentes chinas. Actualmente, se está conectando el modelo Qwen3 de 235 mil millones de parámetros, lo que permite a los investigadores obtener datos más precisos sin la mediación de fuentes en inglés.

Lea también los siguientes materiales:

Ahora en la página principal