MERA Code: primer benchmark abierto para evaluar modelos de IA en ruso en programación

Un nuevo software ruso ayudará a evaluar la eficacia de los modelos lingüísticos

La Alianza en el campo de la inteligencia artificial ha presentado MERA Code, el primer benchmark abierto para probar modelos de IA en ruso en programación. Desarrollado con la participación de empresas tecnológicas y universidades líderes, incluyendo Sber, T-Bank, MWS AI (MTS Web Services), Rostelecom, la Universidad Innopolis, ITMO, Skoltech, la Universidad Central y "Redes Neuronales Siberianas", la herramienta está diseñada para resolver el problema de la falta de un estándar único para evaluar la eficacia de la IA en la generación de código.

El benchmark ofrece una metodología transparente para evaluar grandes modelos lingüísticos (LLM) teniendo en cuenta las especificidades del idioma ruso. A diferencia de sus homólogos extranjeros, incluye 11 tareas en tres formatos: text2code (generación de código a partir de una descripción), code2text (documentación de código) y code2code (optimización y corrección). Las pruebas admiten 8 lenguajes de programación: Python, Java, C#, JavaScript, Go, C, C++ y Scala.

Una diferencia importante es un entorno de ejecución aislado, donde el código no solo se analiza, sino que se ejecuta, lo que aumenta la objetividad de la evaluación. La plataforma está abierta a todos: los desarrolladores pueden comparar modelos a través de un sistema de clasificación, y los investigadores pueden utilizar el framework para sus propias pruebas.

MERA Code ayudará a:

  • Desarrolladores: elegir las herramientas de IA óptimas para el trabajo.
  • Investigadores: comparar modelos en condiciones uniformes.
  • Empresas: tomar decisiones basadas en datos transparentes.

Esta es ya la segunda rama del benchmark MERA después de la presentación en AI Journey 2023. En junio de 2025 apareció la versión industrial MERA Industrial, y ahora una solución especializada para programadores.

Lea más materiales sobre el tema:

«Estamos construyendo una nube donde todo está bajo control»: Astra Cloud y YADRO crean una alternativa a las plataformas occidentales

Nuevas restricciones para el software extranjero: Rusia refuerza las medidas de sustitución de importaciones en el sector de TI

Telegram permanecerá en el mercado ruso, y WhatsApp puede enfrentarse a restricciones — el diputado Gorelkin

Ahora en la página principal