MERA Code: primer benchmark abierto para evaluar modelos de IA en ruso en programación

Un nuevo software ruso ayudará a evaluar la eficacia de los modelos lingüísticos

La Alianza en el campo de la inteligencia artificial ha presentado MERA Code, el primer benchmark abierto para probar modelos de IA en ruso en programación. Desarrollado con la participación de empresas tecnológicas y universidades líderes, incluyendo Sber, T-Bank, MWS AI (MTS Web Services), Rostelecom, la Universidad Innopolis, ITMO, Skoltech, la Universidad Central y "Redes Neuronales Siberianas", la herramienta está diseñada para resolver el problema de la falta de un estándar único para evaluar la eficacia de la IA en la generación de código.

Fuente de la imagen сгенерировано нейросетью Copilot

El benchmark ofrece una metodología transparente para evaluar grandes modelos lingüísticos (LLM) teniendo en cuenta las especificidades del idioma ruso. A diferencia de sus homólogos extranjeros, incluye 11 tareas en tres formatos: text2code (generación de código a partir de una descripción), code2text (documentación de código) y code2code (optimización y corrección). Las pruebas admiten 8 lenguajes de programación: Python, Java, C#, JavaScript, Go, C, C++ y Scala.

Una diferencia importante es un entorno de ejecución aislado, donde el código no solo se analiza, sino que se ejecuta, lo que aumenta la objetividad de la evaluación. La plataforma está abierta a todos: los desarrolladores pueden comparar modelos a través de un sistema de clasificación, y los investigadores pueden utilizar el framework para sus propias pruebas.

MERA Code ayudará a:

Desarrolladores: elegir las herramientas de IA óptimas para el trabajo.
Investigadores: comparar modelos en condiciones uniformes.
Empresas: tomar decisiones basadas en datos transparentes.

Esta es ya la segunda rama del benchmark MERA después de la presentación en AI Journey 2023. En junio de 2025 apareció la versión industrial MERA Industrial, y ahora una solución especializada para programadores.