MERA Code: первый открытый бенчмарк для оценки русскоязычных ИИ-моделей в программировании

Новое российское ПО поможет оценить эффективность языковых моделей

Альянс в сфере искусственного интеллекта представил MERA Code — первый открытый бенчмарк для тестирования русскоязычных ИИ-моделей в программировании. Разработанный при участии ведущих технологических компаний и университетов, включая Сбер, Т-Банк, MWS AI (МТС Web Services), Ростелеком, Университет Иннополис, ИТМО, Сколтех, Центральный университет и «Сибирские нейросети», инструмент призван решить проблему отсутствия единого стандарта оценки эффективности ИИ в генерации кода.

Бенчмарк предлагает прозрачную методику оценки больших языковых моделей (LLM) с учётом специфики русского языка. В отличие от зарубежных аналогов, он включает 11 задач в трёх форматах: text2code (генерация кода по описанию), code2text (документирование кода) и code2code (оптимизация и исправление). Тестирование поддерживает 8 языков программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.

Важное отличие — изолированная среда выполнения, где код не просто анализируется, а запускается, что повышает объективность оценки. Платформа открыта для всех: разработчики могут сравнивать модели через рейтинговую систему, а исследователи — использовать фреймворк для собственных тестов.

MERA Code поможет:

  • Разработчикам — выбирать оптимальные ИИ-инструменты для работы.
  • Исследователям — сравнивать модели в единых условиях.
  • Компаниям — принимать решения на основе прозрачных данных.

Это уже вторая ветка бенчмарка MERA после презентации на AI Journey 2023. В июне 2025 года появилась отраслевая версия MERA Industrial, а теперь — специализированное решение для программистов.

Читайте ещё материалы по теме:

«Мы строим облако, где всё под контролем»: Astra Cloud и YADRO создают альтернативу западным платформам

Новые ограничения для иностранного ПО: Россия усиливает меры по импортозамещению в IT-сфере

Telegram останется на российском рынке, а WhatsApp может столкнуться с ограничениями — депутат Горелкин

10:55 Новости
Второй НСПК не будет: ЦБ остановил платёжный проект «Сбера», Альфа-банка и Т-Банка Вместо нового контура крупнейшим банкам предложили обсудить долю в действующей инфраструктуре
09:41 Новости
«Госуслуги» стали приёмной комиссией: заявления в вузы и колледжи принимают онлайн Портал помогает отслеживать этапы поступления в личном кабинете
07:05 Новости
GG WB не случилось: Wildberries поставила игровые планы на паузу Выход на рынок гейминга оценивали в 2,5 миллиарда рублей, но риск оказался слишком высоким
06:59 Новости
Киберполигон для развития ИИ предложили создать в Челябинске Цифровую инфраструктуру могут разместить на базе межуниверситетского кампуса «Южный Урал»
06:16 Новости
Закон об ИИ«потерял зубы»: маркировку отменили, а авторские права и ответственность отложили Господдержку получат только «суверенные» и «национальные» разработки

Сейчас на главной