MERA Code: первый открытый бенчмарк для оценки русскоязычных ИИ-моделей в программировании

Новое российское ПО поможет оценить эффективность языковых моделей

Альянс в сфере искусственного интеллекта представил MERA Code — первый открытый бенчмарк для тестирования русскоязычных ИИ-моделей в программировании. Разработанный при участии ведущих технологических компаний и университетов, включая Сбер, Т-Банк, MWS AI (МТС Web Services), Ростелеком, Университет Иннополис, ИТМО, Сколтех, Центральный университет и «Сибирские нейросети», инструмент призван решить проблему отсутствия единого стандарта оценки эффективности ИИ в генерации кода.

Бенчмарк предлагает прозрачную методику оценки больших языковых моделей (LLM) с учётом специфики русского языка. В отличие от зарубежных аналогов, он включает 11 задач в трёх форматах: text2code (генерация кода по описанию), code2text (документирование кода) и code2code (оптимизация и исправление). Тестирование поддерживает 8 языков программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.

Важное отличие — изолированная среда выполнения, где код не просто анализируется, а запускается, что повышает объективность оценки. Платформа открыта для всех: разработчики могут сравнивать модели через рейтинговую систему, а исследователи — использовать фреймворк для собственных тестов.

MERA Code поможет:

  • Разработчикам — выбирать оптимальные ИИ-инструменты для работы.
  • Исследователям — сравнивать модели в единых условиях.
  • Компаниям — принимать решения на основе прозрачных данных.

Это уже вторая ветка бенчмарка MERA после презентации на AI Journey 2023. В июне 2025 года появилась отраслевая версия MERA Industrial, а теперь — специализированное решение для программистов.

Читайте ещё материалы по теме:

«Мы строим облако, где всё под контролем»: Astra Cloud и YADRO создают альтернативу западным платформам

Новые ограничения для иностранного ПО: Россия усиливает меры по импортозамещению в IT-сфере

Telegram останется на российском рынке, а WhatsApp может столкнуться с ограничениями — депутат Горелкин

05:56 Новости
В российском телеком-оборудовании хотят жёстче искать «иностранный след»: до половины производителей рискуют оказаться недобросовестными Производители электроники предложили властям новую проверку ПО: она должна выявлять компании, которые выдают импортный софт за свою разработку
05:48 Новости
Первый ИИ для чиновников внесли в реестр российского ПО: он пишет протоколы и оформляет поручения Новый ассистент помогает в принятии решений, формирует списки поручений и удаляет из отчётов ненормативные выражения
30 мая 14:27 Новости
Цифровые профили мигрантов создали в России: что будет в новой базе МВД Сервис должен заработать не позднее 30 июня 2026 года и собрать данные об иностранцах в единый сервис
30 мая 13:34 Новости
Свежие отзывы подождут: «Кинопоиск» меняет правила из-за ИИ и закупных рецензий Публикации на страницы фильмов будут выходить спустя четыре недели после премьеры
30 мая 11:49 Новости
Выдача заказов в любое время суток: Wildberries увеличит число автоматизированных ПВЗ До конца года сеть смарт-точек планируют расширить до 10

Сейчас на главной

Первый ИИ для чиновников внесли в реестр российского ПО: он пишет протоколы и оформляет поручения
1 час назад

Новый ассистент помогает в принятии решений, формирует списки поручений и удаляет из отчётов ненормативные выражения

Норникель испытал технологию сверхдлинного направленного бурения на Таймырском руднике
30 мая 2026 г., 15:19:08

Новый комплекс РС3-41-10 позволяет осуществлять проходку скважин до 1500 метров с контролем траектории в реальном времени