Среднестатистический россиянин оказался умнее ИИ: учёные ЮФУ провели исследование с использованием архива игры «Что? Где? Когда?»

LLM ошибалась в вопросах, которые тривиальны для россиян

Исследователи из Южного федерального университета (ЮФУ) предложили необычный способ оценить уровень развития искусственного интеллекта — заставить его отвечать на вопросы из телевикторин «Что? Где? Когда?» и «Своя игра». Оказалось, что даже самые продвинутые языковые модели (LLM) справляются с такими заданиями хуже, чем среднестатистический россиянин.

Главная проблема современных LLM, включая ChatGPT и LLaMa-3, — недостаток качественных данных на русском языке. Как пояснил Богдан Проценко, руководитель проекта в ЮФУ, зарубежные модели часто обучаются на англоязычных датасетах, а русскоязычный контент либо переведен, либо представлен в меньшем объеме.

Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если ее спросить на английском и попросить на нем же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации.
Богдан Проценко, ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ 

Вопросы из «Что? Где? Когда?» требуют не только эрудиции, но и понимания культурного контекста, игры слов и логических связей. LLM, которая имеет 405 миллиардов параметров и способна понимать десятки естественных языков и языков программирования, а также разбираться в самых разных областях знаний, от квантовой механики до медицины, ошибалась в вопросах о композиторе Владимире Шаинском или Царь-пушке — темах, очевидных для русскоязычных людей.

Михаил Левандовский, четырёхкратный чемпион мира по игре «Что? Где? Когда?», отметил, что главная особенность этой игры — её изменчивость. В начале истории игры «Что? Где? Когда?» ключом к успеху было умение распознавать «явления» — абстрактные образы и социальные закономерности. Для современных систем искусственного интеллекта это по-прежнему представляет серьёзную проблему.

Ученые экспериментировали с разными методами генерации ответов, включая «цепочку рассуждений» и внутреннюю самокритику модели. Оказалось, что подход, имитирующий обсуждение в команде знатоков, улучшает точность, но иногда подавляет креативность ИИ.

Решать вопросы «Своей игры» искусственному интеллекту определенно будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завернуты» так, что лишь единицы поймут о чем речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней.
Алексей Паевский, научный журналист, популяризатор науки и лектор, участник «Своей игры» и автор вопросов для «Что? Где? Когда?»

Искусственный интеллект (ИИ) пока не может сравниться с человеком в способности генерировать новые идеи и находить нестандартные решения. Хотя ИИ может отвечать на вопросы, на которые уже есть правильный ответ, он всё ещё не способен к творческому мышлению и созданию чего-то нового. До тех пор пока большие языковые модели не будут обучены на русскоязычных данных, они будут уступать нам даже в викторинах.

Читайте ещё материалы по теме:

Российский ускоритель ИИ с рекордной производительностью 960 TOPS представила компания «ХайТэк»

ИИ-система для мониторинга утомления создана российскими учёными

Академик РАН: Россия должна сосредоточиться на прикладных моделях ИИ

20 апр 17:32 Новости
Время загадывать желания: звездопад Лириды начнётся уже 21 апреля Самые яркие вспышки можно увидеть в ближайшие несколько ночей
20 апр 16:39 Новости
«Прогресс МС-32» сгорит в атмосфере: миссия корабля на МКС завершена После полугода работы грузовой аппарат отстыкуется от станции и уйдёт с орбиты
20 апр 15:08 Новости
Комету сняли прямо с орбиты: редкое небесное явление попало в кадр с МКС Сергей Кудь-Сверчков показал небо, где одновременно видны яркий объект, галактика и полярное сияние
20 апр 14:52 Новости
Испытания нового агрегата термостатирования для ракет-носителей «Ангара-А5» прошли на Восточном Инженеры ЦЭНКИ подтвердили заложенные в оборудование характеристики
20 апр 09:45 Новости
Астероид Апофис пролетит над Россией: его можно будет увидеть невооружённым глазом Сближение произойдёт 13 апреля 2029 года и станет одним из самых заметных за последние годы
Источники:
Naked Science

Сейчас на главной

РСХБ адаптирует мобильное приложение для старшего поколения: упрощённый интерфейс и онлайн-перевод пенсии
20 апр. 2026 г., 18:17:00

Банк внедряет специальный режим с крупным шрифтом, финансовыми подсказками и дистанционным оформлением выплат