Среднестатистический россиянин оказался умнее ИИ: учёные ЮФУ провели исследование с использованием архива игры «Что? Где? Когда?»

LLM ошибалась в вопросах, которые тривиальны для россиян

Исследователи из Южного федерального университета (ЮФУ) предложили необычный способ оценить уровень развития искусственного интеллекта — заставить его отвечать на вопросы из телевикторин «Что? Где? Когда?» и «Своя игра». Оказалось, что даже самые продвинутые языковые модели (LLM) справляются с такими заданиями хуже, чем среднестатистический россиянин.

Главная проблема современных LLM, включая ChatGPT и LLaMa-3, — недостаток качественных данных на русском языке. Как пояснил Богдан Проценко, руководитель проекта в ЮФУ, зарубежные модели часто обучаются на англоязычных датасетах, а русскоязычный контент либо переведен, либо представлен в меньшем объеме.

Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если ее спросить на английском и попросить на нем же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации.
Богдан Проценко, ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ 

Вопросы из «Что? Где? Когда?» требуют не только эрудиции, но и понимания культурного контекста, игры слов и логических связей. LLM, которая имеет 405 миллиардов параметров и способна понимать десятки естественных языков и языков программирования, а также разбираться в самых разных областях знаний, от квантовой механики до медицины, ошибалась в вопросах о композиторе Владимире Шаинском или Царь-пушке — темах, очевидных для русскоязычных людей.

Михаил Левандовский, четырёхкратный чемпион мира по игре «Что? Где? Когда?», отметил, что главная особенность этой игры — её изменчивость. В начале истории игры «Что? Где? Когда?» ключом к успеху было умение распознавать «явления» — абстрактные образы и социальные закономерности. Для современных систем искусственного интеллекта это по-прежнему представляет серьёзную проблему.

Ученые экспериментировали с разными методами генерации ответов, включая «цепочку рассуждений» и внутреннюю самокритику модели. Оказалось, что подход, имитирующий обсуждение в команде знатоков, улучшает точность, но иногда подавляет креативность ИИ.

Решать вопросы «Своей игры» искусственному интеллекту определенно будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завернуты» так, что лишь единицы поймут о чем речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней.
Алексей Паевский, научный журналист, популяризатор науки и лектор, участник «Своей игры» и автор вопросов для «Что? Где? Когда?»

Искусственный интеллект (ИИ) пока не может сравниться с человеком в способности генерировать новые идеи и находить нестандартные решения. Хотя ИИ может отвечать на вопросы, на которые уже есть правильный ответ, он всё ещё не способен к творческому мышлению и созданию чего-то нового. До тех пор пока большие языковые модели не будут обучены на русскоязычных данных, они будут уступать нам даже в викторинах.

Читайте ещё материалы по теме:

Российский ускоритель ИИ с рекордной производительностью 960 TOPS представила компания «ХайТэк»

ИИ-система для мониторинга утомления создана российскими учёными

Академик РАН: Россия должна сосредоточиться на прикладных моделях ИИ

Источники
Naked Science

Сейчас на главной