Среднестатистический россиянин оказался умнее ИИ: учёные ЮФУ провели исследование с использованием архива игры «Что? Где? Когда?»

LLM ошибалась в вопросах, которые тривиальны для россиян

Исследователи из Южного федерального университета (ЮФУ) предложили необычный способ оценить уровень развития искусственного интеллекта — заставить его отвечать на вопросы из телевикторин «Что? Где? Когда?» и «Своя игра». Оказалось, что даже самые продвинутые языковые модели (LLM) справляются с такими заданиями хуже, чем среднестатистический россиянин.

Главная проблема современных LLM, включая ChatGPT и LLaMa-3, — недостаток качественных данных на русском языке. Как пояснил Богдан Проценко, руководитель проекта в ЮФУ, зарубежные модели часто обучаются на англоязычных датасетах, а русскоязычный контент либо переведен, либо представлен в меньшем объеме.

Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если ее спросить на английском и попросить на нем же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации.
Богдан Проценко, ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ 

Вопросы из «Что? Где? Когда?» требуют не только эрудиции, но и понимания культурного контекста, игры слов и логических связей. LLM, которая имеет 405 миллиардов параметров и способна понимать десятки естественных языков и языков программирования, а также разбираться в самых разных областях знаний, от квантовой механики до медицины, ошибалась в вопросах о композиторе Владимире Шаинском или Царь-пушке — темах, очевидных для русскоязычных людей.

Михаил Левандовский, четырёхкратный чемпион мира по игре «Что? Где? Когда?», отметил, что главная особенность этой игры — её изменчивость. В начале истории игры «Что? Где? Когда?» ключом к успеху было умение распознавать «явления» — абстрактные образы и социальные закономерности. Для современных систем искусственного интеллекта это по-прежнему представляет серьёзную проблему.

Ученые экспериментировали с разными методами генерации ответов, включая «цепочку рассуждений» и внутреннюю самокритику модели. Оказалось, что подход, имитирующий обсуждение в команде знатоков, улучшает точность, но иногда подавляет креативность ИИ.

Решать вопросы «Своей игры» искусственному интеллекту определенно будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завернуты» так, что лишь единицы поймут о чем речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней.
Алексей Паевский, научный журналист, популяризатор науки и лектор, участник «Своей игры» и автор вопросов для «Что? Где? Когда?»

Искусственный интеллект (ИИ) пока не может сравниться с человеком в способности генерировать новые идеи и находить нестандартные решения. Хотя ИИ может отвечать на вопросы, на которые уже есть правильный ответ, он всё ещё не способен к творческому мышлению и созданию чего-то нового. До тех пор пока большие языковые модели не будут обучены на русскоязычных данных, они будут уступать нам даже в викторинах.

Читайте ещё материалы по теме:

Российский ускоритель ИИ с рекордной производительностью 960 TOPS представила компания «ХайТэк»

ИИ-система для мониторинга утомления создана российскими учёными

Академик РАН: Россия должна сосредоточиться на прикладных моделях ИИ

19 мин назад Новости
Микролазер размером с человеческий волос создали в России Разработка НГУ может пригодиться в телекоммуникациях, фотонике и ранней диагностике рака
08:01 Новости
Мощная вспышка M6.8 произошла на Солнце — до максимального класса остался один шаг Учёные отмечают сильную активность звезды, однако прямой угрозы магнитной бури пока нет
06:59 Новости
Киберполигон для развития ИИ предложили создать в Челябинске Цифровую инфраструктуру могут разместить на базе межуниверситетского кампуса «Южный Урал»
06:16 Новости
Закон об ИИ«потерял зубы»: маркировку отменили, а авторские права и ответственность отложили Господдержку получат только «суверенные» и «национальные» разработки
21 июн 16:15 Новости
Стенд-«тренажёр» для грузовых колёс изобрели в КубГТУ для измерения проскальзывания шин в 3D Устройство имитирует разные типы дорожного покрытия
Источники:
Naked Science

Сейчас на главной