Исследователи из Южного федерального университета (ЮФУ) предложили необычный способ оценить уровень развития искусственного интеллекта — заставить его отвечать на вопросы из телевикторин «Что? Где? Когда?» и «Своя игра». Оказалось, что даже самые продвинутые языковые модели (LLM) справляются с такими заданиями хуже, чем среднестатистический россиянин.

Главная проблема современных LLM, включая ChatGPT и LLaMa-3, — недостаток качественных данных на русском языке. Как пояснил Богдан Проценко, руководитель проекта в ЮФУ, зарубежные модели часто обучаются на англоязычных датасетах, а русскоязычный контент либо переведен, либо представлен в меньшем объеме.

Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если ее спросить на английском и попросить на нем же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации.
Богдан Проценко, ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ 

Вопросы из «Что? Где? Когда?» требуют не только эрудиции, но и понимания культурного контекста, игры слов и логических связей. LLM, которая имеет 405 миллиардов параметров и способна понимать десятки естественных языков и языков программирования, а также разбираться в самых разных областях знаний, от квантовой механики до медицины, ошибалась в вопросах о композиторе Владимире Шаинском или Царь-пушке — темах, очевидных для русскоязычных людей.

Михаил Левандовский, четырёхкратный чемпион мира по игре «Что? Где? Когда?», отметил, что главная особенность этой игры — её изменчивость. В начале истории игры «Что? Где? Когда?» ключом к успеху было умение распознавать «явления» — абстрактные образы и социальные закономерности. Для современных систем искусственного интеллекта это по-прежнему представляет серьёзную проблему.

Ученые экспериментировали с разными методами генерации ответов, включая «цепочку рассуждений» и внутреннюю самокритику модели. Оказалось, что подход, имитирующий обсуждение в команде знатоков, улучшает точность, но иногда подавляет креативность ИИ.

Решать вопросы «Своей игры» искусственному интеллекту определенно будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завернуты» так, что лишь единицы поймут о чем речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней.
Алексей Паевский, научный журналист, популяризатор науки и лектор, участник «Своей игры» и автор вопросов для «Что? Где? Когда?»

Искусственный интеллект (ИИ) пока не может сравниться с человеком в способности генерировать новые идеи и находить нестандартные решения. Хотя ИИ может отвечать на вопросы, на которые уже есть правильный ответ, он всё ещё не способен к творческому мышлению и созданию чего-то нового. До тех пор пока большие языковые модели не будут обучены на русскоязычных данных, они будут уступать нам даже в викторинах.

Читайте ещё материалы по теме:

Российский ускоритель ИИ с рекордной производительностью 960 TOPS представила компания «ХайТэк»

ИИ-система для мониторинга утомления создана российскими учёными

Академик РАН: Россия должна сосредоточиться на прикладных моделях ИИ

Источники
Naked Science

Сейчас на главной

Полковник раскрыл стратегию применения Ту-22М3 и Ту-160 «Белый лебедь»
2 часа назад
Полковник раскрыл стратегию применения Ту-22М3 и Ту-160 «Белый лебедь»

Анатолий Матвийчук: бомбардировщики дополняют ядерную триаду и действуют дистанционно

Новости Военная техника
Максим Борисов
Уголовное дело и люди под завалами: обрушилась крыша одного из цехов липецкого завода «Моторинвест»,  там собирают автомобили Evolute
3 часа назад
Уголовное дело и люди под завалами: обрушилась крыша одного из цехов липецкого завода «Моторинвест», там собирают автомобили Evolute

Причиной обрушения могло стать большое скопление снега

Новости Авто «Моторинвест»
Алина Шруб
В России готовят гигантский заказ на «летающие Т-34» — дроны «Упырь»
3 часа назад
В России готовят гигантский заказ на «летающие Т-34» — дроны «Упырь»

Минобороны оказалось довольно работой БПЛА повышенной грузоподъёмности

Новости Военная техника «Уралдронзавод»
Максим Борисов
Легендарный внедорожник получил светодиодную оптику: фото Lada Niva Legend засветилось в Сети
3 часа назад
Легендарный внедорожник получил светодиодную оптику: фото Lada Niva Legend засветилось в Сети

Форма фар автомобиля осталась прежней

Новости Авто АвтоВАЗ
Алина Шруб
Мантуров гарантировал полную безопасность самолёта Ил-114-300
3 часа назад
Мантуров гарантировал полную безопасность самолёта Ил-114-300

Вице-премьер РФ подчеркнул приоритет надёжности турбовинтового лайнера перед сроками поставок

Новости Авиация
Андрей Рудковский
Вертолёт Ка-52 назвали убийцей беспилотников
4 часа назад
Вертолёт Ка-52 назвали убийцей беспилотников

Боевая машина только за один вылет сбила 25 дронов

Новости Военная техника
Андрей Рудковский
4 часа назад
Увеличат ресурс излучателей в 2-3 раза: способ восстановления лазерных трубок в станках разработали в РТУ МИРЭА

Технология успешно прошла испытания

Новости Наука РТУ МИРЭА
Алина Шруб
«Волга» возвращается: легендарную марку начнут собирать в этом году
4 часа назад
«Волга» возвращается: легендарную марку начнут собирать в этом году

Проект реализуют на заводе в Нижнем Новгороде, где раньше производили Skoda и Volkswagen

Новости Авто Volkswagen Geely АО «Производство легковых автомобилей» «Волга» Skoda
Олеся Михайлова
За рубежом видят угрозу в российских ракетах «воздух-воздух» Р-37М на истребителях Су-35
4 часа назад
За рубежом видят угрозу в российских ракетах «воздух-воздух» Р-37М на истребителях Су-35

Business Insider: Новые ракеты превратили самолёт в опасного противника

Новости Военная техника
Андрей Рудковский
SJ-100 завершил сертификационные испытания в Сыктывкаре и вернулся в Жуковский
4 часа назад
SJ-100 завершил сертификационные испытания в Сыктывкаре и вернулся в Жуковский

Экипаж провёл тесты аэродинамики и приёмников воздушного давления на высотах

Новости Авиация
Андрей Рудковский
РЖД не может содержать Рижский вокзал: объект продают на открытом аукционе
4 часа назад
РЖД не может содержать Рижский вокзал: объект продают на открытом аукционе

Стартовая цена вокзала на торгах — 4 млрд рублей

Новости Финансы Транспорт РЖД
Алина Шруб
4 часа назад
415 км на одной зарядке: аккумуляторы «Росатома» для «Москвича» прошли испытания и готовятся к выпуску

Серийное производство планируют запустить в этом году на гигафабрике в Красной Пахре

Новости Авто Москвич Росатом
Олеся Михайлова