Инструмент, позволяющий определять фактическую производительность систем искусственного интеллекта при обработке больших текстов на русском и английском языках, разработали учёные из России и Великобритании. Рассказываем подробнее.
Созданный бенчмарк оценивает, как точность ответа зависит от длины текста, а также качество ответов нейросети. Отрывки произведений из художественной литературы со встроенными задачами на понимание коротких тестов учёные совместили с набором данных BABI.
В ходе тестов выяснилось, что популярные языковые модели учитывают около 20% длины контекста, а чем задача сложнее, а объём данных больше, тем качество получается хуже. Необходимо улучшать обработку данных, полагают учёные. Об этом сообщает пресс-служба Института AIRI.
В исследовании принимали участие Институт AIRI, МФТИ, Лондонский институт математических наук и SberDevices.
Руководитель группы «Модели с памятью» Института AIRI Юрий Куратов уверен, что разработка учёных поможет разработчикам языковых моделей понять, где требуется улучшение.
Банк данных для обучения ИИ разработали в Москве
Нейросеть для разработки сценариев и фильмов создали в России