Европейские учёные ускорили обучение ИИ-рекомендаций в 60 раз благодаря датасету Yambda от «Яндекса»

Исследователи из Амстердамского университета сообщили о значительном ускорении обучения рекомендательных систем — почти в 60 раз. Ключевую роль в эксперименте сыграл открытый датасет Yambda, опубликованный «Яндексом» в 2025 году. Он содержит около 5 млрд обезличенных пользовательских событий сервиса «Яндекс Музыка» и считается одним из крупнейших публичных наборов данных для задач рекомендаций.

Работа велась над моделью Seater, которая формирует иерархический каталог контента по принципу древовидной структуры. Такой подход повышает точность рекомендаций, однако этап подготовки каталога ранее занимал до 20% общего времени обучения.

Учёные предложили два способа оптимизации. Первый ориентирован на максимальное сокращение времени обработки, второй сочетает ускоренную подготовку с дополнительной доработкой структуры. На данных Yambda базовый метод уменьшил время предварительной обработки с 82 минут до 83 секунд без потери качества. Комбинированный вариант обеспечил ускорение в 15 раз и показал рост точности.

По результатам тестирования Seater опередила модели SASRec, BERT4Rec и GRU4Rec на 13–17%. Разработчики отмечают, что масштаб Yambda позволил подтвердить применимость генеративных рекомендательных систем на крупных каталогах. Исходный код обновленной версии Seater опубликован в открытом доступе.

Читайте ещё материалы по теме:

Комментарии