Los científicos europeos aceleraron el entrenamiento de recomendaciones de IA 60 veces gracias al conjunto de datos Yambda de Yandex

El conjunto de datos ruso con 5 mil millones de eventos de Yandex Music ayudó a optimizar el modelo Seater

Investigadores de la Universidad de Ámsterdam informaron de una aceleración significativa en el entrenamiento de sistemas de recomendación: casi 60 veces. Un papel clave en el experimento lo desempeñó el conjunto de datos abierto Yambda, publicado por Yandex en 2025. Contiene alrededor de 5 mil millones de eventos anonimizados de usuarios del servicio Yandex Music y se considera uno de los mayores conjuntos de datos públicos para tareas de recomendación.

El trabajo se realizó sobre el modelo Seater, que forma un catálogo jerárquico de contenido según el principio de una estructura en árbol. Este enfoque aumenta la precisión de las recomendaciones, aunque la etapa de preparación del catálogo anteriormente ocupaba hasta el 20% del tiempo total de entrenamiento.

Los científicos propusieron dos métodos de optimización. El primero está orientado a reducir al máximo el tiempo de procesamiento; el segundo combina una preparación acelerada con un perfeccionamiento adicional de la estructura. En los datos de Yambda, el método básico redujo el tiempo de preprocesamiento de 82 minutos a 83 segundos sin pérdida de calidad. La variante combinada proporcionó una aceleración de 15 veces y mostró un aumento de la precisión.

Según los resultados de las pruebas, Seater superó a los modelos SASRec, BERT4Rec y GRU4Rec en un 13–17%. Los desarrolladores señalan que la escala de Yambda permitió confirmar la aplicabilidad de los sistemas de recomendación generativos en catálogos grandes. El código fuente de la versión actualizada de Seater se ha publicado en acceso abierto.

Lea también otros materiales sobre el tema: