Investigadores de la ESE y AIRI presentan un método acelerado para el reentrenamiento de redes neuronales

El nuevo enfoque "Agrupar y mezclar" reduce el tiempo y los costes de adaptación de los modelos de IA

Investigadores de la Escuela Superior de Economía (ESE) y del Instituto de Inteligencia Artificial AIRI han desarrollado un innovador método de ajuste fino de redes neuronales que acelera el proceso de adaptación de los modelos a nuevas tareas. La tecnología, denominada GSOFT, se basa en la agrupación y mezcla óptima de datos, lo que permite reducir los costes computacionales sin pérdida de calidad.

Comparación de los resultados de la generación con diferentes métodos después de 3000 pasos de entrenamiento / © Gorbunov, M., Yudin, N., Soboleva, V., Alanov, A., Naumov, A., Rakhuba, M.

Los enfoques tradicionales para el reentrenamiento de redes neuronales, como LoRA o BOFT, requieren recursos significativos, especialmente cuando se trabaja con modelos grandes. Científicos rusos han propuesto una alternativa: matrices Group-and-Shuffle (GS), que dividen los datos en grupos, los procesan por separado y luego los combinan de forma óptima.

Hemos descubierto cómo formar matrices ortogonales utilizando solo dos matrices de un tipo especial, en lugar de cinco o seis como en los enfoques anteriores. Esto ahorra recursos y tiempo de entrenamiento.
Nikolái Yudin, investigador en prácticas del Laboratorio de Investigación y Formación de Métodos Matriciales y Tensoriales en el Aprendizaje Automático de la Universidad Nacional de Investigación ESE

El método GSOFT se probó en diversas tareas, incluyendo el reentrenamiento del modelo de lenguaje RoBERTa y la generación de imágenes. En comparación con sus análogos, mostró una mayor precisión con menores costes de memoria y tiempo. Una variante adicional, Double GSOFT, permite ajustar los parámetros desde ambos lados, lo que aumenta la flexibilidad del modelo.

Hemos probado el método en varios escenarios, desde modelos lingüísticos y generativos hasta redes convolucionales robustas. En cada uno de ellos, funcionó de forma fiable y con menores costes de recursos. Esto confirma que podemos utilizar el método para diferentes fines.
Aibek Alanov, investigador principal del Centro de Aprendizaje Profundo y Métodos Bayesianos del Instituto de Inteligencia Artificial y Ciencias Digitales de la Facultad de Ciencias de la Computación de la Universidad Nacional de Investigación ESE, jefe del grupo "IA generativa controlada" del Laboratorio FusionBrain del Instituto AIRI

Los investigadores también probaron su método en redes neuronales convolucionales, que se utilizan normalmente para el análisis de imágenes y vídeo, por ejemplo, en sistemas de reconocimiento facial. Desarrollaron matrices GS que pueden utilizarse incluso en situaciones en las que el modelo debe ser resistente al ruido y las distorsiones.

La versatilidad del enfoque permite aplicarlo en diversos campos, desde la mejora de modelos lingüísticos hasta la creación de sistemas robustos de reconocimiento de imágenes. Esto abre nuevas perspectivas para los desarrolladores que necesitan adaptar rápidamente las soluciones de IA a las tareas cambiantes.

Lea más materiales sobre el tema:

Constructor para adultos: El PAK-AI cambia el enfoque de la digitalización empresarial en Rusia

Adiós a la rutina de la oficina: Smart Engines presenta agentes de IA para automatizar la creación de plantillas en documentos

«Alisa, suscríbete a www1.ru»: Yandex complementará su asistente de voz con un agente de IA