Investigadores de la Escuela Superior de Economía (ESE) y del Instituto de Inteligencia Artificial AIRI han desarrollado un innovador método de ajuste fino de redes neuronales que acelera el proceso de adaptación de los modelos a nuevas tareas. La tecnología, denominada GSOFT, se basa en la agrupación y mezcla óptima de datos, lo que permite reducir los costes computacionales sin pérdida de calidad.
Los enfoques tradicionales para el reentrenamiento de redes neuronales, como LoRA o BOFT, requieren recursos significativos, especialmente cuando se trabaja con modelos grandes. Científicos rusos han propuesto una alternativa: matrices Group-and-Shuffle (GS), que dividen los datos en grupos, los procesan por separado y luego los combinan de forma óptima.
Hemos descubierto cómo formar matrices ortogonales utilizando solo dos matrices de un tipo especial, en lugar de cinco o seis como en los enfoques anteriores. Esto ahorra recursos y tiempo de entrenamiento.
El método GSOFT se probó en diversas tareas, incluyendo el reentrenamiento del modelo de lenguaje RoBERTa y la generación de imágenes. En comparación con sus análogos, mostró una mayor precisión con menores costes de memoria y tiempo. Una variante adicional, Double GSOFT, permite ajustar los parámetros desde ambos lados, lo que aumenta la flexibilidad del modelo.
Hemos probado el método en varios escenarios, desde modelos lingüísticos y generativos hasta redes convolucionales robustas. En cada uno de ellos, funcionó de forma fiable y con menores costes de recursos. Esto confirma que podemos utilizar el método para diferentes fines.
Los investigadores también probaron su método en redes neuronales convolucionales, que se utilizan normalmente para el análisis de imágenes y vídeo, por ejemplo, en sistemas de reconocimiento facial. Desarrollaron matrices GS que pueden utilizarse incluso en situaciones en las que el modelo debe ser resistente al ruido y las distorsiones.
La versatilidad del enfoque permite aplicarlo en diversos campos, desde la mejora de modelos lingüísticos hasta la creación de sistemas robustos de reconocimiento de imágenes. Esto abre nuevas perspectivas para los desarrolladores que necesitan adaptar rápidamente las soluciones de IA a las tareas cambiantes.
Lea más materiales sobre el tema:
Constructor para adultos: El PAK-AI cambia el enfoque de la digitalización empresarial en Rusia
«Alisa, suscríbete a www1.ru»: Yandex complementará su asistente de voz con un agente de IA