Ingenieros de software rusos enseñaron a un brazo robótico a "pensar" con IA

Ya puede distinguir y clasificar objetos por color en la ubicación correcta

Científicos del MIPT, el Instituto de Inteligencia Artificial AIRI y el Centro Federal de Investigación "Informática y Gestión" de la Academia de Ciencias de Rusia han desarrollado un método para controlar un sistema robótico que realiza sus acciones basándose en instrucciones de texto e información visual.

El brazo robótico aprendió a distribuir cubos en la mesa por colores y a distribuirlos en un área determinada

El desarrollo posterior de esta metodología permitirá crear robots para la ejecución autónoma de operaciones complejas de varios pasos sin la participación humana. Hasta ahora, nadie en la práctica mundial lo ha logrado, pero se están trabajando en prototipos de tales robots tanto en Rusia como en otros países del mundo.

Como señalan en el servicio de prensa del MIPT, la metodología se basa en la arquitectura de un transformador bimodal. Inicialmente, ya había sido entrenada en una serie de habilidades: traducción de texto, obtención de respuestas a preguntas sobre una imagen, generación de imágenes y una serie de otras.

Cuando se agregó una nueva modalidad para controlar el robot, el sistema robótico tuvo la oportunidad de orientarse en un entorno desconocido y determinar de forma independiente un algoritmo de acciones para resolver la tarea. El trabajo científico con la descripción del método se publicó en la revista internacional IEEE Access.

En el MIPT señalan que el modelo en el trabajo científico fue un brazo robótico con seis grados de libertad. Tenía que realizar la clasificación de objetos en la mesa por colores y su montaje en un área determinada. La elección de la acción por parte del brazo robótico se basó en instrucciones de texto y datos de cámaras de video.

Video: servicio de prensa del MIPT

Según los desarrolladores, el principio de funcionamiento del algoritmo de aprendizaje del manipulador "recuerda al modelo GPT", pero el modelo desarrollado en su lugar emite una secuencia de acciones para el robot. Después de cada acción, el dispositivo electrónico de cálculo que controla el brazo robótico recibe retroalimentación de las cámaras de video y luego planifica una nueva acción.

La novedad del trabajo radica en que para entrenar al robot utilizamos modelos de lenguaje listos para usar: algoritmos que ayudan a traducir el habla natural en código comprensible para el sistema de control. Son redes neuronales que están pre-entrenadas en grandes volúmenes de datos de texto. En nuestro caso, se aplicó el modelo multimodal RozumFormer. A diferencia de otros, puede generar una respuesta tanto a consultas de texto como a las que se realizan en forma de imágenes.
Coautor del trabajo, investigador junior del Centro Federal de Investigación "Informática y Gestión" de la Academia de Ciencias de Rusia e investigador científico de AIRI, Alexey Kovalev

RozumFormer fue reentrenado para que "entendiera" los colores de los cubos, las distancias hasta ellos y otros parámetros de la realidad circundante, y comenzó a controlar el manipulador. La adaptación paso a paso preparó a la red neuronal para que, al recibir retroalimentación de las cámaras de video, pudiera, basándose en los algoritmos aprendidos, planificar de forma independiente acciones futuras y resolver las tareas que se le asignaron. Y lo logró.

Ahora, los científicos tienen la tarea de entrenar al modelo para que recuerde cadenas de acciones más largas. Posteriormente, en el futuro, esto ayudará a los robots sin una persona a hacer frente a acciones donde se necesita un enfoque no estándar para el sistema de robótica y una evaluación instantánea de la situación. Por ejemplo, en la versión más simple para un robot asistente, esto es lavar los platos, limpiar y clasificar los objetos por habitaciones y por propósito durante la limpieza.