Investigadores del Instituto AIRI y del Centro de Modelado Cognitivo del MFTI han creado un enfoque innovador que permite a los grandes modelos lingüísticos interactuar de manera más eficaz con el espacio tridimensional. Así lo informa el servicio de prensa del Instituto AIRI.
A diferencia de los modelos tradicionales, que a menudo se basan en imágenes bidimensionales o datos brutos en forma de nubes de puntos, el nuevo método ayuda a la IA a comprender mejor las interrelaciones entre los objetos. Por ejemplo, que una silla está junto a una mesa y está destinada a sentarse.
El sistema, denominado 3DGraphLLM, tiene en cuenta no solo los objetos en sí, sino también sus conexiones espaciales y semánticas, lo cual es especialmente importante en habitaciones con muchos objetos. Nos referimos a cocinas, talleres u oficinas. El modelo se entrenó con conjuntos de datos conocidos con reconstrucciones 3D precisas de espacios reales y descripciones textuales de objetos, utilizando los modelos lingüísticos Vicuna-v1.5 y LLAMA3, que están optimizados para la robótica.
Las pruebas de 3DGraphLLM demostraron que supera en precisión de reconocimiento de objetos a muchos métodos existentes, incluidos otros enfoques con modelos lingüísticos. El modelo demostró una mejora de la precisión de más del 7% en comparación con la solución básica. Funciona más rápido y ahorra más recursos que los análogos más modernos.
En la actualidad, el equipo de científicos está trabajando en la integración de este método en sistemas robóticos reales. El objetivo principal es que los robots no solo vean los objetos, sino que también comprendan sus interrelaciones, lo que les permitirá realizar eficazmente las tareas de los usuarios. Estas habilidades son clave para la creación de una nueva generación de robots de servicio y domésticos.
Lea también sobre el tema:
En el MFTI desarrollaron una neurona que reducirá los costes computacionales
En Moscú adaptaron redes neuronales para el monitoreo de tierras