Robots y drones reciben una nueva visión: en el MIPT encontraron un reemplazo para los LiDAR

El algoritmo aprende a comprender la profundidad de la escena a partir de sombras, perspectiva y superposiciones

Científicos del MIPT, junto con investigadores internacionales, presentaron un nuevo algoritmo de visión estéreo Un-ViTAStereo, que permite a los robots y drones "ver" el mundo en volumen, sin costosos LiDAR ni complejas marcas manuales.

En pocas palabras, el sistema aprende a determinar la distancia a los objetos de la misma manera que lo hace una persona: a partir de dos imágenes. Pero lo hace de forma más precisa y estable, especialmente en condiciones difíciles.

La base del desarrollo es el modelo Depth Anything V2. Analiza una imagen y, a partir de signos indirectos como sombras, perspectiva y superposiciones, evalúa la profundidad de la escena. A continuación, el algoritmo filtra solo los datos que coinciden con las "pistas" del modelo-mentor y, sobre esta base, construye un mapa preciso de distancias.

El sistema funciona en tres pasos: primero comprueba cada píxel, luego "reconstruye" las áreas problemáticas a través de los puntos vecinos y, al final, suaviza el resultado para obtener una imagen completa.

El resultado es un aumento notable de la precisión. En las pruebas de drones (conjunto de datos KITTI 2015), la proporción de errores graves se redujo al 5%. Esto supone un 23% menos de fallos críticos en la determinación de distancias.

Los sistemas de visión estéreo tradicionales a menudo se "ciegan" en escenas complejas, por ejemplo, frente a superficies monótonas, en la niebla o entre un follaje denso. El nuevo algoritmo resuelve parcialmente este problema y, al mismo tiempo, sigue siendo más accesible para su implementación, ya que no requiere LiDAR, uno de los elementos más caros de los sistemas de transporte autónomo.

Los desarrolladores señalan que este es solo el primer paso. En el futuro, planean hacer que el algoritmo se autoaprenda y aumentar aún más su precisión mediante datos de LiDAR.

Читайте ещё материалы по теме: