Роботам и БПЛА дали новое зрение: в МФТИ нашли замену лидарам

Алгоритм учится понимать глубину сцены по теням, перспективе и перекрытиям

Учёные из МФТИ вместе с международными исследователями представили новый алгоритм стереозрения Un-ViTAStereo, который позволяет роботам и беспилотникам «видеть» мир в объёме — без дорогих лидаров и сложной ручной разметки.

Проще говоря, система учится определять расстояние до объектов так же, как человек — по двум изображениям. Но делает это точнее и стабильнее, особенно в сложных условиях.

В основе разработки — модель Depth Anything V2. Она анализирует одно изображение и по косвенным признакам вроде теней, перспективы и перекрытий оценивает глубину сцены. Дальше алгоритм фильтрует только те данные, которые совпадают с «подсказками» модели-наставника, и на их основе строит точную карту расстояний.

Работает система в три шага: сначала проверяет каждый пиксель, затем «достраивает» проблемные участки через соседние точки и в конце сглаживает результат, чтобы получить цельную картину.

В итоге — заметный прирост точности. На тестах беспилотников (датасет KITTI 2015) доля грубых ошибок снизилась до 5%. Это на 23% меньше критичных промахов при определении расстояний.

Традиционные системы стереозрения часто «слепнут» в сложных сценах — например, перед однотонными поверхностями, в тумане или среди густой листвы. Новый алгоритм частично решает эту проблему и при этом остаётся более доступным для внедрения, поскольку не требует лидаров — одного из самых дорогих элементов в системах автономного транспорта.

Разработчики отмечают, что это только первый шаг. В будущем алгоритм планируют сделать самообучающимся и дополнительно усилить его точность за счёт данных лидаров.

Читайте ещё материалы по теме: