Исследователи из Института AIRI и Центра когнитивного моделирования МФТИ создали инновационный подход, позволяющий большим языковым моделям более эффективно взаимодействовать с трёхмерным пространством. Об этом сообщает пресс-служба Института AIRI.
В отличие от традиционных моделей, которые часто опираются на двухмерные изображения или сырые данные ввиде облаков точек, новый метод помогает ИИ лучше понимать взаимосвязи между объектами. Например, что стул находится у стола и предназначен для сидения.
Система под названием 3DGraphLLM учитывает не только сами объекты, но и их пространственные и смысловые связи, что особенно важно в помещениях с множеством предметов. Речь идёт о кухнях, мастерских или офисов. Модель обучалась на известных дата-сетах с точными 3D-реконструкциями реальных помещений и текстовыми описаниями объектов, используя языковые модели Vicuna-v1.5 и LLAMA3, которые оптимизированы для робототехники.
Тестирование 3DGraphLLM показало, что она превосходит по точности распознавания объектов многие существующие методы, включая другие подходы с языковыми моделями. Модель продемонстрировала улучшение точности более чем на 7% по сравнению с базовым решением. Она работает быстрее и экономнее по ресурсам, чем самые современные аналоги.
В настоящее время команда ученых работает над интеграцией этого метода в реальные робототехнические системы. Основная цель — чтобы роботы не только видели объекты, но и понимали их взаимосвязи, что позволит им эффективно выполнять задачи пользователей. Эти навыки являются ключевыми для создания нового поколения сервисных и бытовых роботов.
Читайте ещё по теме:
В МФТИ разработали нейрон, который сократит вычислительные затраты