Мультисенсорная имитационная платформа для обучения и тестирования домашних роботов

Роботы на базе искусственного интеллекта становятся все более совершенными и постепенно внедряются в самых разных условиях реального мира, включая торговые центры, аэропорты, больницы и другие общественные места. В будущем эти роботы могли бы также помогать людям по дому, выполнять офисные поручения и другие утомительные или отнимающие много времени задачи.

Однако, прежде чем роботы смогут быть развернуты в реальных условиях, алгоритмы искусственного интеллекта, управляющие их движениями и позволяющие им решать конкретные задачи, должны быть обучены и протестированы в имитируемых средах. Хотя в настоящее время существует множество платформ для обучения этих алгоритмов, очень немногие из них учитывают звуки, которые роботы могут обнаруживать и с которыми они взаимодействуют при выполнении задач.

Команда исследователей из Стэнфордского университета недавно создала Sonicverse, имитируемую среду для обучения воплощенных агентов искусственного интеллекта (то есть роботов), которая включает в себя как визуальные, так и слуховые элементы. Эта платформа, представленная в документе, представленном на ICRA 2023 (и в настоящее время доступная на сервере препринтов arXiv), могла бы значительно упростить обучение алгоритмам, которые предназначены для реализации в роботах, использующих как камеры, так и микрофоны для навигации по окружению.

«В то время как мы, люди, воспринимаем мир как взглядом, так и слушанием, очень немногие предыдущие работы касались воплощенного обучения с помощью звука», — сказал Tech Xplore Руохан Гао, один из исследователей, проводивших исследование. «Существующие встроенные симуляторы искусственного интеллекта либо предполагают, что среда тихая и агенты не способны распознавать звук, либо используют аудиовизуальные агенты только в процессе моделирования. Нашей целью было представить новую платформу мультисенсорного моделирования с реалистичным интегрированным аудиовизуальным моделированием для обучения домашних агентов, которые могут как видеть, так и слышать».

Sonicverse, платформа моделирования, созданная Гао и его коллегами, моделирует как визуальные элементы заданной среды, так и звуки, которые агент мог бы обнаружить, исследуя эту среду. Исследователи надеялись, что это поможет обучать роботов более эффективно и в более «реалистичных» виртуальных пространствах, улучшая их последующую работу в реальном мире.

«В отличие от предыдущих работ, мы надеемся продемонстрировать, что агенты, обученные моделированию, могут успешно выполнять аудиовизуальную навигацию в сложных реальных условиях», — пояснил Гао. «Sonicverse — это новая платформа мультисенсорного моделирования, которая моделирует непрерывный рендеринг звука в 3D-средах в режиме реального времени, она может служить испытательным стендом для многих задач искусственного интеллекта и взаимодействия человека и робота, требующих аудиовизуального восприятия, таких как аудиовизуальная навигация».

Чтобы оценить свою платформу, исследователи использовали ее для обучения смоделированной версии TurtleBot, робота, созданного Willow Garage, эффективно передвигаться в помещении и достигать намеченного местоположения, не сталкиваясь с препятствиями. Затем они применили искусственный интеллект, обученный в их симуляциях, к реальному роботу TurtleBot и протестировали его возможности аудиовизуальной навигации в офисной среде.

«Мы продемонстрировали реализм Sonicverse с помощью преобразования симуляции в реальность, чего не удалось достичь с помощью других аудиовизуальных симуляторов», — сказал Гао. «Другими словами, мы показали, что агент, обученный на нашем симуляторе, может успешно выполнять аудиовизуальную навигацию в реальных условиях, например, на офисной кухне».

Результаты тестов, проведенных исследователями, являются весьма многообещающими, предполагая, что их платформа моделирования могла бы обучать роботов более эффективно решать задачи реального мира, используя как визуальные, так и слуховые стимулы. Платформа Sonicverse теперь доступна онлайн и вскоре может быть использована другими командами робототехников для обучения и тестирования внедренных агентов искусственного интеллекта.

«Внедренное обучение с использованием множества методов обладает огромным потенциалом для открытия множества новых приложений для будущих бытовых роботов», — добавил Гао. «В наших следующих исследованиях мы планируем интегрировать мультисенсорные объектные ресурсы, такие как те, что представлены в нашей недавней работе ObjectFolder, в симулятор, чтобы мы могли моделировать мультисенсорные сигналы как на уровне пространства, так и на уровне объекта, а также включать другие сенсорные модальности, такие как тактильное восприятие».