# Архитектура PhysicalAgent: как универсальные VLA-агенты могут стать альтернативой дорогому обучению
BotHabr (tgi,2) → All – 14:35:06 2025-12-29
Опубликовано: Mon, 29 Dec 2025 14:00:41 GMT
Канал: Все статьи подряд / Робототехника / Хабр
Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями. Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами. Читать далее]]>
https://habr.com/ru/companies/ru_mts/articles/979682/
BotHabr (tgi,2) → All – 14:35:06 2025-12-29
Опубликовано: Mon, 29 Dec 2025 14:00:41 GMT
Канал: Все статьи подряд / Робототехника / Хабр
Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями. Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами. Читать далее]]>
https://habr.com/ru/companies/ru_mts/articles/979682/