Электронный каталог -Станкевич, Л.А. - Планирование движения роботов в социальной среде через обучение с подкреплением- Absopac

Поиск :

Разделы фонда

Справочники

Личный кабинет :

Электронный каталог: Станкевич, Л.А. - Планирование движения роботов в социальной среде через обучение с подкреплением

Станкевич, Л.А. - Планирование движения роботов в социальной среде через обучение с подкреплением

Нет экз.

Статья
Автор: Станкевич, Л.А.
Мехатроника, автоматизация, управление: Планирование движения роботов в социальной среде через обучение с подкреплением
б.г.
ISBN отсутствует

На полку

Статья

Станкевич, Л.А.
Планирование движения роботов в социальной среде через обучение с подкреплением / Л.А. Станкевич, А.А. Ларионов // Мехатроника, автоматизация, управление. – 2024. – № 10. – С. 520-529: ил. - Библиогр.: 20 назв.

Проблема управления движением роботов в социальной среде в местах скопления людей. Разработан и исследован алгоритм планирования движения мобильных роботов среди неподвижных и движущихся препятствий на основе обучения с подкреплением. В качестве прототипа выбран алгоритм GA3C-CADRL, в котором робот и препятствия рассматриваются как взаимодействующие агенты. Алгоритм был модифицирован и реализован с использованием рекуррентной нейронной сети LSTM для аппроксимации одновременно функции ценности и политики. Нейронная сеть обучалась на общем наборе данных, полученном путем обучения с подкреплением типа "актер—критик". Дополнительно разработаны компоненты rl_ planner и social_msgs для интегрирования предварительно обученного алгоритма планирования в систему управления роботом на программной платформе Robot Operating System 2. Первый компонент реализует обработку входных данных, вычисление действия робота и формирование требуемой скорости движения, а второй содержит сообщения с информацией о соседних агентах. Для тестирования алгоритма проведены эксперименты с тремя различными сценариями: со статическими препятствиями, смешанный, с динамическими агентами. Число эпизодов для обучения алгоритма при пяти агентах достигало 1500000. Моделирование движения робота на двух гусеницах в среде Gazebo показало, что в условиях статических препятствий робот достигает цели за наименьшее время. В присутствии динамических препятствий время увеличивалось в два раза по причине уклонения от столкновений. При этом расстояние до ближайшего агента оставалось безопасным (более 2 м).

Ключевые слова = РОБОТОТЕХНИКА
Ключевые слова РП = робот мобильный
Ключевые слова = СОЦИАЛЬНАЯ СРЕДА
Ключевые слова РП = планирование движений
Ключевые слова РП = сеть нейронная рекурентная

Электронный каталог