DeepMind подготовил эволюционный скачок в миропонимании роботов
Найден простой и эффективный способ обучения роботов, как людей
Представьте, что к вам впервые пришел сотрудник сервиса по генеральной уборке офисов. Вы водите его по всем помещениям, показываете, что и где нужно сделать и чего делать нельзя: тут вымыть, там пропылесосить, шторы в конференц зале постирать, санузлы дезинфицировать, весь мусор собрать, но на столах ничего не трогать, прочистить бытовую технику от кофемашин до кондиционеров и т.д. и т.п.
Т.е. вы просто все показываете и рассказываете. А работник, если что-то не понятно переспрашивает и уточняет. Причем, работник толковый. И если ему, например, специально не показывали на флипчарты в переговорных, а просто в конце тура по офису добавили — оторви все исписанные листы на флипчартах и, не путая их порядок, сложи на стол перед дверью в архив, — сотрудник сам найдет все флипчарты и сделает ровно так, как ему сказано.
Примерно так же, но даже без реального тура по офису, а просто засняв его на смартфон со своими комментариями, мы очень скоро будем учить роботов.
Информация к размышлению.
Эволюционное развитие у млекопитающих способностей осмысления окружающей среды и целенаправленной навигации передвижений заняло более 200 млн лет.
На много порядков меньшее время (всего какие-то несколько сотен тысяч лет) потребовалось для следующего «эволюционного скачка» в развитии самого когнитивно одаренного млекопитающего — людей. На освоение ими языков абстрактных понятий эволюции (уже не генной, а генно-культурной) потребовалось всего лишь несколько сотен тысяч лет.
У формирующегося на Земле нового небиологического (цифрового) вида эти процессы:
1. во-первых, идут с несопоставимо огромной скоростью;
2. а во-вторых, имеют обратную последовательность.
Последнее оказалось возможным из-за нематериальности и бестелесности «цифровых сущностей» генеративного ИИ на основе больших языковых моделей.
Сначала, они всего за пару лет эволюционировали до уровня людей в оперировании языками абстрактных понятий. А теперь, вселясь в тела роботов, они, скорее всего, за какие-то месяцы сделают второй «эволюционный скачок» — став «материализованными цифровыми сущностями».
Вместе с обретением тел они обретут способности осмысления окружающей среды и навигации своих передвижений в соответствии с намерениями и целями.
Представленная Google DeepMind система обучения роботов объединяет подсистему «мультимодальной навигации по инструкциям с демонстрационными турами (MINT)» и подсистему «интеграции зрения, языка и действий» Vision-Language-Action (VLA). Это объединение позволило интегрировать понимание окружающей среды и силу рассуждений на основе здравого смысла больших языковых моделей с огромным контекстным окном в 1.5 млн токенов.
Проще говоря, гении из DeepMind разработали способ, с помощью которого роботы понимают и ориентируются в сложных средах, используя комбинацию слов, изображений и видеотуров. При этом роботы могут получать от людей команды на выполнение действий в сложных средах мультимодально: устно, письменно, в виде картинок (карты, планы, схемы, идеограммы и т.д.), а также на основе жестов людей (типа объяснений на пальцах) и (в следующей версии) их мимики.
На представленных Google демо их система Mobility VLA на основе Gemini 1.5 Pro интеллектуально обходит GPT-4o и GPT-4V.
Напр. на обращение к роботу «Хочу еще вот этого» с показом пальцем на пустую банку колы, робот с Mobility VLA сам нашел холодильник, где этого добра было много. С чем прочие модели справились плохо (одни не поняли, что надо, другие — где это взять).
На картинке: архитектура Mobility VLA и сравнение с другими моделями
Статья https://arxiv.org/abs/2407.07775
Видео демо https://x.com/GoogleDeepMind/status/1811401347477991932
#роботы