Это может быть революцией роботов
За которой маячит революция AGI
Проясняется, на что рассчитывает DeepMind, прожигая миллиарды. И честно говоря, задача того стоит. Это действительно ИИ общего назначения (AGI). Собственно, руководство DeepMind этого и не скрывало. Но вот как они планируют этого добиться, было непонятно. А теперь проясняется.
Стратегическая логика здесь такова
- AGI должен быть воплощенным.
Значит полагаться только на алгоритмы настольных и компьютерных игр (всякие там AlphaGo, Alphazero … ) нет смысла. - Значит речь о роботах, материализованных и действующих в физическом мире.
- Первейший ключевой навык для робота — движение (сенсорно-моторные навыки, направленные на достижения цели). И главный фокус здесь в том, чтобы для обучения движению роботу не требовалось море данных, как это принято у алгоритмов типа Alphazero. Надо чтобы робот попробовал некое разумное число раз, — и научился.
- Но движение бывает разное. Для муравья, воробья и карася — это совсем не одно и то же (разные среды). Более того: для сухопутных паука, червяка и барсука– это тоже совсем не одно и то же (разные способы и механизмы движения).
Значит нужно, чтобы робот мог самостоятельно учиться УНИВЕРСАЛЬНОМУ движению. - Что потом? Да понятно что. Ведь из примитивов универсального движения, возможно, и складывается механизм мышления. И значит, второе может быть получено на основе первого.
К реализации п. 3 DeepMind приступил 2 года назад, создав новую парадигму обучения — Scheduled Auxiliary Control или SAC-X (запланированное вспомогательное управление). Подробней см. здесь.
Парадигма SAC-X основана на идее, что для выполнения сложных задач ИИ должен сначала научиться исследовать доступную зону и овладеть набором базовых навыков.
С реализацией п. 4 связана опубликованная на днях работа «Towards General and Autonomous Learning of Core Skills: A Case Study in Locomotion». В ней на основе SAC-X предложено универсальное решение управления моторикой непосредственно из исходных сенсорных входов. DeepMind разработал систему обучения, которая может учиться сложному поведению локомоции для широкого спектра N-ногих роботов, таких как двуногие, трехногие, четвероногие, шестиногие … включая колесные варианты (см. видео)
DeepMind сделал это, не изменив функции вознаграждения для разных роботов. Их подход позволяет научиться управлять новыми роботами всего за пару часов. Суть подхода в том, что он многозадачен: эффективнее пытаться учиться сразу нескольким навыкам, а не учиться им последовательно.
Если новый подход DeepMind взлетит, — это будет революция в мире роботов.
Ну а дальше будут пытаться реализовать п.5.
Благо зацепки, как из примитивов универсального движения эволюционно получить примитивы мышления уже есть. И хотя это было пока что сделано только для дельфинов (для их локомоции в водной среде), но и с универсальным движением может получиться.
И тогда случится революция AGI.
________________________________
Если понравился пост:
- нажимаете на кнопку аплодисментов, — автору будет приятно :-)
- подпишитесь на обновления канала на платформе Medium;
- оставьте комментарий.
Еще больше материалов на моем Телеграм канале «Малоизвестное интересное». Подпишитесь