ИИ может учить нас дальновидному планированию
Экспериментальный прорыв в «кентаврическом» подходе к усилению интеллекта
Mногие люди плохо умеют планировать и из-за этого часто принимают далеко не оптимальные решения.
«Как будем действовать? — Согласно плану.
А каков план? — Действовать по ситуации.»
Кроме того, даже когда люди прилично планируют, они часто используют недальновидные стратегии, которые мешают им достичь наилучших долгосрочных результатов.
Культурная эволюция легко настраивает наши «когнитивные гаджеты» (ключевые видоспецифические когнитивные возможности разума, интеллекта и самоосознания) на эффективный поиск оптимальных решений неограниченного множества простых типовых задач. В таких задачах немедленное вознаграждение, обычно, предсказывает долгосрочные результаты. Типичным примером может служить игра в простой квест. Её цель — заработать максимум очков в ходе поиска нескольких хитро упрятанных «магических предметов». Принятие тактических решений в таком квесте чрезвычайно простое — ищи очередной предмет, и за его нахождение заработаешь очки, что приблизит тебя к достижению долгосрочной стратегической цели.
В задачах, где немедленное вознаграждение НЕ предсказывает долгосрочные результаты, — все существенно сложнее. Решение шахматиста съесть пешку противника в краткосрочной перспективе приносит очевидную и легко оцениваемую пользу. Но для долгосрочной стратегии выигрыша партии такое решение может быть плохим и даже губительным.
В сложных задачах типа шахмат, когда просчитать все варианты невозможно, игрок может рассчитывать лишь на поиск оптимальных эвристик. При этом игрок сознает, что кажущаяся оптимальность найденной им эвристики при выборе очередного хода может не сулить никакого немедленного вознаграждения. Более того. Весьма возможно, что вознаграждения вообще не будет, а будут убытки (напр. жертва фигуры). И тем не менее, найденная эвристика хороша и даже видится игроку оптимальной, поскольку, по его мнению, ведет игру в русле долгосрочной стратегии выигрыша.
Как это уже отмечалось выше, для настройки «когнитивных гаджетов» поиска эвристик оптимальных стратегий планирования сложных задач, требуется специальное обучение. В большинстве таких задач дистальные (отдаленные) результаты куда более важны для стратегического выигрыша, чем проксимальные (сиюминутные). И поэтому поиск оптимальных эвристик требует развития соответствующих способностей. Как показывает история обучения, одним из лучших универсальных способов развития интеллектуальных способностей, является аристократический тьюторинг. Но в случае обучения поиску дальновидномых стратегий, тьютор для каждого вида деятельности должен быть проблемно-ориентированный. Научить шахматиста поиску оптимальных эвристик может лишь тьютор-шахматист. А для обучения пилота нужен тьютор-пилот, и т.д.
Но ведь ИИ, по идее, может быть и превосходным шахматистом, и классным пилотом, да и много кем еще.
Так может ли ИИ-тьютор стать эффективным универсальным инструментом решения этой, во истину, сверхзадачи усовершенствования «когнитивных гаджетов» людей?
Серия экспериментов, проведенная исследователями Computational Cognitive Science Lab Принстонского университета и Rationality Enhancement Group Института интеллектуальных систем им. Макса Планка показала прорывные результаты.
Получено экспериментальное подтверждение активно обсуждаемой среди разработчиков EdTechs гипотезы, что
ИИ-тьютор способен учить людей автоматически обнаруживать оптимальные эвристики.
А это прокладывает путь кардинальному улучшению способности людей дальновидно планировать — важнейшей способности, необходимой для выработки оптимальных долгосрочных стратегий.
AIA — альтернативная парадигма ИИ
Bоистину гениальный инженер, заложивший основы общения человека и машины, прародитель компьютерной мыши и первопроходец цифровой революции Дуглас Энгельбарт (Леонардо да Винчи в сфере IT) еще в 1960х сформулировал главную цель создания компьютеров —
усиление человеческого интеллекта.
К сожалению, мы не можем увидеть рассказ Леонардо да Винчи о том, как его изобретения изменять мир будущего. Но к счастью, нам доступно это видео 1968 года. В нем Дуглас Энгельбарт, в ходе живой демонстрации рассказывет, как
- компьютерная мышь и видеоконференции,
- гипертекст и гипермедиа,
- динамическое связывание файлов и совместное редактирование в реальном времени,
- ну и, конечно же, сети,
— через полвека сделают мир таким, каким мы его сегодня видим.
И все это для достижения одной цели — усиление человеческого интеллекта. Так еще полвека назад была сформулирована альтернативная парадигма искусственного интеллекта, названная Artificial Intelligence Augmentation (AIA) — искусственное увеличение интеллекта.
О том, что это альтернативное мейнстриму направление имеет хорошие шансы забрать у AI жёлтую майку лидера инвестиций и внимания СМИ, я написал один из первых лонгридов этого канала (рекомендую прочесть, ибо он совсем не устарел, всего на 7 мин. чтения, да еще и симпатично оформлен)).
Если совсем коротко, в лонгриде рассказывается, что AIA предлагает иной путь развития ИИ, двигаясь по которому, технологии ведут мир к иной цели.
✔️ Не к Технологической сингулярности
— созданию сверхмощного ИИ, который интеллектуально превзойдет человечество.✔️ А к Человеческой сингулярности
— неограниченному расширению диапазона мышления каждого из людей, за счет синергии «кентаврического» подхода, объединяющего когнитивные процессы ИИ и человека.
О первых попытках практического воплощения парадигмы AIA (на примере создании стартапом Korbit Technologies ИИ-тьютора по методам машинного обучения) я недавно писал в посте «Трезориум для инфоргов».
Однако, в новом американо-германском исследовании Leveraging artificial intelligence to improve people’s planning strategies авторы пошли существенно дальше.
Использование ИИ для улучшения стратегий планирования людей
Aвторы этого исследования пошли существенно дальше в постановке задачи создания ИИ-тьютора.
- ИИ-тьютор должен не только помогать персонализации обратных связей и активного обучения, но и учить людей обнаружению оптимальных когнитивных стратегий принятия решений в задачах, где немедленное вознаграждение не предсказывает долгосрочные результаты (дистальные результаты более важны, чем проксимальные).
- Люди могут научиться более эффективным стратегиям лишь на практике, но опыт является хорошим учителем только в той мере, в какой он обеспечивает надежную, достоверную и быструю обратную связь.
- Обучение принципам логики, расчетам вероятностей и теории ожидаемой полезности имеет весьма ограниченный успех в сложных реальных ситуациях. Здесь попытка рассчитать ожидаемые полезности всех возможных вариантов действий не может являться хорошей стратегией принятия решений, ибо это зачастую чрезмерно сложно и отнимает слишком много времени. Поэтому нужно учиться находить простые «умные эвристики», основанные на использовании общих свойств определенных типов проблем принятия решений, и работающих быстро для большинства задач.
- Обучение поиску «умных эвристик» должно быть:
- универсально: т.е. учитывать формальную характеристику среды принятия решений и характерных для нее когнитивных ограничений;
- масштабируемо: эффективно расширяемо для обучения большого количества людей.
Базовая идея авторов состоит в том, чтобы люди практиковались в соответствующих реальных задачах или симуляциях этих задач, предоставляя им обратную связь о том, как они решают эти задачи. Предыдущие исследования показали, что для эффективного содействия приобретению опыта обратная связь должна быть достоверной, надежной и быстрой.
Авторы разработали общий метод генерации высококачественной обратной связи:
✔️ не о том, ЧТО люди решают делать (обратная связь по действию),
✔️ а о том, КАК они решают, что делать (метакогнитивная обратная связь).
Недавние исследования использования метакогнитивной обратной связи на протяжении всего процесса принятия решений показывают, что люди приобретают, совершенствуют и учатся выбирать между своими когнитивными стратегиями (по крайней мере частично) с помощью обучения с подкреплением.
Поэтому авторы решили разработать ИИ-тьютор, представляющий собой оптимальную метакогнитивную структуру с точки зрения обучения с подкреплением. В итоге они разработали (в первом приближении) общий метод вычисления метакогнитивной обратной связи, который приводит к максимально быстрому обучению в соответствии с недавно разработанной теорией метакогнитивного обучения с подкреплением.
Разработанный подход основан на четырех строительных блоках, использующих формализацию марковских процессов принятия решений (MDP).
FYI: Формализация MDP является основой для структурирования задач, которые решаются с помощью обучения с подкреплением. В следующем коротком видео рассмотрены компоненты, составляющие MDP: среда; агент; состояния среды; действия, которые агент может выполнять в среде; вознаграждения, которые могут быть предоставлены агенту за его действия.
Назначение каждого из 4х блоков системы отслеживания марковских процессов принятия решений (MDPS):
- сделать стратегии планирования людей наблюдаемыми;
- моделировать сложные проблемы принятия решений;
- находить эвристики оптимальных стратегий для решения этих проблем;
- давать людям обратную связь об осуществленных ими операциях планирования и о том, какой могла бы быть оптимальная стратегия планирования, если сделать по-другому.
Поиск эвристик оптимальных стратегий решения сложных проблем (п.3 выше) — это многоуровневый MDP, имеющий четыре компонента:
- набор возможных убеждений агента, принимающего решения;
- набор вычислений, которые агент может выполнить;
- модель перехода, которая определяет, как вычисления обновляют убеждения;
- функция вознаграждения, которая определяет стоимость вычислений и ожидаемую полезность принятия окончательного решения в данном состоянии убеждений.
Например, задача участников — провести паука через паутину путем выбора последовательности ходов, которая ведет от его первоначального местоположения в центре сети к одному из ее углов.
Каждая локация содержит награду, а цель участника-заработать как можно больше наград, почти как в простом квесте.
Но отличие в том (и это критически важно), что все награды изначально скрыты. Чтобы получить награду, участник должен кликнуть на нее и заплатить небольшую плату.
Таким образом, внутренний процесс планирования экстернализируется как последовательность кликов по сбору информации. Это позволяет отделить то, ЧТО люди выбирают сделать (куда переместить паука) от того, КАК они решают это сделать (кликая подмножество доступной информации в определенном порядке). Другими словами, здесь клики играют роль прокси для когнитивных операций, которые люди выполняют при принятии решений.
Примеры обратной связи (п.4), даваемой агентам ИИ-тьютором в форме сообщений, приведены на следующем рисунке.
Результаты обучения поиску оптимальных эвристик
Oбъединив 4 строительных блока, авторы создали ИИ-тьютор, который использует метакогнитивную обратную связь для обучения дальновидному планированию. Он делает это, обучая людей поиску оптимальных эвристик стратегического планирования в задачной среде, для которой дистальные результаты более важны, чем проксимальные.
Авторы оценили эффективность ИИ-тьютора в серии из шести экспериментов, каждый из которых включал учебный блок, в котором экспериментальная группа работала с ИИ-тьютором, и тестовый блок, в котором все участники решали одни и те же задачи планирования без обратной связи.
Эксперименты показали следующее.
✔️ Практика обучения с ИИ-тьютором более эффективна, чем обычные подходы.
✔️ Результаты обучения универсальны (переносятся на проблемы, которые внешне отличаются от учебной задачи) и долгосрочны (сохраняются с течением времени).
✔️ Относительный вклад аффективного компонента метакогнитивной обратной связи в улучшение способности поиска оптимальных эвристик дальновидного планирования оказался значительнее, чем вклад информативного компонента (подробней об этом см. Appendix 01 к исследованию).
Так выглядит итоговый график сравнения эффективности обучения поиску оптимальных эвристик дальновидного планирования:
- без обратной связи (серая линия)
- обратная связь по действию — по тому, какие решения принимаются людьми (синяя)
- метакогнитивная обратная связь — по тому, как люди приходят к своим решениям (желтая)
Как видно из графика, ИИ-тьютор метакогнитивной обратной связи обеспечивает несравненно более качественное и быстрое обучение поиску оптимальных эвристик дальновидного планирования.
Учитывая универсальность и масштабируемость такого обучения, разработанный ИИ-тьютор демонстрирует значительный практический потенциал использования «кентаврического» подхода для усиления интеллекта людей.
Закончить мне хотелось бы вот чем
«Кентаврический» подход уже торжествует во многих игровых средах. Шахматисты и игроки в Го столь активно и продуктивно используют компьютерный интеллект для улучшения уровня своей игры, что пришлось разрабатывать специальные программы отлова таких «кентавров» при проведении удаленных соревнований. Так что сегодня уже не нужно никого убеждать в очевидном факте:
объединение способностей искусственного интеллекта и человека в игровой деятельности дает прорывные результаты.
Теперь на очереди область Edtech. И это именно та область, в которой ИИ может принести людям максимальную пользу (как об этом еще полвека назад писал Леонардо в области IT — Дуглас Энгельбарт).
________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях