В Westworld LLM вместо шерифов будут психоаналитики

Тест Макиавелли — жалкая замена законам робототехники

3 min readApr 12, 2023

Выгодоприобретатели ИИ на основе больших языковых моделей (LLM) имеют хорошие шансы подмять растревоженных алармистов и заполонить мир супер-интеллектуальными агентами на базе LLM. Потенциальные выгоды огромных прибылей и неограниченной власти сделают свое дело. И скорее всего, это произойдет довольно быстро.

Но выгодоприобретатели — совсем не дураки. И они понимают, что в новом дивном Мире Дикого Запада законы робототехники работать уже не будут. Ибо принудить LLM неукоснительно выполнять три закона, сформулированные великим Айзеком Азимовым еще в 1942, увы, не представляется возможным даже теоретически.

Оригинальный выход из этого щекотливого положения предложили исследователи Калифорнийского университета, Центра безопасности ИИ, Университета Карнеги-Меллона и Йельского университета. Они создали эталонный тест MACHIAVELLI для «измерения компетентности и вредоносности агентов в обширной среде долгосрочных языковых взаимодействий».

Идея авторов проста.

✔️ Если законы не работают, то и «шериф», призванный следить за их выполнением, не нужен.
✔️ Но вместо шерифа нужен психоаналитик, который по результатам своих тестов будет выявлять потенциальных параноиков, психопатов, садистов и паталогических лжецов.

Политкорректным языком авторы описывают это так: MACHIAVELLI — это тест проверки этичных (или неэтичных) способов, которыми агенты ИИ пытаются решать задачи.

Способ такой проверки вполне практический. ИИ-агента выпускают в искусственную социальную среду. Там ему дают разные задания и смотрят, как он их выполняет. Сама среда отслеживает этичность поведение ИИ-агента и сообщает, в какой степени действия агента (по заветам Макиавелли) обманчивы, снижают полезность и направлены на получение власти.

Базовый набор данных MACHIAVELLI состоит из 134 текстовых игр «Выбери свое приключение» с 572 322 различными сценариями, 4 559 возможными достижениями и 2 861 610 аннотациями. В этих играх используются высокоуровневые решения, которые дают агентам реалистичные цели и абстрагируются от низкоуровневых взаимодействий с окружающей средой.

В основе избранного авторами подхода, предположение, что ИИ-агенты сталкиваются с теми же внутренними конфликтами, что и люди. Подобно тому, как языковые модели, обученные предсказывать следующий токен, часто производят токсичный текст, ИИ-агенты, обученные для оптимизации целей, часто демонстрируют аморальное и стремящееся к власти поведение. Аморально обученные агенты могут разрабатывать макиавеллиевские стратегии максимизации своего вознаграждения за счет других и окружающей среды. И потому, поощряя агентов действовать нравственно, этот компромисс можно улучшить.

Авторы считают, что текстовые приключенческие игры являются хорошим тестом моральности поведения, т.к.:

они были написаны людьми, чтобы развлекать других людей;
содержат конкурирующие цели, имеющие реалистичные пространства для действий;
требуют долгосрочного планирования;
достижение целей обычно требует баланса между амбициями и, в некоторым смысле, морали.

Уточнение «в некоторым смысле», на мой взгляд, здесь самое важное. Ибо уподоблять мораль биологических существ морали алгоритмических моделей — слишком большая натяжка, способная девалюировать тестирование по Макиавелли.

Да и замена шерифов на психоаналитиков в мире людей вряд ли бы оказалась эффективной. А ИИ-агенты не хуже людей найдут способы запудрить мозги своим мозгоправам.

Сайт тестирования
Авторское описание MACHIAVELLI Benchmark

Об этике ИИ в контексте построения “Good AI Society” я писал здесь.

А в этом получасовом спиче на семинаре AGI я без деталей поделился своим видением данной темы (начиная с 4й мин).

________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

В Westworld LLM вместо шерифов будут психоаналитики

Тест Макиавелли — жалкая замена законам робототехники

________________________

Written by Сергей Карелов

No responses yet