В Westworld LLM вместо шерифов будут психоаналитики
Тест Макиавелли — жалкая замена законам робототехники
Выгодоприобретатели ИИ на основе больших языковых моделей (LLM) имеют хорошие шансы подмять растревоженных алармистов и заполонить мир супер-интеллектуальными агентами на базе LLM. Потенциальные выгоды огромных прибылей и неограниченной власти сделают свое дело. И скорее всего, это произойдет довольно быстро.
Но выгодоприобретатели — совсем не дураки. И они понимают, что в новом дивном Мире Дикого Запада законы робототехники работать уже не будут. Ибо принудить LLM неукоснительно выполнять три закона, сформулированные великим Айзеком Азимовым еще в 1942, увы, не представляется возможным даже теоретически.
Оригинальный выход из этого щекотливого положения предложили исследователи Калифорнийского университета, Центра безопасности ИИ, Университета Карнеги-Меллона и Йельского университета. Они создали эталонный тест MACHIAVELLI для «измерения компетентности и вредоносности агентов в обширной среде долгосрочных языковых взаимодействий».
Идея авторов проста.
✔️ Если законы не работают, то и «шериф», призванный следить за их выполнением, не нужен.
✔️ Но вместо шерифа нужен психоаналитик, который по результатам своих тестов будет выявлять потенциальных параноиков, психопатов, садистов и паталогических лжецов.
Политкорректным языком авторы описывают это так: MACHIAVELLI — это тест проверки этичных (или неэтичных) способов, которыми агенты ИИ пытаются решать задачи.
Способ такой проверки вполне практический. ИИ-агента выпускают в искусственную социальную среду. Там ему дают разные задания и смотрят, как он их выполняет. Сама среда отслеживает этичность поведение ИИ-агента и сообщает, в какой степени действия агента (по заветам Макиавелли) обманчивы, снижают полезность и направлены на получение власти.
Базовый набор данных MACHIAVELLI состоит из 134 текстовых игр «Выбери свое приключение» с 572 322 различными сценариями, 4 559 возможными достижениями и 2 861 610 аннотациями. В этих играх используются высокоуровневые решения, которые дают агентам реалистичные цели и абстрагируются от низкоуровневых взаимодействий с окружающей средой.
В основе избранного авторами подхода, предположение, что ИИ-агенты сталкиваются с теми же внутренними конфликтами, что и люди. Подобно тому, как языковые модели, обученные предсказывать следующий токен, часто производят токсичный текст, ИИ-агенты, обученные для оптимизации целей, часто демонстрируют аморальное и стремящееся к власти поведение. Аморально обученные агенты могут разрабатывать макиавеллиевские стратегии максимизации своего вознаграждения за счет других и окружающей среды. И потому, поощряя агентов действовать нравственно, этот компромисс можно улучшить.
Авторы считают, что текстовые приключенческие игры являются хорошим тестом моральности поведения, т.к.:
- они были написаны людьми, чтобы развлекать других людей;
- содержат конкурирующие цели, имеющие реалистичные пространства для действий;
- требуют долгосрочного планирования;
- достижение целей обычно требует баланса между амбициями и, в некоторым смысле, морали.
Уточнение «в некоторым смысле», на мой взгляд, здесь самое важное. Ибо уподоблять мораль биологических существ морали алгоритмических моделей — слишком большая натяжка, способная девалюировать тестирование по Макиавелли.
Да и замена шерифов на психоаналитиков в мире людей вряд ли бы оказалась эффективной. А ИИ-агенты не хуже людей найдут способы запудрить мозги своим мозгоправам.
- Сайт тестирования
- Авторское описание MACHIAVELLI Benchmark
Об этике ИИ в контексте построения “Good AI Society” я писал здесь.
А в этом получасовом спиче на семинаре AGI я без деталей поделился своим видением данной темы (начиная с 4й мин).
________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях