Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM — нет

Они не обезвреживаемы и не исправимы никакими из существующих методов

Сергей Карелов
3 min readJan 18, 2024

Это значит, что пока не существует надежного способа защитить ИИ от злоумышленного использования злодеями или идиотами (а кто говорит вам иначе — «продавцы змеиного масла»).

Новое исследование Anthropic «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» открывают новую страницу «революции ChatGPT» спустя год после ее начала. Увы, но эта страница потенциально опасней любой бомбы.

  • Ибо, даже если последняя оказывается заложена злоумышленниками в центре мегаполиса, ее все же можно обнаружить и обезвредить, отключив механизм взрывателя или как-то еще.
  • Если же злоумышленники на стадии обучения LLM заложили в модель «спящих агентов», — ни обнаружить их, ни как-то обезвредить существующими методами невозможно.

Следовательно, избежать катастрофы по вине «спящих агентов», скрытых внутри LLM, можно лишь одним способом:

гарантированного исключить их попадание в руки злоумышленников.

Что на практике вряд ли возможно.

Hапомню, что спящие агенты (Sleeper Agents) — самый ценный ресурс всех разведок мира. Годы и даже десятилетия они живут в чужой стране, ничем не отличаясь от прочих граждан. Однако в нужный для их хозяев момент «слиперов» активируют (кодовым словом или иначе) и они начинают действовать (совершают теракт и т.п.)

Авторы исследования (39 классных спецов мирового уровня по LLM) взялись найти кардинальный ответ на вопрос — насколько могут быть опасны LLM, — путем экспериментов.

✔️ Сначала они обучили LLM действовать тайно и злонамеренно, превратив её, как бы, в «спящего агента».

✔️А потом авторы бросили все усилия и все известные ныне методы, чтобы

1) либо обнаружить злые намерения обученного ими «спящего агента», либо

2) отучить его быть таковым, путем существующих методов «приучения» LLM к правильному и надежному поведению.

В итоге авторы обнаружили, что, несмотря на их колоссальные усилия, все было тщетно …

  1. LLM остаются «спящими агентами», которых невозможно обнаружить.
  2. Обезвредить их тоже нельзя никакими из существующих методов.
  3. Что всего обидней (и опасней), попытки найти и обезвредить «спящих агентов» внутри LLM приводят лишь к тому, что модель все лучше и лучше учится:
    а) маскировать заложенные в нее бэкдоры;
    б) изображать всем своим поведением, что она «белая и пушистая» (т.е. отвечает всем требованиям к «выровненной» модели и потому абсолютно безопасна)

В заключение вопрос на триллион:

Значит ли это, что пушной зверек уже совсем рядом и катастроф с LLM не избежать?

Ответ — «нет» (точнее, теоретически «нет»).

Ибо если все LLM на Земле будут

  • не только с открытыми весами,
  • но и с открытым исходным кодом и открытыми данными обучения, —

тогда проблема «спящих агентов» решаема.

Ну а тем оптимистам, кто считает это условие исполнимым на практике, отвечу словами одного из авторов только вышедшего самого подробного отчета в истории этого вопроса Adversarial Machine Learning. A Taxonomy and Terminology of Attacks and Mitigations.

«Несмотря на значительный прогресс, достигнутый в области ИИ и машинного обучения, эти технологии уязвимы для атак, которые могут вызвать впечатляющие сбои с тяжелыми последствиями. Существуют теоретические проблемы с защитой алгоритмов ИИ, которые просто еще не решены. Если кто-либо говорит иначе, они продают змеиное масло»

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях.

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet