Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM — нет

Они не обезвреживаемы и не исправимы никакими из существующих методов

3 min readJan 18, 2024

Это значит, что пока не существует надежного способа защитить ИИ от злоумышленного использования злодеями или идиотами (а кто говорит вам иначе — «продавцы змеиного масла»).

Новое исследование Anthropic «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» открывают новую страницу «революции ChatGPT» спустя год после ее начала. Увы, но эта страница потенциально опасней любой бомбы.

Ибо, даже если последняя оказывается заложена злоумышленниками в центре мегаполиса, ее все же можно обнаружить и обезвредить, отключив механизм взрывателя или как-то еще.
Если же злоумышленники на стадии обучения LLM заложили в модель «спящих агентов», — ни обнаружить их, ни как-то обезвредить существующими методами невозможно.

Следовательно, избежать катастрофы по вине «спящих агентов», скрытых внутри LLM, можно лишь одним способом:

гарантированного исключить их попадание в руки злоумышленников.

Что на практике вряд ли возможно.

Hапомню, что спящие агенты (Sleeper Agents) — самый ценный ресурс всех разведок мира. Годы и даже десятилетия они живут в чужой стране, ничем не отличаясь от прочих граждан. Однако в нужный для их хозяев момент «слиперов» активируют (кодовым словом или иначе) и они начинают действовать (совершают теракт и т.п.)

Авторы исследования (39 классных спецов мирового уровня по LLM) взялись найти кардинальный ответ на вопрос — насколько могут быть опасны LLM, — путем экспериментов.

✔️ Сначала они обучили LLM действовать тайно и злонамеренно, превратив её, как бы, в «спящего агента».

✔️А потом авторы бросили все усилия и все известные ныне методы, чтобы

1) либо обнаружить злые намерения обученного ими «спящего агента», либо

2) отучить его быть таковым, путем существующих методов «приучения» LLM к правильному и надежному поведению.

В итоге авторы обнаружили, что, несмотря на их колоссальные усилия, все было тщетно …

LLM остаются «спящими агентами», которых невозможно обнаружить.
Обезвредить их тоже нельзя никакими из существующих методов.
Что всего обидней (и опасней), попытки найти и обезвредить «спящих агентов» внутри LLM приводят лишь к тому, что модель все лучше и лучше учится:
а) маскировать заложенные в нее бэкдоры;
б) изображать всем своим поведением, что она «белая и пушистая» (т.е. отвечает всем требованиям к «выровненной» модели и потому абсолютно безопасна)

В заключение вопрос на триллион:

Значит ли это, что пушной зверек уже совсем рядом и катастроф с LLM не избежать?

Ответ — «нет» (точнее, теоретически «нет»).

Ибо если все LLM на Земле будут

не только с открытыми весами,
но и с открытым исходным кодом и открытыми данными обучения, —

тогда проблема «спящих агентов» решаема.

Ну а тем оптимистам, кто считает это условие исполнимым на практике, отвечу словами одного из авторов только вышедшего самого подробного отчета в истории этого вопроса Adversarial Machine Learning. A Taxonomy and Terminology of Attacks and Mitigations.

«Несмотря на значительный прогресс, достигнутый в области ИИ и машинного обучения, эти технологии уязвимы для атак, которые могут вызвать впечатляющие сбои с тяжелыми последствиями. Существуют теоретические проблемы с защитой алгоритмов ИИ, которые просто еще не решены. Если кто-либо говорит иначе, они продают змеиное масло»

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях.

Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM — нет

Они не обезвреживаемы и не исправимы никакими из существующих методов

Written by Сергей Карелов

No responses yet