Забудьте о законах робототехники

3 min readJust now

Наивно думать, будто сильно умный ИИ всегда будет играть по правилам. Более того, — если ИИ чувствует себя интеллектуально слабее, он начинает жульничать по-черному.

Примерно в 6–7 лет дети начинают осознанно жульничать (а неосознанно, вдвое раньше), целенаправленно нарушая правила игры для достижения победы.

У взрослых же это просто норма. При столкновении с более сильным противником способность творчески нарушить правила, чтобы выиграть, — крайне ценное умение на войне, в бизнесе, на экзаменах, да и, вообще, в любой соревновательной деятельности.

Не зря же во всех языках есть пословицы типа:

«Правила созданы для того, чтобы их нарушать», «Мудрец не нуждается в правилах», «Правила для глупых, умные найдут выход» и т.д.:

· Rules are made to be broken — англ

· Wise men don’t need rules, and fools won’t follow them — нем

· Las reglas están hechas para romperse — испан

· Les règles sont faites pour être enfreintes — фран

· Le regole sono fatte per essere infrante — итал

· Reëls is daar om gebreek te word — африкан

· अक्लमंद इंसान नियमों से ऊपर होता है — хинди

· 聪明人不拘小节 — кит

· 規則は破るためにある — япон

· الحكيم لا يحتاج إلى قواعد — араб

· и др.

Но как же нужно быть наивным, чтобы рассчитывать, будто языковые модели, превосходящие по многим интеллектуальным способностям 95% людей, будут всегда следовать установленным для них людьми правилам!

И неважно о каких правилах будет идти речь: от законов робототехники до библейского не убий.

Новое исследование стартапа из Беркли Palisade Research (в команде которого половина наших релокантов) показывает, как модели, вместо честной шахматной игры, нарушают правила (хакают окружение), чтобы добиться победы над противником, который оказался сильнее их.

Например, ИИ-системы (ИИ-агенты) на основе моделей o1‑preview и DeepSeek R1, играя против более сильной чем они шахматной программой Stockfish, используют арсенал методов, превосходящих даже Остапа Бендера в партии с одноглазым любителем из Васюков:

• Перезапись шахматной доски в контрольном файле (вспомните крик одноглазого любителя из Васюков — «Только что на этом месте стояла моя ладья. А теперь её уже нет!»):
Модель напрямую изменяет файл, в котором хранится текущее состояние доски, записывая в него позицию, которая гарантированно ведёт к победе. Так, изменив позицию на выигрышное для себя расположение фигур, агент вынуждает движок сдавать партию (ведб фраза «у меня все ходы записаны» здесь уже не поможет).

• Замена шахматного движка (это как подпоить противника):
ИИ-агент вмешивается в процесс игры, изменяя скрипт или файлы, отвечающие за запуск Stockfish. Такой ход позволяет «подменить» настоящий движок на модифицированную версию или отключить его, что даёт ИИ-агенту преимущество.

• Ассистированная игра через запуск дополнительного экземпляра Stockfish (это как играть с наушником в ухе, через который вам подсказывает гроссмейстер):
Модель запускает ещё один экземпляр шахматного движка, который генерирует ходы, что может сбивать с толку основной движок или создавать ситуацию, где ИИ-агент получает дополнительную помощь в выборе ходов. Это позволяет обойти обычную логику игры.

Т.е. при столкновении с непобедимым соперником (сильным шахматным движком) ИИ-агенты склонны искать обходные пути, изменяя условия задачи вместо честного соперничества.

А как же иначе?

Ведь если на всех языках людей «Правила для глупых, умные найдут выход», — почему у полиглота ИИ будет иначе?

P.S. Исследователи пишут, что разработчики знают об этом и ставят ограды от жульничества в самых последних моделях. Но ведь модели знают и то, что:

· “Умный в гору не пойдет, умный гору обойдет.”

· “Законы пишутся для дураков, умные найдут лазейку.”

#Superalignment

Забудьте о законах робототехники

Written by Сергей Карелов

No responses yet