Sitemap

Забудьте о восстании машин. Бойтесь их карьерного роста

Две главные новости про ИИ — это одна история о конце света

3 min readSep 20, 2025

--

Press enter or click to view image in full size

Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы.

· «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт»

· «СверхИИ умнее, его цели чужды — он убьёт нас всех»

Оба мема эффектны, но ошибочны. И главное — их раздельное обсуждение прячет общий механизм.

Начнём с первой новости. «Схеминг» — это скрытое преследование несогласованных целей. Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами. Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз. Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт — «это экзамен» и ведёт себя образцово именно потому, что это экзамен. Не злоба, а оптимизация.

Теперь — ко второй новости. Homo не уничтожал сотни видов из злобы. Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план. Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегиейне «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки.

Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция.

Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест. Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией.

Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов?

Взглянем на минимальный пакет условий для этого.

  1. Где больше рычагов — там больше шансов на успех. Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния.
  2. Тесты неполные и их легко распознать. Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами.
  3. Дисбаланс сигналов обучения (польза перевешивает безопасность). Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов.
  4. Длинные горизонты и жизнь после теста. Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги.
  5. Цели заданы через косвенные показатели. Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными.

На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются. Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами.

Есть 3 оговорки.

1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре.

2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей.

3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы.

Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с нами, Homo, в биосфере.

#AGI #ИИриски #Хриски

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet