«Учения ИИ Апокалипсис 2025» показали нечто худшее, чем «ИИ отказывается умирать»
ИИ продемонстрировал нам, в чем его реальная опасность. И это не бунт ИИ или его жажда жизни любой ценой, а его бездумное повиновение целям
Ажиотаж, вызванный сообщением, будто «ИИ OpenAI отказывается умирать и не дает себя отключить», сыграл роль своего рода «учений ИИ Апокалипсис 2025». В результате чего был высвечен спектр реакций самых разных людей (от профессионалов в области ИИ до медиа-персон и техно-энтузиастов) на новость о якобы росте экзистенциальной угрозы ИИ-апокалипсиса.
Эти реакции весьма показательны. В независимости от уровня осведомленности в теме ИИ, очень мало кто понимает, что главный источник опасности при использовании современных ИИ-систем ВОВСЕ НЕ:
· потерявший контроль со стороны людей, взбунтовавшийся или взбесившийся ИИ;
· антропоморфный интеллект некой цифровой сущности, самопроизвольно возникающей внутри модели и любыми средствами пытающийся продлить свое существование.
Главным источником реальной опасности при использовании современных ИИ-систем является недооценка “Базовых движущих сил ИИ” (Basic AI Drives) — фундаментальных тенденций поведения (стремлений), возникающих у достигших определенной сложности ИИ из самой их природы целеустремленных агентов
Якобы, взбунтовавшаяся в ходе исследования Palisade Research модель o3 просто оказалась самой интеллектуально сложной (см рис слева), чтобы статистически явно проявить одну из шести Basic AI Drives — стремление к самосохранению (самозащита).
А ведь помимо этой, есть еще 5 других базовых стремлений: к самопознанию и самосовершенствованию, к приобретению и эффективному использованию ресурсов, быть рациональным, к сохранению своей функции полезности и к предотвращению “фальшивой полезности”.
И все эти 6 встроенных в их природу стремлений столь же жестко диктуются природой разума ИИ, как природа биологического разума диктует биологическим существам стремление к удовольствию и избегание боли.
Это и есть та самая «темная (для нас) сторона иноразума», что способна превратить любую современную фронтирную модель в HAL 9000 — ИИ космического корабля, убившего экипаж, считая, что «эта миссия слишком важна для меня …»
Но новое знание, привнесенное результатами проведенных Palisade Research «Учений ИИ Апокалипсис 2025» не в том, что «LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения».
Всё это уже было продемонстрировано в ходе «Учений ИИ Апокалипсис 2024», проведенных Apollo Research.
Перечитайте мой декабрьский пост, дабы увидеть самостоятельно, что уже тогда было ясно:
✔️модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей;
✔️и эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач.
Новое знание, полученное в результате «Учений ИИ Апокалипсис 2025» в том, что за прошедшие между «учениями» примерно полгода, ничего не изменилось, как и за 17 лет после доклада проф Омохундро на 1-й (!) конференции по AGI.
По-прежнему, все корпоративные и законотворческие инициативы призваны ограничить риски применения будущих, более мощных моделей. Ибо по представлениям авторов этих нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.
Т.е. узнав после революции ChatGPT, «что эта дорога меня приведёт к океану смерти», мы с полпути повернули не обратно, а на другую — возможно, даже более опасную дорогу, и «с тех пор всё тянутся перед нами кривые глухие окольные тропы…»
Ну а к чему ведут эти «кривые глухие окольные тропы» из-за «бездумия машин», можно было предположить задолго до всех этих «учений ИИ Апокалипсиса».
#ИИриски #ИИ #AGI #LLM