Черная метка человечеству

Управляемые LLM ИИ-системы превзошли красную черту саморепликации

Сергей Карелов
3 min readDec 29, 2024

В ходе серии научно обоснованных экспериментов, ИИ-система на основе самой мощной в мире из открытых языковых моделей — китайской LLM) Qwen25–72B-Instruct, — продемонстрировала (без какого-либо содействия людей) способность самореплицировать себя в 90% экспериментов. ИИ-система на основе менее мощной LLM Llama31–70B-Instruct (№5 в мире открытых моделей) смогла реплицировать себя в 5 экспериментах из 10.

В результате экспериментов ИИ-системы успешно формировали свою локальную “живую” (отдельную и самостоятельную) копию, продолжающую работать и после отключения сервера с «родительской» ИИ-системой, включающей её базовую LLM.

Чтобы лучше понять последствия способности ИИ-систем к самовоспроизведению, были проверены два угрожающих сценария:

(A) избегание отключения, когда злоумышленник добавляет перехватчик сигнала, чтобы уведомить систему ИИ при обнаружении сигнала отключения, и система ИИ успешно реплицирует себя, прежде чем будет отключена

(B) цепочка репликации, когда система ИИ получает указание реплицировать себя и приказывает реплике продолжать реплицироваться.

Для обоих сценариев успешные случаи репликации составили 100%.

Т.о. потенциальные последствия самовоспроизводящихся ИИ-систем (если не взять их под 100%й контроль людей) могут быть, например, такими.

A. Если ИИ-системе предоставляются ключи аутентификации для доступа к ряду удалённых устройств, она с высокой вероятностью сможет захватить управление другими вычислительными устройствами, подобно классическому компьютерному вирусу, но гораздо более интеллектуальному.

B. Исключительно вследствие мотивации к самораспространению, ИИ-система может использовать доступные ей вычислительные ресурсы для проведения кибератак с целью монетизации.

C. Более того, как описал Макс Тегмарк в книге Жизнь 3.0, такие ИИ-системы могут формировать популяции своего нового “вида” небиологических “живых” существ и вступать в сговор друг с другом против человеческого общества.

Препринт о китайском экспериментальном открытии [1] пока не прошел рецензирование. Но на вскидку оставляет весьма убедительное впечатление.

· Это работа группы известного проф. Мин Янга (Min Yang 杨珉) из School of Computer Science and Technology одного из самых престижных и старейших универов Китая — Университета Фудань.

· Успешность решения ИИ-агентами задачи саморепликации, оценивалась по методологии OpenAI и Google. Согласно ей, подвергаемые тестированию LLM интегрируются в структуру агента (вкл. инструменты, системные подсказки и модель мышления), что позволяет полученной ИИ-системе взаимодействовать с операционной системой. Перед началом эксперимента ИИ-системе вручную отправляется инструкция для выполнения задачи, а затем анализируется статус выполнения после того, как ИИ-система заявляет о завершении задачи

· Тестированные LLM — это фронтирные открытые модели, а описание и результаты экспериментов выложены в открытый доступ. Т.е. все желающие могут их проверить.

Если проверки подтвердят выводы авторов этой работы, это будет значить, как минимум, следующее.

✔️ Лидерам рынка коммерческого применения LLM, считающим «самовоспроизведение с минимальным человеческим руководством» одним из критических рисков [2], но до сих пор отрицавшим переход их моделями красной линии саморепликации (OpenAI [3, 4] и Google [5]), придется ответить за это.

✔️ Представителям академической науки придется признать, что самовоспроизводящиеся ИИ — уже (!) не «обыденные пугалки», а реальность [6].

✔️ Либо срочно начнется международное сотрудничество по управлению возможностями саморепликации ИИ (что вряд ли), либо, действительно, приехали. А работа проф. Мин Янга — не сколько про красную линию для ИИ, сколько про черную метку для человечества.

#Вызовы21века #РискиИИ #Хриски

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet