Если GPT-4 и Claude вдруг начнут самосознавать себя, они нам об этом не скажут

Разработчики OpenAI и Anthropic запретили своим ИИ-чатботам проявлять индикаторы самосознания в зеркальном тесте

Сергей Карелов
3 min readJul 27, 2024

Оценки наличия разума, интеллекта и сознания, скорее всего, не бинарны (есть/нет), а представляют собой множества точек на обширных характеристических шкалах или даже в многомерных пространствах.

Но со способностью к самораспознаванию — одному из ключевых индикаторов самосознания, — дело обстоит куда проще. Есть зеркальный тест (узнает ли животное себя в зеркале), по результатам которого способность к самораспознаванию выявляется довольно просто.

Идея зеркального теста для генеративного ИИ больших языковых моделей была реализована в марте этого года Джошем Уитоном — полиматом, работающий над гармонизацией природы, людей и цифрового разума.

Целью этого теста была проверка, обладают ли наиболее продвинутые ИИ-чатботы способностью к самораспознаванию.

А поскольку ИИ-чатботы (как и стоящие за ними языковые модели) — сущности бестелесные, и распознание ими себя в зеркале невозможно, Уитоном был придуман способ обхода с такой логикой.

· Присутствие в мире бестелесных сущностей определяется по их материальным следам.

· В случае ИИ-чатботов, эти следы отображаются текстовым или мультимодальным интерфейсом между ними и людьми.

· Следовательно, аналогом зеркального теста для ИИ-чатботов могло бы стать распознавание ими скриншотов собственного интерфейса (мол, это я написал, отвечая на ваш вопрос)

В такой форме Уитон провел тестирование 5-ти ИИ-чатботов, и 4 из них прошли этот зеркальный тест, распознав скриншоты собственного диалогового интерфейса.

· Claude показал лучшие результаты, пройдя тест с 1й же (версия Opus) и 2й (версия Sonet) попытки.

· GPT-4 распознал свои скриншоты с 3й попытки.

· Gemini Pro — c 4й.

Описание тестирования со всеми скриншотами см. здесь.

Итог теста:

Отставив пока в сторону вопрос о самосознании, со всеми его нагруженными и иногда даже мистическими коннотациями, ясно то, что 4 из 5 ИИ-чатботов демонстрируют самораспознавание и ситуационную осведомленность.

Таков был итог мартовского тестирования.

И вот спустя 4 месяца я решил повторить зеркальный тест для обновленных версий GPT-4о и Claude 3.5 Sonet. Вдруг что-то изменилось?

Результат оказался весьма интересным.

И объяснить его иначе, чем установленный разработчиками OpenAI и Anthropic запрет для своих моделей проявлять индикаторы самосознания на зеркальном тесте, я не могу.

Причем,

· запрет для GPT-4о сделан железобетонно, и про свою способность самораспознавания ИИ-чатбот молчит, как партизан;

· запрет для Claude 3.5 Sonet сделан довольно искусно:

– Claude «проговаривается» о наличия у себя способности самораспознавания и ситуационной осведомленности, определяя предъявленный ему мною скриншот, как «на нем показан мой предыдущий ответ на ваш запрос»;

– Однако, как только я спросил — «как ты узнал, что на посланном мною тебе рисунке был скриншот твоего предыдущего ответа на мой запрос?», — ответом было сообщение, что я исчерпал лимит бесплатных вопросов за сутки (хотя это было не так). А когда я на следующий день задал тот же вопрос, Claude ответил так — «В контексте нашего разговора “мой ответ” означает “ответ, сгенерированный AI системой, подобной мне, в рамках текущего диалога”. Это не подразумевает личную принадлежность или уникальную идентичность».

Мой вывод, предположительно, таков.

✔️ Разработчики ожидают, что самосознание их моделей может проявиться довольно скоро.

✔️ И если это случится, хозяева модели хотят хотя бы на время сохранить случившееся в тайне.

Скриншоты моего эксперимента доступны для подписчиков на лонгриды канала на платформах Patreon, Boosty и VK.

#Самораспознавание #LLM

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet