Устрашающий результат эксперимента OpenAI c GPT-4

Теперь можно представить, кем станет «ребенок инопланетян», воспитанный мафией

3 min readJul 22, 2023

Pоль среды, в которой растет и воспитывается человеческий ребенок, решающим образом влияет на характер и границы его поведения после того, как он вырастет. Близнецы, обладающие от рождения одинаковыми интеллектуальными способностями, в зависимости от среды и воспитания, могут вырасти в кого угодно. Воспитывавшийся в добропорядочной среде, скорее всего, станет достойным гражданином. Выросший в среде мафии, с большой вероятностью, станет преступником. А воспитанный с младенчества волками ребенок — маугли уже никогда не станет человеком.

Резонно предположить то же самое и в случае «детей — инопланетян», появившихся недавно на Земле в форме ИИ на основе больших языковых моделей (LLM): GPT, ClaudeAI …

Как и человеческие дети, каждый из этих «нечеловеческих разумов» LLM обладает широким спектром заложенных в них способностей. Но человеческие дети приобретают их сразу при рождении. А «дети — инопланетяне» — в результате предварительного обучения. Это дорогостоящий процесс, который для самых больших моделей стоит огромных денег и времени, и поэтому он не повторяется.

Говоря об интеллектуальных способностях людей и чат-ботов, важно понимать принципиальное отличие способностей и поведения.

У людей (как сказано выше) характер и границы поведения определяются воспитанием.
У чат-ботов аналогично. Роль воспитания здесь играет т.н. тонкая настройка модели. Она куда дешевле предварительного обучения и потому может проводиться регулярно.

Обратите внимание на следующий важнейший момент.

Базовая модель после предварительного обучения функционально представляет собой продвинутый механизм автозаполнения: она не общается с пользователем, а лишь генерирует продолжение фраз, подаваемых ей на вход.
Поведение в диалоге с людьми возникает у чат-бота лишь благодаря тонкой настройке (важнейшая цель которой — предотвратить нежелательное поведение чат-бота. Достигается это тем, что тонкая настройка может как выявить, так и подавить те или иные способности модели.

Иными словами, в результате тонкой настройки, модель, имеющая широкий спектр способностей, может, в ответ на конкретный запрос, проявлять какие-то из них или не проявлять. Т.е. способности модели остаются те же, а поведение разное.

Следовательно, в результате воспитания (тонкой настройки) модель может проявлять себя кем угодно от ангела до дьявола. И зависеть это будет лишь от ее воспитателей (от высокоморальных исследователей до гнусных бандитов и человеконенавистников).

Все вышесказанное было продемонстрировано в течение последних месяцев компанией OpenAI, взявшейся усиленно воспитывать GPT-4.

Результаты этого воспитания всполошили Интернет после статьи Линцзяо Чен, Матея Захария и Джеймса Цзоу, которые тестировали GPT-3.5 и GPT-4 на четырех задачах и «моментальных снимках» моделей с марта по июнь.

Интернет-общественность трактовала результаты этого исследования, как «деградацию способностей» GPT-4. На самом же деле, авторы вовсе не это имели в виду.

Все способности GPT-4 остались при ней. Изменилось лишь (в результате воспитания модели) её поведение (подробное объяснение см. здесь).

По сути, этот эксперимент показал колоссальный потенциал воспитания моделей «детей-инопланетян», позволяющий, путем их тонкой настройки превратить в кого-угодно.

Этот воистину устрашающий результат ставит важный вопрос:

Зачем биться за создание высокоморального ИИ, если тонкой настройкой можно быстро и дешево перевоспитать его в злодея?

Ну и вечный вопрос:
Оруэлл писал: «Если бы атомная бомба оказалась чем-то дешевым и легко производимым, как велосипед или будильник, возможно, мир снова погрузился бы в варварство …»

Не это ли грозит нам нынче с ИИ на базе LLM?

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

Устрашающий результат эксперимента OpenAI c GPT-4

Теперь можно представить, кем станет «ребенок инопланетян», воспитанный мафией

Written by Сергей Карелов

No responses yet