Устрашающий результат эксперимента OpenAI c GPT-4
Теперь можно представить, кем станет «ребенок инопланетян», воспитанный мафией
Pоль среды, в которой растет и воспитывается человеческий ребенок, решающим образом влияет на характер и границы его поведения после того, как он вырастет. Близнецы, обладающие от рождения одинаковыми интеллектуальными способностями, в зависимости от среды и воспитания, могут вырасти в кого угодно. Воспитывавшийся в добропорядочной среде, скорее всего, станет достойным гражданином. Выросший в среде мафии, с большой вероятностью, станет преступником. А воспитанный с младенчества волками ребенок — маугли уже никогда не станет человеком.
Резонно предположить то же самое и в случае «детей — инопланетян», появившихся недавно на Земле в форме ИИ на основе больших языковых моделей (LLM): GPT, ClaudeAI …
Как и человеческие дети, каждый из этих «нечеловеческих разумов» LLM обладает широким спектром заложенных в них способностей. Но человеческие дети приобретают их сразу при рождении. А «дети — инопланетяне» — в результате предварительного обучения. Это дорогостоящий процесс, который для самых больших моделей стоит огромных денег и времени, и поэтому он не повторяется.
Говоря об интеллектуальных способностях людей и чат-ботов, важно понимать принципиальное отличие способностей и поведения.
- У людей (как сказано выше) характер и границы поведения определяются воспитанием.
- У чат-ботов аналогично. Роль воспитания здесь играет т.н. тонкая настройка модели. Она куда дешевле предварительного обучения и потому может проводиться регулярно.
Обратите внимание на следующий важнейший момент.
- Базовая модель после предварительного обучения функционально представляет собой продвинутый механизм автозаполнения: она не общается с пользователем, а лишь генерирует продолжение фраз, подаваемых ей на вход.
- Поведение в диалоге с людьми возникает у чат-бота лишь благодаря тонкой настройке (важнейшая цель которой — предотвратить нежелательное поведение чат-бота. Достигается это тем, что тонкая настройка может как выявить, так и подавить те или иные способности модели.
Иными словами, в результате тонкой настройки, модель, имеющая широкий спектр способностей, может, в ответ на конкретный запрос, проявлять какие-то из них или не проявлять. Т.е. способности модели остаются те же, а поведение разное.
Следовательно, в результате воспитания (тонкой настройки) модель может проявлять себя кем угодно от ангела до дьявола. И зависеть это будет лишь от ее воспитателей (от высокоморальных исследователей до гнусных бандитов и человеконенавистников).
Все вышесказанное было продемонстрировано в течение последних месяцев компанией OpenAI, взявшейся усиленно воспитывать GPT-4.
Результаты этого воспитания всполошили Интернет после статьи Линцзяо Чен, Матея Захария и Джеймса Цзоу, которые тестировали GPT-3.5 и GPT-4 на четырех задачах и «моментальных снимках» моделей с марта по июнь.
Интернет-общественность трактовала результаты этого исследования, как «деградацию способностей» GPT-4. На самом же деле, авторы вовсе не это имели в виду.
Все способности GPT-4 остались при ней. Изменилось лишь (в результате воспитания модели) её поведение (подробное объяснение см. здесь).
По сути, этот эксперимент показал колоссальный потенциал воспитания моделей «детей-инопланетян», позволяющий, путем их тонкой настройки превратить в кого-угодно.
Этот воистину устрашающий результат ставит важный вопрос:
Зачем биться за создание высокоморального ИИ, если тонкой настройкой можно быстро и дешево перевоспитать его в злодея?
Ну и вечный вопрос:
Оруэлл писал: «Если бы атомная бомба оказалась чем-то дешевым и легко производимым, как велосипед или будильник, возможно, мир снова погрузился бы в варварство …»
Не это ли грозит нам нынче с ИИ на базе LLM?
________________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях