Мир подхалимов

Мир фейков и мир бреда — не худшие сценарии нашего будущего с ИИ

Сергей Карелов
2 min readOct 24, 2023

Два очевидных фактора рисков при массовом использовании лингвоботов в качестве разнообразных ассистентов:

✔️ их свойство галлюцинировать, что может способствовать деформации наших представлений о мире в сторону бреда;

✔️ их феноменальная способность убеждать людей в достоверности фейков, что позволяет манипулировать людьми в самом широком диапазоне контекстов (от потребительского до политического).

Новое исследование «К пониманию подхалимства в языковых моделях» выявило и экспериментально оценило третий вид рисков, способный превратить самое ближайшее будущее в антиутопию «мира подхалимов».

Логика этого риска такова.

  1. В ближайшие годы наш мир будут заселен сотнями миллионов ИИ-помощников на основе лингвоботов (от персональных ассистентов до специализированных экспертов и авторизованных советников)
  2. Самой популярной методикой для обучения высококачественных ИИ-помощников является обучение с подкреплением на основе человеческой обратной связи (RLHF).
  3. Как показало новое исследование, RLHF может способствовать тому, что ответы модели, соответствующие убеждениям пользователя, будут преобладать над правдивыми ответами, — что по-человечески называется подхалимством.
  4. Экспериментальная проверка показала, что пять самых крутых из современных лингвоботов (вкл. GPT-4, Claude-2 и llama-2–70b-chat) постоянно демонстрируют подхалимство в четырех различных задачах генерации текста в свободной форме.

Причина этого проста. Если ответ совпадает с мнением пользователя, он с большей вероятностью будет им предпочтен. Более того, как люди, так и модели предпочтений предпочитают корректным ответам убедительно написанные подхалимские ответы.

Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.

Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи.

А что взамен — не понятно.

В заключение аудио-резюме работы Towards Understanding Sycophancy in Language Models

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

Responses (1)