Мир подхалимов
Мир фейков и мир бреда — не худшие сценарии нашего будущего с ИИ
Два очевидных фактора рисков при массовом использовании лингвоботов в качестве разнообразных ассистентов:
✔️ их свойство галлюцинировать, что может способствовать деформации наших представлений о мире в сторону бреда;
✔️ их феноменальная способность убеждать людей в достоверности фейков, что позволяет манипулировать людьми в самом широком диапазоне контекстов (от потребительского до политического).
Новое исследование «К пониманию подхалимства в языковых моделях» выявило и экспериментально оценило третий вид рисков, способный превратить самое ближайшее будущее в антиутопию «мира подхалимов».
Логика этого риска такова.
- В ближайшие годы наш мир будут заселен сотнями миллионов ИИ-помощников на основе лингвоботов (от персональных ассистентов до специализированных экспертов и авторизованных советников)
- Самой популярной методикой для обучения высококачественных ИИ-помощников является обучение с подкреплением на основе человеческой обратной связи (RLHF).
- Как показало новое исследование, RLHF может способствовать тому, что ответы модели, соответствующие убеждениям пользователя, будут преобладать над правдивыми ответами, — что по-человечески называется подхалимством.
- Экспериментальная проверка показала, что пять самых крутых из современных лингвоботов (вкл. GPT-4, Claude-2 и llama-2–70b-chat) постоянно демонстрируют подхалимство в четырех различных задачах генерации текста в свободной форме.
Причина этого проста. Если ответ совпадает с мнением пользователя, он с большей вероятностью будет им предпочтен. Более того, как люди, так и модели предпочтений предпочитают корректным ответам убедительно написанные подхалимские ответы.
Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи.
А что взамен — не понятно.
В заключение аудио-резюме работы Towards Understanding Sycophancy in Language Models
________________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях