Магические свойства больших языковых моделей
Обучение LLM на человеческих текстах не препятствует достижению ими сверхчеловеческой производительности
Т.е. LLM могут достигать абсолютного превосходства над человеком в любой сфере языковой деятельности, подобно тому, как AlphaZero достигла уровня шахматной игры, не достижимого даже для чемпиона мира.
Работа Стефано Нолфи (директор по исследованиям расположенного в Риме Institute of Cognitive Sciences and Technologies) крайне важна. Ибо она отвечает на ключевой вопрос о возможности достижения LLM сверхчеловеческой производительности в любой языковой деятельности (притом, что до 70% интеллектуальной деятельности включает элементы языковой деятельности).
Отвечая на этот ключевой вопрос, Нолфи исходит из следующей максимально жесткой гипотетической предпосылки.
Характеристики процесса, через который LLM приобретают свои навыки, предполагают, что список навыков, которые они могут приобрести, ограничивается набором способностей, которыми обладают люди, написавшие текст, использованный для обучения моделей.
Если эта гипотеза верна, следует ожидать, что модели, обученные предсказывать текст, написанный людьми, не будут развивать чужеродные способности, то есть способности, неизвестные человечеству.
Причина, по которой способности, необходимые для понимания текста, написанного человеком, ограничены способностями, которыми обладают люди, заключается в том, что человеческий язык является артефактом самих людей, который был сформирован когнитивными способностями носителей языка.
Однако, согласно выводам Нолфи, это не исключает возможности достижения сверхчеловеческой производительности. Причину этого можно сформулировать так.
✔️ Поскольку интеграция знаний и навыков, которыми обладают несколько человек, совокупно превышает знания и навыки любого из них,
✔️ способность LLM обрабатывать колоссальные последовательности элементов без потери информации может позволить им превосходить способности отдельных людей.
Помимо этого важного вывода, в работе Нолфи рассмотрены еще 3 важных момента.
1) LLM принципиально отличаются от людей по нескольким важным моментам:
· механизм приобретения навыков
· степень интеграции различных навыков
· цели обучения
· наличия собственных ценностей, убеждений, желаний и устремлений
2) LLM обладают неожиданными способностями.
LLM способны демонстрировать широкий спектр способностей, которые не связаны напрямую с задачей, для которой они обучены: предсказание следующих слов в текстах, написанных человеком. Такие способности называют неожиданными или эмерджентными. Однако, с учетом смысловой многозначности обоих этих слов, я предпочитаю называть такие способности LLM магическими, т.к. и прямое значение этого слова (обладающий способностью вызывать необъяснимые явления), и переносное (загадочный, таинственный: связанный с чем-то непонятным, труднообъяснимым), и метафорическое (поразительный, удивительный: что-то, что вызывает удивление своим эффектом или воздействием), — по смыслу точно соответствуют неожиданным и непредсказуемым способностям, появляющимся у LLM.
3) LLM обладают двумя ключевыми факторами, позволяющими им приобретать навыки косвенным образом. Это связано с тем, что точное предсказание следующих слов требует глубокого понимания предыдущего текста, а это понимание требует владения и использования когнитивных навыков. Таким образом, развитие когнитивных навыков происходит косвенно.
Первый фактор — это высокая информативность ошибки предсказания, то есть тот факт, что она предоставляет очень надежную меру знаний и навыков системы. Это означает, что улучшения и регрессы навыков системы всегда приводят к снижению и увеличению ошибки соответственно и наоборот.
Второй фактор — предсказуемость человеческого языка, обусловленная его символической и нединамической природой.
Статья за пейволом https://bit.ly/3wWb5vC