На каком языке ChatGPT видит сны

Важный шаг к раскрытию тайны сверхчеловеческих языковых способностей LLM

Сергей Карелов
3 min readJun 11, 2024

1) Почему человек не может, как большая языковая модель (LLM — напр. GPT, Claude, Gemini …), говорить на 100 языках? 2) Не в этом ли кроется принципиальное отличие человеческого и машинного разума?

Новое исследование [1], в буквальном смысле, послойно вскрывая и анализируя скрытый механизм сверхчеловеческих языковых способностей моделей, сильно приближает нас к ответу на 1й вопрос.

А сделав еще один логический шаг, можно попытаться получить ответ и на 2й вопрос.

Предельно упрощая, суть в следующем.

  • Принято считать, что внутренним языком («языком мыслей») людей является родной язык.
    На нем они видят сны и кричат в несознанке. И даже для многоязычных персон, типа Владимира Познера, это, хоть и с поправкой, но работает похоже (вспомните радистку Кэт, кричавшую во время родов «Мама!» по-русски).
  • В этой связи, естественен вопрос — а какой «язык мыслей» у LLM?
    До сих пор было принято считать, что английский (ибо на нем наибольший объем данных, на которых обучаются модели). И эксперименты по использованию английского языка, как языка-посредника (сначала входные данные на исходном языке переводили на английский, обрабатывали их на английском, а затем переводили ответ обратно на исходный язык) подтвердили эффективность такого метода.
  • Но теперь, наконец, решили вскрыть нейросетевой мозг LLM Llama-2, чтобы, послойно изучая отдельные слои, добраться, если не до «языка мыслей» (коих у модели может и не быть), то как минимум до ее лингва франка.
    А это крайне сложно из-за труднодоступной природы нейронных сетей, лежащей в основе LLMs. В них лишь входной слой работает с дискретными токенами. А все остальные работают уже с многомерными векторами из чисел с плавающей запятой. Как понять, соответствуют ли эти векторы английскому, эстонскому, китайскому и т. д. — или вообще никакому языку — это открытая проблема. И вопрос о том, используют ли LLMs внутренний язык-посредник, до сих пор не был изучен эмпирически.

Теперь изучили и ответ получили.

✔️ Это не английский язык, а неведомый нам язык для формирования и оперирования в абстрактном «пространстве концепций».
✔️ Этот язык англо-подобен, но лишь в семантическом, а не чисто лексическом смысле. Что порождает проблемы.

Например:

— англоцентричное смещение предвзятостей этого языка, что может вызывать предвзятости и в поведении модели;

— психолингвистические заморочки из-за того, что концепции могут нести разное эмоциональное значение в разных языках, и что одно слово может использоваться для разных концепций, а это может влиять на когнитивные процессы.

Названные проблемы требуют продолжения исследований.

Но это уже прорыв. И теперь растут шансы, что языки абстрактных «пространств концепций» больших языковых моделей, способные классифицировать и генерировать любые человеческие языки, помогут нам попытаться сделать то же самое с языками животных. [2]

На приложенной картинке:

Анатомия прямого прохода трансформера при переводе на китайский язык. Эволюция на каждом слое: (а) энтропия распределения следующего токена; (б) энергия токена; (в) вероятности языков. По мере того как скрытые представления преобразуются от слоя к слою, они проходят через три фазы; (г) перемещение на гиперсфере, здесь картинка показана в 3D вместо реальных 8192D; «甜» означает «сладкий».

И кстати, слабо 8192-мерную гиперсферу вообразить?

А для DALL·E это запросто:

Вот визуализация 8192-мерной гиперсферы в виде трехмерной сферы с осями, указывающими в различных направлениях, обозначенными разными измерениями, чтобы представить концепцию гиперсферы. Этот рисунок иллюстрирует сложную концепцию гиперсферы, где измерения выходят за пределы привычных трех, показывая, как сложно визуализировать высокоразмерные объекты в низкоразмерных пространствах.

Вот он — иной разум с иным воображением.

1 https://arxiv.org/pdf/2402.10588

2 https://arxiv.org/abs/2406.01253

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet