Новая «Квантовая теория знаний» может ответить на вопрос века

Этот вопрос — приостанавливать ли обучение сверхбольших моделей ИИ?

Сергей Карелов
2 min readApr 4, 2023

Дискуссии технооптимистов и технопессимистов ИИ, все более накаляющиеся с началом «революции ChatGPT», постоянно упираются в непреодолимую стену непонимания сторон.

✔️ Технопессимисты настаивают на необходимости временной приостановки обучения сверхбольших языковых моделей.

✔️ На что даже самые сговорчивые из технооптимистов резонно спрашивают: зачем? что это даст? как на практике приостановка может помочь снизить риски дальнейших разработок ИИ?

Свои ответы на эти вопросы я недавно опубликовал.

Приостановка нужна, чтобы исследовать, что за скрытые эмерджентные способности ИИ могут прятаться в скрытом пока что от нас «навесе» новых способностей, не предусмотренных и непредвиденных разработчиками.

Однако, в логике этого моего ответа, есть неприятный изъян.

Не понятно, что за механизм может на практике помочь прогнозированию появления эмерджентных способностей при масштабировании нейросетей (увеличении размеров моделей и объемов данных)?

И вот прорыв, убирающий этот изъян.

Такой механизм предложен в работе Макса Тегмарка и трёх его коллег из Department of Physics, MIT; NSF AI Institute for AI and Fundamental Interactions; Department of EECS, MIT; Center for Brains, Minds and Machines, MIT.

Работа называется «Квантование модели масштабирования нейронов». В ней описываются:

  1. «Гипотеза квантования» знаний при обучении нейросетей, согласно которой возможности нейросетей квантуются в дискретные блоки (кванты).
  2. Модель квантования законов нейронного масштабирования, объясняющая и численно описывающая:
    — наблюдаемое возрастание по степенному закону точности модели при увеличении модели и размера данных;
    — наблюдаемое внезапное появление новых эмерджентных возможностей в результате масштабирования модели и данных.

Гипотеза и модель пока что успешно протестированы на относительно небольших моделях.

Теперь, если подтвердится их применимость к большим моделям, появятся две столь необходимые для исследователей возможности предсказать:

1) Что за эмерджентные способности могут таиться в «навесе» уже существующих нейросетевых больших языковых моделей (типа GPT-4)

2) Каков должен быть масштаб нейросетевой большой языковой модели (напр. GPT-5 или 6), чтобы в ней прорезалась определенная новая способность ИИ.

Наличие этих возможностей позволяет продуктивно использовать приостановку обучения свербольших языковых моделей для выявления спрятанных в них рисков и разработки способов их минимизации.

Ну а в будущем, не исключено, что предложенная квантовая модель знаний нейросетей сыграет не меньшую роль в понимании работы интеллекта (и в том числе, нашего), чем квантовая физика сделала для понимания физики материального мира.

________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet