Новая «Квантовая теория знаний» может ответить на вопрос века
Этот вопрос — приостанавливать ли обучение сверхбольших моделей ИИ?
Дискуссии технооптимистов и технопессимистов ИИ, все более накаляющиеся с началом «революции ChatGPT», постоянно упираются в непреодолимую стену непонимания сторон.
✔️ Технопессимисты настаивают на необходимости временной приостановки обучения сверхбольших языковых моделей.
✔️ На что даже самые сговорчивые из технооптимистов резонно спрашивают: зачем? что это даст? как на практике приостановка может помочь снизить риски дальнейших разработок ИИ?
Свои ответы на эти вопросы я недавно опубликовал.
Приостановка нужна, чтобы исследовать, что за скрытые эмерджентные способности ИИ могут прятаться в скрытом пока что от нас «навесе» новых способностей, не предусмотренных и непредвиденных разработчиками.
Однако, в логике этого моего ответа, есть неприятный изъян.
Не понятно, что за механизм может на практике помочь прогнозированию появления эмерджентных способностей при масштабировании нейросетей (увеличении размеров моделей и объемов данных)?
И вот прорыв, убирающий этот изъян.
Такой механизм предложен в работе Макса Тегмарка и трёх его коллег из Department of Physics, MIT; NSF AI Institute for AI and Fundamental Interactions; Department of EECS, MIT; Center for Brains, Minds and Machines, MIT.
Работа называется «Квантование модели масштабирования нейронов». В ней описываются:
- «Гипотеза квантования» знаний при обучении нейросетей, согласно которой возможности нейросетей квантуются в дискретные блоки (кванты).
- Модель квантования законов нейронного масштабирования, объясняющая и численно описывающая:
— наблюдаемое возрастание по степенному закону точности модели при увеличении модели и размера данных;
— наблюдаемое внезапное появление новых эмерджентных возможностей в результате масштабирования модели и данных.
Гипотеза и модель пока что успешно протестированы на относительно небольших моделях.
Теперь, если подтвердится их применимость к большим моделям, появятся две столь необходимые для исследователей возможности предсказать:
1) Что за эмерджентные способности могут таиться в «навесе» уже существующих нейросетевых больших языковых моделей (типа GPT-4)
2) Каков должен быть масштаб нейросетевой большой языковой модели (напр. GPT-5 или 6), чтобы в ней прорезалась определенная новая способность ИИ.
Наличие этих возможностей позволяет продуктивно использовать приостановку обучения свербольших языковых моделей для выявления спрятанных в них рисков и разработки способов их минимизации.
Ну а в будущем, не исключено, что предложенная квантовая модель знаний нейросетей сыграет не меньшую роль в понимании работы интеллекта (и в том числе, нашего), чем квантовая физика сделала для понимания физики материального мира.
________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях