По сути, Microsoft показал, что AGI уже здесь

Поверить в это трудно, но придется

Сергей Карелов
2 min readDec 2, 2023

Новое исследование топовой команды ученых из Microsoft во главе с самим Эриком Хорвиц, (главный научный сотрудник Microsoft) показало 3 сенсационных результата.

  1. Нынешняя версия GPT-4 таит в себе колоссальные «глубинные знания», не уступающие уровню знаний экспертов — людей в широком круге проблемных областей (т.е. с учетом многозначности определений AGI, не будет сильным преувеличением сказать, что GPT-4 уже практически достиг уровня AGI).
  2. Эти «глубинные знания» прячутся где-то внутри базовой большой языковой модели, лежащей в основе GPT-4. Т.е. они получены моделью на этапе ее обучения, без каких-либо вмешательств со стороны людей (специальной дополнительной тонкой настройки или опоры на экспертные знания специалистов при создании подсказок).
  3. Получить доступ к «глубинным знаниям» модели можно, если поручить самой модели промпт-инжиниринг (разработку подсказок) для самой себя, с использованием методов:
    — «обучения в контексте»,
    — составления «цепочек мыслей»,
    — «сборки» (объединение результатов нескольких прогонов модели для получения более надежных и точных результатов, объединяя их с помощью таких функций, как усреднение, консенсус, или большинство голосов).

В результате получения доступа к «глубинным знаниям» модели, «обычный» GPT-4:

  • без какой-либо тонкой настройки на спецданных и без подсказок профессиональных экспертов-медиков,
  • а лишь за счет высокоэффективной и действенной стратегии подсказок, разработанных самим интеллектом GPT-4 (эта методика названа авторами Medprompt), -

обнаружил в себе значительные резервы для усиления специализированной производительности.

В итоге, GPT-4 с Medprompt:

✔️ Впервые превысил 90% по набору данных MedQA

✔️ Достиг лучших результатов по всем девяти наборам эталонных данных в пакете MultiMedQA.

✔️ Снизил частоту ошибок в MedQA на 27% по сравнению с MedPaLM 2 (до сих пор бывшая лучшей в мире специально настроенная медицинская модель от Google)

(см. рисунок)

Медициной дело не ограничилось.

Для проверки универсальности Medprompt, авторы провели исследования его эффективности на наборах оценок компетентности в шести областях, не связанных с медициной, включая электротехнику, машинное обучение, философию, бухгалтерский учет, юриспруденцию, сестринское дело и клиническую психологию.

Результаты показали — Medprompt эффективно работает во всех названных областях.

Понимаю, что многие скажут — это еще не AGI, — и заведут старую шарманку про стохастических попугаев.

Мне же кажется, что даже если это еще не AGI, то нечто предельно близкое к нему.

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet