По сути, Microsoft показал, что AGI уже здесь

Поверить в это трудно, но придется

2 min readDec 2, 2023

Новое исследование топовой команды ученых из Microsoft во главе с самим Эриком Хорвиц, (главный научный сотрудник Microsoft) показало 3 сенсационных результата.

Нынешняя версия GPT-4 таит в себе колоссальные «глубинные знания», не уступающие уровню знаний экспертов — людей в широком круге проблемных областей (т.е. с учетом многозначности определений AGI, не будет сильным преувеличением сказать, что GPT-4 уже практически достиг уровня AGI).
Эти «глубинные знания» прячутся где-то внутри базовой большой языковой модели, лежащей в основе GPT-4. Т.е. они получены моделью на этапе ее обучения, без каких-либо вмешательств со стороны людей (специальной дополнительной тонкой настройки или опоры на экспертные знания специалистов при создании подсказок).
Получить доступ к «глубинным знаниям» модели можно, если поручить самой модели промпт-инжиниринг (разработку подсказок) для самой себя, с использованием методов:
— «обучения в контексте»,
— составления «цепочек мыслей»,
— «сборки» (объединение результатов нескольких прогонов модели для получения более надежных и точных результатов, объединяя их с помощью таких функций, как усреднение, консенсус, или большинство голосов).

В результате получения доступа к «глубинным знаниям» модели, «обычный» GPT-4:

без какой-либо тонкой настройки на спецданных и без подсказок профессиональных экспертов-медиков,
а лишь за счет высокоэффективной и действенной стратегии подсказок, разработанных самим интеллектом GPT-4 (эта методика названа авторами Medprompt), -

обнаружил в себе значительные резервы для усиления специализированной производительности.

В итоге, GPT-4 с Medprompt:

✔️ Впервые превысил 90% по набору данных MedQA
✔️ Достиг лучших результатов по всем девяти наборам эталонных данных в пакете MultiMedQA.
✔️ Снизил частоту ошибок в MedQA на 27% по сравнению с MedPaLM 2 (до сих пор бывшая лучшей в мире специально настроенная медицинская модель от Google)

(см. рисунок)

Медициной дело не ограничилось.

Для проверки универсальности Medprompt, авторы провели исследования его эффективности на наборах оценок компетентности в шести областях, не связанных с медициной, включая электротехнику, машинное обучение, философию, бухгалтерский учет, юриспруденцию, сестринское дело и клиническую психологию.

Результаты показали — Medprompt эффективно работает во всех названных областях.

Понимаю, что многие скажут — это еще не AGI, — и заведут старую шарманку про стохастических попугаев.

Мне же кажется, что даже если это еще не AGI, то нечто предельно близкое к нему.

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

По сути, Microsoft показал, что AGI уже здесь

Поверить в это трудно, но придется

Written by Сергей Карелов

No responses yet