Кожаным мешкам приготовиться: ИИ приблизились по качеству работы к отраслевым экспертам
При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval — бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 — см. картинку), вносящих наибольший вклад в ВВП США Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами — людьми.
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.
Результат сногсшибательный (см. рисунок).
1) ИИ работают уже почти на уровне экспертов — людей.
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы. Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47,6% по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38,8% и o3 high с 34,1%
2) ИИ несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты».
Самое важное:
Это всего лишь сегодняшние модели. Через год новые модели будут сильно умней и умелей экспертов людей. И профессий будет уже не 44 в 9 отраслях, а много больше.
#LLMvsHomo
