Sitemap

Кожаным мешкам приготовиться: ИИ приблизились по качеству работы к отраслевым экспертам

При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле

2 min readOct 2, 2025

--

Press enter or click to view image in full size

OpenAI создала GDPval — бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 — см. картинку), вносящих наибольший вклад в ВВП США Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами — людьми.

Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.

Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.

Результат сногсшибательный (см. рисунок).

1) ИИ работают уже почти на уровне экспертов — людей.
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы. Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47,6% по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38,8% и o3 high с 34,1%

2) ИИ несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты».

Самое важное:

Это всего лишь сегодняшние модели. Через год новые модели будут сильно умней и умелей экспертов людей. И профессий будет уже не 44 в 9 отраслях, а много больше.

Подробней [1, 2]

#LLMvsHomo

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet