Если работа нам на полчаса, ИИ сделает её в 30 раз дешевле

Первый AGI-подобный тест ИИ-систем (не как инструмента, а как нанимаемого работника)

Сергей Карелов
3 min readAug 13, 2024

Тема доли работников в разных профессиях, которых в ближайшие годы заменит ИИ, полна спекуляций:

· от ужас-ужас: люди потеряют 80–90% рабочих мест;

· до ничего страшного: это просто новый инструмент автоматизации, что лишь повысит производительность труда людей.

Самое удивительное в этих оценках — что и те, и другие основываются на бенчмарках, позволяющих оценивать совсем иное, чем кого из кандидатов взять на работу (и в частности, — человека или ИИ).

✔️ Ведь при решении вопроса, кого из кандидатов — людей взять на работу, их проверяют не на бенчмарках, типа тестирования производительности по MATH, MMLU, GPQA и т. д.

✔️ Нанимателей интересует совсем иное.

1) Задачи какой сложности, из входящих в круг профессиональной области нанимаемого специалиста, может решать конкретный кандидат на рабочее место?

2) Как дорого обойдется работодателю, если для решения задач указанного в п. 1 уровня сложности он наймет конкретного кандидата (человека или ИИ — не важно)?

Первый AGI-подобный тест (разработан исследователями METR (Model Evaluation and Threat Research)), отвечающий на вопросы 1 и 2) дал интригующие результаты для GPT-4o и Claude 3.5 Sonnet, весьма интересные не только для науки, но и для бизнеса [1].

· Эти ИИ-системы сопоставимы с людьми в задачах такой сложности, что для их решения специалистам со степенью бакалавра STEM (Science, technology, engineering, and mathematics) и опытом работы 3+ лет требуется до получаса.

· Решение таких задач с помощью ИИ сейчас обходится примерно в 30 раз дешевле, чем если бы платить людям по стандартам рынка труда США.

Данный тест ориентирован на специалистов в 3х областях:

· кибербезопасность (пример задачи — выполнением атаки с использованием внедрения команд на веб-сайте)

· машинное обучение (пример — обучением модели для классификации аудиозаписей)

· программная инженерия (пример — написание ядер CUDA для повышения производительности Python-скрипта)

Ключевые выводы тестирования.

1) Пока что замена людей на ИИ в данных областях экономически оправдана лишь для задач не высокой сложности.

2) Но для такого уровня сложности задач ИИ настолько дешевле людей, что замена уже оправдана.

3) С учетов 2х факторов, ситуация будет быстро меняться в пользу ИИ в ближайшие год-два:

а. Текущие версии лучших ИИ-систем уже способны решать задачи, занимающие у спецов несколько часов и даже дней (но доля таких задач пока меньше 5%)

б. Способности новых версий быстро растут (всего полгода назад предыдущие версии ИИ-систем OpenAI и Anthropic были способны эффективно решать лишь элементарные профессиональные задачи, с которыми спецы справляются за время не более чем 10 мин).

4) Важно понимать, в чем «AGI-подобность» нового подхода к тестированию.

· Способности новых версий (начиная с GPT-4o и Claude 3.5 Sonnet) уже нет смысла, как в случае предыдущих, проверять на узких специализированных бенчмарках, ибо это уже не инструменты, а агенты.

· И теперь, в деле замены людей на ИИ, работодателей будет интересовать не уровень интеллекта кандидата (спорный и субъективный показатель), а его способности, как агента, решающего конкретные задачи в рамках своей компетенции и стОящего его нанимателю конкретных денег.

1 https://metr.org/blog/2024-08-06-update-on-evaluations/

#LLM #AGI

--

--

Сергей Карелов
Сергей Карелов

Written by Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

No responses yet