Если работа нам на полчаса, ИИ сделает её в 30 раз дешевле
Первый AGI-подобный тест ИИ-систем (не как инструмента, а как нанимаемого работника)
Тема доли работников в разных профессиях, которых в ближайшие годы заменит ИИ, полна спекуляций:
· от ужас-ужас: люди потеряют 80–90% рабочих мест;
· до ничего страшного: это просто новый инструмент автоматизации, что лишь повысит производительность труда людей.
Самое удивительное в этих оценках — что и те, и другие основываются на бенчмарках, позволяющих оценивать совсем иное, чем кого из кандидатов взять на работу (и в частности, — человека или ИИ).
✔️ Ведь при решении вопроса, кого из кандидатов — людей взять на работу, их проверяют не на бенчмарках, типа тестирования производительности по MATH, MMLU, GPQA и т. д.
✔️ Нанимателей интересует совсем иное.
1) Задачи какой сложности, из входящих в круг профессиональной области нанимаемого специалиста, может решать конкретный кандидат на рабочее место?
2) Как дорого обойдется работодателю, если для решения задач указанного в п. 1 уровня сложности он наймет конкретного кандидата (человека или ИИ — не важно)?
Первый AGI-подобный тест (разработан исследователями METR (Model Evaluation and Threat Research)), отвечающий на вопросы 1 и 2) дал интригующие результаты для GPT-4o и Claude 3.5 Sonnet, весьма интересные не только для науки, но и для бизнеса [1].
· Эти ИИ-системы сопоставимы с людьми в задачах такой сложности, что для их решения специалистам со степенью бакалавра STEM (Science, technology, engineering, and mathematics) и опытом работы 3+ лет требуется до получаса.
· Решение таких задач с помощью ИИ сейчас обходится примерно в 30 раз дешевле, чем если бы платить людям по стандартам рынка труда США.
Данный тест ориентирован на специалистов в 3х областях:
· кибербезопасность (пример задачи — выполнением атаки с использованием внедрения команд на веб-сайте)
· машинное обучение (пример — обучением модели для классификации аудиозаписей)
· программная инженерия (пример — написание ядер CUDA для повышения производительности Python-скрипта)
Ключевые выводы тестирования.
1) Пока что замена людей на ИИ в данных областях экономически оправдана лишь для задач не высокой сложности.
2) Но для такого уровня сложности задач ИИ настолько дешевле людей, что замена уже оправдана.
3) С учетов 2х факторов, ситуация будет быстро меняться в пользу ИИ в ближайшие год-два:
а. Текущие версии лучших ИИ-систем уже способны решать задачи, занимающие у спецов несколько часов и даже дней (но доля таких задач пока меньше 5%)
б. Способности новых версий быстро растут (всего полгода назад предыдущие версии ИИ-систем OpenAI и Anthropic были способны эффективно решать лишь элементарные профессиональные задачи, с которыми спецы справляются за время не более чем 10 мин).
4) Важно понимать, в чем «AGI-подобность» нового подхода к тестированию.
· Способности новых версий (начиная с GPT-4o и Claude 3.5 Sonnet) уже нет смысла, как в случае предыдущих, проверять на узких специализированных бенчмарках, ибо это уже не инструменты, а агенты.
· И теперь, в деле замены людей на ИИ, работодателей будет интересовать не уровень интеллекта кандидата (спорный и субъективный показатель), а его способности, как агента, решающего конкретные задачи в рамках своей компетенции и стОящего его нанимателю конкретных денег.
1 https://metr.org/blog/2024-08-06-update-on-evaluations/
#LLM #AGI