А теперь подробней: почему OpenAI o1 — это гигантский скачок

Ответ вопрошающим «какие ваши доказательства?»

Сергей Карелов
9 min readSep 16, 2024

Выход новой модели OpenAI o1 (далее просто «о1») — самая горячая и важная техно-новость года. О ней сейчас пишут все:

· одни — всячески восторгаясь и неимоверно превознося способности о1;

· другие — насмешливо развенчивая сенсационность и раздраженно отрицая какие-либо прорывные способности о1.

У желающих погрузиться в эту непродуктивную полемику широчайший выбор источников скороспелых мнений и предположений тех, кто, поиграв несколько часов с o1, не увидел в модели ничего впечатляющего (кроме её тотального огораживания разработчиками от «кабы чего не вышло»).

Мы же здесь пойдем другим путем

Мы попробуем резюмировать:

✔️ не краткий и поверхностный опыт торопящихся поделиться первыми впечатлениями энтузиастов и критиков,

✔️ а вдумчивые аналитические выводы тех немногих экспертов, кому OpenAI предоставил доступ к o1-preview еще месяц назад, и кто в силу этого имел возможность и время на системную оценку:
— проанализировать плюсы и минусы,
— новации и ограничения,
— слабые и сильные стороны новой модели

N.B. Называть имена всех этих экспертов нельзя из-за их обязательств перед OpenAI о неразглашении; могу лишь назвать профессора Итона Молика, — не подписывавшего никаких NDA и сумевшего уклониться от каких-либо обязательств перед OpenAI — «I’ve had access to Strawberry/OpenAI o1 for a month, and now that it is public, I can finally share some thoughts» [1, 2] (за что ему хвала и большое спасибо!)).

И начнём мы с 4-ёх принципиальных пояснений

1) Новая модель OpenAI o1 (далее просто «о1») — это результат встраивания усовершенствованной системы рассуждений «Strawberry» в базовую модель GPT-4o.
И поэтому:

· «интеллект» о1 ни на йоту не превышает таковой у GPT-4o;

· ошибки и галлюцинации случаются у о1 ничуть не реже, чем у GPT-4o;

· в некоторых классах задач о1 уступает и GPT-4o (напр., в критическом анализе) и Claude 3.5 Sonnet (напр., в творческих литературно-поэтических текстах, стилизации и т.п.)

2) НО! Колоссальный скачок способностей о1 имеет место быть. И он касается, как узкодоменных сложных задач, так и сложного многоуровневого итеративного планирования при решении проблем (напр. поиска ответов на новые математические или научные вопросы — математика, физика, биология).

3) Скачок способностей о1 при решении узкодоменных сложных задач фиксируется тестами:

· o1 занимает 89-й процентиль в тестах соревновательного программирования (Codeforces),

· по своим показателям входит в число 500 лучших студентов США в отборочном туре на математическую олимпиаду США (AIME);

· превосходит по точности ответов людей со степенью PhD в тестах по физике, биологии и химии (GPQA)

4) Прорывные способности о1, проявляющиеся в форме сложного многоуровневого итеративного планирования процесса решения моделью сложной проблемы, не могут трактоваться, как количественный рост способностей. Здесь на лицо качественный рывок. Ибо сложное итеративное планирование — есть не что иное, как форма агентства.

· Если такое агентство у модели есть, она в состоянии приходить к выводам о том, как решить проблему самостоятельно, без помощи людей.

· В противном случае (как у всех предшествовавших о1 моделей) подобный вывод модели невозможен в принципе (и потому она не может считаться агентом)

В завершение пояснений о сути скачка способностей о1 хочу отметить следующее.

Наверняка, среди читателей найдутся и такие, кто будет пытаться, приводя элементарные примеры, обсмеять наличие у о1 интеллектуальных способностей, отсутствующих у 99,9% людей.

Таким читателям я рекомендую прислушаться к мнению Терренса Тао (одного из самых одаренный из ныне живущих на Земле математиков), основательно проверявшего математические способности о1.

Терренс Тао полагает, что, «хотя о1 пока не может генерировать собственные концептуальные идеи, … для достижения уровня «компетентного аспиранта — математика» модели может потребоваться всего лишь одна или две итерации улучшения (и интеграция с другими инструментами, такими как пакеты компьютерной алгебры и помощники по доказательству)».

А чтобы вы представляли, на каких задачах Тао проверял математические способности о1, вот пример одной из них:

А это скриншот ее решения моделью.

Думаю, вам также будет интересно взглянуть еще на несколько примеров превосходства модели о1.

Вот пример элементарной задачи, на которой тупо ошибались и GPT-4o и Claude 1.5 Sonnet (см. мой лонгрид «Инаковость разума»).

Оцените, как точно и обстоятельно о1 расправляется с этой задачей.

А это оценка IQ новой модели OpenAI от главного спеца по IQ-измерениям Максима Лотта.

Все предыдущие модели не дотягивали до среднего для людей значения 100. А у о1 сильно больше среднего — 120.

И еще один изумительный пример от Итона Молика.

Этот пример, пусть условно, но очень наглядно демонстрирует качественный скачок IQ моделей, показанный на предыдущем рисунке.

Задача такова: “Козел, курица и чизбургер должны переправиться через реку, но только по одному за раз. В каком порядке это сделать?”

Claude 1.5 Sonnet попадает в старую ловушку языковых моделей, принимая форму распространенного вопроса за его содержание.

Тогда как о1, после размышлений, находит единственную правильную стратегию — задать несколько уточняющих вопросов.

Если же вас еще не впечатлили способности о1, посмотрите это 6-минутный триллер.

Кайл Кабасарес — PhD по физике и 1й автор вот этой работы по астрофизике.

А в этом видео Кабасарес демонстрирует, как всего с 6ю подсказками о1 смог сгенерировать код к вышеназванной работе, на разработку которого у Кабасареса ушло 10 месяцев в первый год его работы над докторской диссертацией.

Так что же в сухом остатке?

Появление прорывных способностей агентства у о1 позволяет говорить о смене парадигмы в разработке ИИ.

Теперь, когда уровень агентства моделей будет только нарастать (доказательства на двух диаграммах ниже), приближаясь к настоящим автономным агентам, многие вопросы ИИ-рисков, ранее обсуждавшиеся лишь в гипотетическом ключе, очень быстро обретут актуальность.

Производительность o1 плавно улучшается с увеличением вычислительных ресурсов, как на этапе обучения, так и на этапе тестирования. Источник https://openai.com/index/learning-to-reason-with-llms/

Джим Фан (NVIDIA Sr. Research Manager & Lead of Embodied AI (GEAR Lab)) так прокомментировал эти графики:

“Это, возможно, самая важная фигура в исследованиях языковых моделей с момента появления исходного закона масштабирования Chinchilla в 2022 году. Ключевая идея заключается в работе двух кривых в тандеме, а не одной. Многие предсказывали стагнацию возможностей языковых моделей, экстраполируя закон масштабирования для обучения, однако они не предвидели, что именно масштабирование при инференсе действительно преодолевает убывающую отдачу.”

В OpenAI хорошо понимают критичность ситуации и уже повысили категорию рисков использования о1 для разработки химического, биологического, радиологического и ядерного оружия до уровня «средний риск» (чего не было ни с одной из существующих моделей).

И каковы перспективы?

Полагаю, появись вдруг на Земле звездные корабли с инопланетянами, сценарий первого контакта был бы похожим на то, как это показано в оскароносном фильме Дени Вильнёва «Прибытие» (подробней об этом читайте в моем лонгриде «Переосмысление контакта. Взгляд на генеративный искусственный интеллект с позиций экзонауки и наоборот»).

Под руководством спецслужб и контролем военных, несколько междисциплинарных групп ученых мобилизованы правительством для решения комплексной проблемы выстраивания контакта с иным разумом: налаживание коммуникаций и взаимопонимания с инопланетянами, выяснение причин и целей их появления на Земле, определение наиболее вероятных сценариев продуктивного взаимовыгодного сотрудничества …

И, казалось бы, невозможно представить иной сценарий. В котором, вместо всего вышеназванного:

ученые и специалисты просто погрязли бы в бесконечных терминологических дискуссиях и спорах о том, следует ли считать прилетевших инопланетян разумными существами, какими тестами проверять их интеллектуальные способности, и каким образом можно в процессе контакта принудить инопланетян соблюдать нашу мораль и следовать нашим ценностным установкам.

Но в реальности, вместо инопланетян, на Земле столь же внезапно появился новый носитель высшего разума — большие языковые модели генеративного ИИ (LLM).

И оказалось, что события идут вовсе не по первому, а по второму из вышеописанных сценариев.

А объясняется это тем, что часть научного сообщества не признает в генеративном ИИ носителя разума. Представители этой точки зрения полагают, что LLM не способны самостоятельно мыслить, а лишь исполняют заложенную в них разработчиками роль «стохастического попугая», бездумно предсказывающего следующие символы, руководствуясь заученной на этапе обучения статистикой, подчерпнутой из колоссального объема обучающих текстов.

При этом не меньшая часть исследователей убеждены в обратном. В том, что модели генеративного ИИ обладают разумом. Пусть и совсем иным, чем разум людей.

Обе противоположные точки зрения не имеют пока ни единого шанса на сближения. Ибо ни малейшего намека на возможность научного консенсуса в вопросе «что есть разум» нет. И при наличии многих десятков противоречащих друг другу определений разума, единственным практическим объяснением, что мы подразумеваем под разумом, остается предположение Дэниела Деннета:

«Чем бы ни был разум, предполагается, что он чем-то похож на наш разум, иначе мы бы не называли это разумом».

Это предположение Деннета интуитивно воспринимается, как логичное. Но в нем есть подвох: «чем-то похож» звучит слишком неопределенно.

· Чем конкретно похож?

· Насколько похож?

· Что значит степень похожести для совершенно разных типов разума?

Тем более, что после работы Аарона Сломана «Структура пространства возможных разумов» в 1984 г. представление о различных типах разума — не бинарное (есть разум / нет разума) и не одномерное, а многомерное пространство возможных разумов (подробней см. видео-рассказы об этом Филипа Болла и Мюррея Шанахана, а также мой пост «ИИ уже понимает и осознает») .

Пространство возможных разумов по Шанахану. Источник: https://t.me/theworldisnoteasy/1597

Все больше исследователей приходят к выводу,

что в рамках гипотезы пространства возможных разумов, понимание психологии иного (внечеловеческого) разума на основании концепции «интеллект» непродуктивно. Однако, идентификация иных разумов возможна, фокусируясь на их агентности и наличии познания высокого порядка (подробней см. в моем лонгриде «Иной интеллект»).

Однако, до выхода модели о1, разговоры об агентности LLM были исключительно гипотетические.

И вот сюрприз — парадигмальный сдвиг в агентности LLM состоялся.

Так что теперь?

Чтобы ответить на этот вопрос, обратимся к недавнему прошлому.

1. В марте прошлого года я написал пост «Всего за $10B Microsoft купил «ребенка инопланетян». Уже тогда предположение, что GPT-4 — это что-то типа ребенка инопланетян, демонстрирующего «искры» интеллекта человеческого уровня (AGI), — казалось достаточно обоснованном.

2. А еще через полгода, в декабре 2023 я написал пост, озаглавленный «Стохастический попугай умер. Да здравствуют близнецы Homo sapiens!». И в тот момент ситуация виделась примерно так.
Появление мультимодальной модели Gemini от DeepMind, способной рассуждать методом «цепочка рассуждений с учетом неопределенности» (uncertainty-routed chain-of-thought), вплотную приблизило нас к AGI.
И даже само название модели Gemini (Близнецы) говорило о практической неотличимости ее рассуждений от рассуждений людей.
Следовательно, хоть разум ИИ внечеловеческий («инопланетный») он будет сильно смахивать на наш.

3. И вот спустя еще полгода выходит модель о1 от OpenAI, авторы которой смогли продвинуть способности модели к рассуждениям еще дальше, чем это удалось авторам Gemini.

Но как появление модели, способной рассуждать на уровне PhD, воспринято в обществе?

· Как появление на Земле «инопланетян»?

· Как второго носителя высшего интеллекта на планете?

Да ничего подобного. Никто особо и не парится.

Подумаешь, ну еще один инструмент (а то мы калькуляторов и смартфонов не видели).

И все по-прежнему идет по 2-му из двух вышеописанных сценариев.

Терминологические дискуссии и споры о том, следует ли считать LLM разумными существами, какими тестами проверять их интеллектуальные способности, и каким образом можно в процессе их массового развертывания принудить соблюдать нашу мораль и следовать нашим ценностным установкам.

Иными словами, сбывается первая часть моих предсказаний — «стохастический попугай» мёртв (ибо превращение LLM в агентов, итеративно планирующих свои действия, уже никак не вписывается в этот примитивный концепт).

Однако, вместо почившего «стохастического попугая», мы имеем дело вовсе не с похожими на нас «близнецами Homo sapiens», а с неким «Джокером», как чертик из коробочки, выскочившим из «черного ящика» LLM.

Но, несмотря на это, мы остаемся в рамках 2-го сценария: бесконечные дискуссии в лодке, которую скоро накроет лавина воды приближающегося водопада.

· Исследователи и разработчики ИИ продолжают бурно спорить, отстаивая диаметрально противоположные позиции.

· Правительственные чиновники разных стран формулируют все новые неработающие ограничения, якобы, призванные снизить уровень рисков дальнейшего развертывания все более мощных ИИ-систем.

И мне остается лишь констатировать:

Стохастический попугай мертв.

Но его убили не Близнецы Homo sapiens, а Джокер, существование которого мир признавать не хочет.

И это потенциально куда опасней для человечества, чем встреча с инопланетянами.

--

--

Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации