Гиганты снова придут на Землю, и мы это увидим … если доживем

Предупреждение Джордана Петерсона о «темной стороне ИИ» начинает сбываться

Сергей Карелов
3 min readMar 10, 2023

Время колоссально ускорилось. В декабре проф. Джордан Петерсон дал большое интервью лорду Конраду Блэйку. В нем Петерсон, затронул много тем. И среди них, — вопрос о «темной стороне ИИ» на примере только появившегося тогда ChatGPT.

Петерсон предупреждал о следующем.

«Будьте готовы к тому, что на фронте ИИ в течение следующего года появятся вещи, от которых у вас просто встанут волосы дыбом» …

Сейчас уже существует ИИ, способный создавать свою собственную картину мира лишь на основе анализа колоссального корпуса текстов. И этот ИИ уже интеллектуальней многих из нас. Но через год он станет несравнимо более интеллектуальным, чем большинство из нас … Ибо он будет строить свою картину мира из триллионов паттернов, извлекаемых не только из текстов людей, но и из самого мира непосредственно (его визуальных и прочих образов). Знания в основе его картины мира будут проистекать не только из лингвистической статистики текстов, описывающих этот мир (как сейчас у ChatGPT). Но и из статистики закономерностей формирования и динамики взаимодействий объектов этого мира.
Так что держите свои шляпы, дамы и господа. Как сказал Джонатан Пажо, — гиганты снова придут на Землю, и мы, возможно, это увидим … если доживем.»

Не прошло и трёх месяцев, как предупреждение проф. Петерсона начало сбываться.

Группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила первый шаг к тому, о чем говорил Петерсон:

PaLM-E — мультимодальная визуальная языковая модель (VLM) с 562 миллиардами параметров, которая объединяет зрение и язык для управления роботами.

Получив команду «принеси мне рисовые чипсы из ящика стола на кухне», PaLM-E может сгенерировать план действий для мобильной роботизированной платформы с механической рукой (разработанной Google Robotics) и выполнять весь набор сгенерированных действий.

PaLM-E делает это, анализируя данные с камеры робота, не требуя предварительно обработанного представления сцены. Это устраняет необходимость в предварительной обработке или аннотировании данных человеком и обеспечивает автономную работу робота.

PaLM-E — это предиктор следующего токена, Он назван так потому, что основан на большой языковой модели (LLM) Google под названием «PaLM», похожей на технологию в основе ChatGPT.

Но Google сделал PaLM «воплощенным», добавив сенсорную информацию и роботизированное управление.

Так как он основан на языковой модели, PaLM-E непрерывно собирает наблюдения, такие как изображения или данные датчиков, и кодирует их в последовательность векторов того же размера, что и языковые токены. Это позволяет модели «понимать» сенсорную информацию так же, как она обрабатывает язык.

Новая модель демонстрирует интересные и неожиданные способности.

  • Например, она демонстрирует «положительный перенос», что означает, что она может передавать знания и навыки, полученные ею от одной задачи к другой, что приводит к значительно более высокой производительности по сравнению с однозадачными моделями роботов.
  • Кроме того, модель демонстрирует мультимодальные логические цепочки рассуждений (позволяющие модели анализировать последовательность входных данных, включающих как языковую, так и визуальную информацию) и мультиобразный вывод (использование нескольких изображений в качестве входных данных, чтобы сделать вывод или предсказание), несмотря на то, что модель была обучена только на подсказках с одним изображением (single-image prompts).

Прав оказался Петерсон.

Держите свои шляпы, дамы и господа. Ибо гиганты уже приближаются.

Подробней здесь.

________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях

--

--

Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации