Гиганты снова придут на Землю, и мы это увидим … если доживем
Предупреждение Джордана Петерсона о «темной стороне ИИ» начинает сбываться
Время колоссально ускорилось. В декабре проф. Джордан Петерсон дал большое интервью лорду Конраду Блэйку. В нем Петерсон, затронул много тем. И среди них, — вопрос о «темной стороне ИИ» на примере только появившегося тогда ChatGPT.
Петерсон предупреждал о следующем.
«Будьте готовы к тому, что на фронте ИИ в течение следующего года появятся вещи, от которых у вас просто встанут волосы дыбом» …
Сейчас уже существует ИИ, способный создавать свою собственную картину мира лишь на основе анализа колоссального корпуса текстов. И этот ИИ уже интеллектуальней многих из нас. Но через год он станет несравнимо более интеллектуальным, чем большинство из нас … Ибо он будет строить свою картину мира из триллионов паттернов, извлекаемых не только из текстов людей, но и из самого мира непосредственно (его визуальных и прочих образов). Знания в основе его картины мира будут проистекать не только из лингвистической статистики текстов, описывающих этот мир (как сейчас у ChatGPT). Но и из статистики закономерностей формирования и динамики взаимодействий объектов этого мира.
Так что держите свои шляпы, дамы и господа. Как сказал Джонатан Пажо, — гиганты снова придут на Землю, и мы, возможно, это увидим … если доживем.»
Не прошло и трёх месяцев, как предупреждение проф. Петерсона начало сбываться.
Группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила первый шаг к тому, о чем говорил Петерсон:
PaLM-E — мультимодальная визуальная языковая модель (VLM) с 562 миллиардами параметров, которая объединяет зрение и язык для управления роботами.
Получив команду «принеси мне рисовые чипсы из ящика стола на кухне», PaLM-E может сгенерировать план действий для мобильной роботизированной платформы с механической рукой (разработанной Google Robotics) и выполнять весь набор сгенерированных действий.
PaLM-E делает это, анализируя данные с камеры робота, не требуя предварительно обработанного представления сцены. Это устраняет необходимость в предварительной обработке или аннотировании данных человеком и обеспечивает автономную работу робота.
PaLM-E — это предиктор следующего токена, Он назван так потому, что основан на большой языковой модели (LLM) Google под названием «PaLM», похожей на технологию в основе ChatGPT.
Но Google сделал PaLM «воплощенным», добавив сенсорную информацию и роботизированное управление.
Так как он основан на языковой модели, PaLM-E непрерывно собирает наблюдения, такие как изображения или данные датчиков, и кодирует их в последовательность векторов того же размера, что и языковые токены. Это позволяет модели «понимать» сенсорную информацию так же, как она обрабатывает язык.
Новая модель демонстрирует интересные и неожиданные способности.
- Например, она демонстрирует «положительный перенос», что означает, что она может передавать знания и навыки, полученные ею от одной задачи к другой, что приводит к значительно более высокой производительности по сравнению с однозадачными моделями роботов.
- Кроме того, модель демонстрирует мультимодальные логические цепочки рассуждений (позволяющие модели анализировать последовательность входных данных, включающих как языковую, так и визуальную информацию) и мультиобразный вывод (использование нескольких изображений в качестве входных данных, чтобы сделать вывод или предсказание), несмотря на то, что модель была обучена только на подсказках с одним изображением (single-image prompts).
Прав оказался Петерсон.
Держите свои шляпы, дамы и господа. Ибо гиганты уже приближаются.
Подробней здесь.
________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях