К нам прилетели Вуки и Твилеки

Первый сравнительный бриф говорящих моделей

Сергей Карелов
2 min readAug 1, 2024

Два самых интересных и многообещающих события последних дней в мире ИИ — выход в свет говорящих моделей: расширенного голосового режим ChatGPT и нового Siri с ИИ под капотом.

Страшно интересно, действительно ли это «вау», типа разговора с инопланетянами?

Но авторитетных тестировщиков, сумевших всего за несколько дней поиграть с новыми говорящими моделями, единицы. И из них, лично для меня, интересней всего мнение проф. Итана Молика, уже не раз публиковавшего чрезвычайно глубокие аналитические посты о ГенИИ больших языковых моделей.

Главный вывод профессора Молик (в моей интерпретации):

Эти говорящие модели можно уподобить двум иконическим расам в культуре “Звездных войн”: Вуки и Твилеки, похожие друг на друга не больше, чем Чебурашка и Гена:

· Вуки (Wookiees) — высокие, покрытые шерстью гуманоиды, известные своей силой, преданностью и и умением вести боевые действия.

· Твилеки (Twi’leks) — гуманоиды с характерными щупальцеобразными отростками на голове, называемыми “лекку”. Они известны своей разнообразной окраской кожи и культурным разнообразием.

Два новых говорящих ИИ — это не просто разные подходы к общению с ИИ. Во многом они демонстрируют собой водораздел между двумя философиями ИИ:

· вторые пилоты против агентов,

· маленькие модели против больших,

· специалисты против универсалов.

✔️ Если Siri стремится сделать ИИ менее странным и более предсказуемым, ChatGPT Voice — полная противоположность.

✔️ Сделав ставку на конфиденциальность, безопасность и надежность, Apple воплотил в Siri идеального второго пилота, способного надежно выполнять функции специализированных ИИ для помощи в выполнении определенных задач.
Такие вторые пилоты могут быть полезны, но вряд ли приведут к скачкам производительности или изменят способ нашей работы, потому что они ограничены. Мощность идет вразрез с безопасностью.

✔️ ChatGPT Voice — полная противоположность. Он кажется человеком во всем: в динамике темпа речи, интонациях и даже в фальшивом дыхании и придыханиях (послушайте аудиоклипы, которые Молик вставил в свой пост). И как всякий человек, этот ИИ «хочет» быть агентом, а не инструментом. И чтобы хоть как-то обуздывать его инициативу, похоже, многие из доступные ему функций заперты разработчиками за ограждениями.

Но каков бы ни был водораздел, эти два говорящих ИИ уже примерно через год задействуют всю мощь своих систем (сейчас не задействована и половина) и превратятся в помощников, которые смогут смотреть, слушать и взаимодействовать с миром.

И как только это будет достигнуто, следующим шагом станут агенты, идея которых в том, что ваш ИИ будет не просто уметь разговаривать с вами, но также планировать и предпринимать действия от вашего имени.

#LLM #ИИагенты

--

--

Сергей Карелов

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации