Создана энергетическая модель понимания ИИ сложных сцен

Это еще не человек, но уже и не совсем машина, ибо кое-что понимает

2 min readDec 7, 2021

Современный ИИ водит авто лучше большинства людей. Но при этом не понимает ничего из того что видит. ИИ-автопилот способен аккуратно обогнать грузовик, но не в состоянии по вашей команде «ехать за грузовиком с красной кабиной». Причина в том, что ИИ-автопилот научили ориентироваться среди объектов, встречающихся на дорогах, но он не понимает композитной структуры окружающего мира: их взаиморасположение, взаимосвязь и т.д. Из-за этого он не понимает, что это грузовик, у него есть кабина, она имеет цвет и может быть красной.

Есть два способа проверить понимание ИИ композитной структуры окружающего мира:

Visual Relation Understanding: предлагать ИИ описать на естественном языке, что он видит;
Language Guided Scene Generation: предлагать ему сгенерировать изображение сцен по их описанию на естественном языке.

Например, «понимающая» окружающий мир умная колонка со встроенной камерой может, на ваш вопрос «как расставлена мебель в комнате», ответить что-то типа: слева у окна письменный стол, а перед ним стул, справа книжный шкаф, а за ним этажерка, на окне бежевые шторы, а на подоконнике цветок в горшке.

Или, например, она способна сгенерировать верную 3D картинку по вашему описанию: на дворе трава, а на траве дрова.

Умеющему сделать такое ИИ будет еще далеко до человеческого понимания мироустройства. Но и сказать, что он совсем не понимает, как устроен окружающий его мир, уже будет не справедливо.

Новый весьма оригинальный способ обучения ИИ пониманию сложных композитных сцен из многих предметов и их взаимоотношений описан в только что опубликованной работе Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) MIT.

Способ основан на «энергетической модели»: описание реляционной сцены отношений объектов, как произведение отдельных распределений вероятностей отношений между ними, причем каждое отдельное отношение определяется на изображении своим распределением вероятностей. Такая композиция позволяет моделировать взаимодействия между несколькими отношениями (популярно и научно).

Новый способ скоро позволит ИИ строить сцены по описаниям типа «на златом крыльце сидели: царь, царевич, король, королевич, сапожник, портной». И совсем не за горами понимание ИИ фраз типа «графиня изменившимся лицом бежит пруду».

Вместе с тем, даже столь обещающие перспективы «энергетической модели» не позволяют надеяться на понимание ИИ фраз типа «на меня наставлен сумрак ночи тысячью биноклей на оси». Ибо здесь, как с аффордансами, — проблема не в неисчислимости вариантов объектов и их отношений, а в неопределенности этих отношений (см. видео). Это значит, что пока Борис Пастернак не создал этих отношений между объектами: «сумрак ночи», «тысяча биноклей» да еще и «на оси» в контексте «ощущения неотвратимости трагедии», — они просто не существуют в нашем мире.

И даже если они существуют в каком-то из иных миров Метаверса, люди уровня Бориса Пастернака умеют их оттуда извлекать, а алгоритмы ИИ — нет (т.к. преодолеть неопределенность с помощью вычислений нельзя).

________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях.

Создана энергетическая модель понимания ИИ сложных сцен

Это еще не человек, но уже и не совсем машина, ибо кое-что понимает

Written by Сергей Карелов

No responses yet