И все-таки он понимает!
Чтобы увидеть это, потребуется всего 1 минута
Взгляните на 3 примера, иллюстрирующие способность небольшой мультимодальной модели Fuyu-8B от команды AdeptAILabs, понимать визуальную информацию, соотносить ее с задаваемыми ей вопросами и отвечать на них (см. рисунок).
Bопрос 1: Если в пищевой сети, показанной на рисунке, отсутствуют иголки пихты Дугласа, то какой организм будет голодать?
Ответ: Рыжая полевка (Red tree vole)
Bопрос 2: Как это сделано?
Ответ: Десерт готовится из слоеного теста и украшается фисташками и тертым сыром пармезан. Слоеное тесто разрезается на треугольные кусочки, которые затем заполняются фисташками.
Bопрос 3: В скольких сериях снимался Aidan Gillen?
Ответ: В двух.
Конечно, мы могли бы по-прежнему утверждать, что это — не понимание в человеческом смысле.
Кабы при этом знали, что такое понимание в человеческом смысле.
________________________________
Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях