Внушенные галлюцинации ИИ

Image for post
Image for post

Можно без натяжки сказать, что, по сравнению с человеком, ИИ обладает куда более развитыми истерическими свойствами.

Так здоровый, но внушаемый (с истерическими чертами характера) человек может вслед за больным “увидеть” черта, ангелов, летающие тарелки и, вообще, что угодно. Однако, подобные люди — редкость (их порядка процента).

В отличие же от людей, каждый ИИ — законченный истерик. Заставить его видеть вместо стула — черта, вместо шишек — ангелов, а вместо милиционера — летающую тарелку, — совсем не бином Ньютона.

Называется этот трюк — использование «враждебных данных» (adversarial inputs), заставляющих ИИ видеть какие-то обманные образы (а по сути, — вызывать у ИИ внушенные галлюцинации).

Вот перед вами 3 картинки:

Image for post
Image for post

✔️ Левая –фото ленивца, распознаваемого ИИ с вероятностью > 99%.

✔️ Средняя — фото гоночного авто. Это галлюцинация, которую нужно внушить ИИ, показавая ему слегка модифицированное с помощью «враждебных данных» фото ленивца.

✔️ Правая — это результат: модифицированное с помощью «враждебных данных» фото ленивца, в котором ИИ с вероятностью > 99% распознает гоночное авто.

❗️ Объем «враждебных данных», потребовавшихся для внушения ИИ галлюцинации гоночного автомобиля, видимого им вместо ленивца, пренебрежительно мал — всего 0,0078 отличий в пикселях правого и левого фото (человеческий глаз этого просто не видит — хотя вы можете попробовать).

Представить потенциал ущерба от использования «враждебных данных» злоумышленниками можете сами. Лишь замечу, — теоретически, он сопоставим с ядерным оружием.

И если вы думаете, что внушением галлюцинаций для ИИ никто на практике не занимается, вы жутко ошибаетесь. Всего один, но замечательный пример.

В Китайских соцсетях и мессенджерах фильтруется весь контент, затирая в ноль всё запрещенное партией и правительством (в этот список входит несколько тысяч тем!).

— Сначала фильтровали только текст.

— Но пользователи приспособились и для обмана фильтров стали запрещенные слова прятать в картинки.

— Тогда государство посадило 10 тыс. цензоров для фильтрации картинок. Но они не справились — дюже много работы.

— И вот тогда мобилизовали ИИ на фильтрацию картинок.

Вот как это выглядит:

Image for post
Image for post

Китайский пользователь WeChat послал картинку — обложку отчета про кампанию репрессий, получившую название “облава 709” (709 Crackdown). ИИ-цензор эту картинку удалил.

И тут внимание.

Ушлые ребята из THECITIZENLAB придумали использовать ИИ для подбора «враждебных данных», способных внушить галлюцинации «ИИ-цензорам», ведущим фильтрацию. В исходных картинках меняется совсем чуть-чуть (как в примере с ленивцем). Поэтому людям эти изменения нипочем — они их просто не замечают. Тогда как «истерический характер ИИ» заставляет его видеть вместо картинок из черного списка что-то совсем иное. И крантец фильтрации — свобода китайским пользователям!

Вот пример:

Image for post
Image for post

Изображения С и D фильтруются ИИ-цензором, в изображения A и B — нет 😳

Так ИИ-броня ИИ-цензуры оказалась легко пробиваема ИИ-снарядами «враждебных данных».

Но это не конец. ИИ-броня совершенствуется (равно как и ИИ-снаряды).

Детали этой борьбы можете прочесть в отчете

А это подробно про то, как работают «враждебные данные».

_________________________

Хотите читать подобные публикации? Подписывайтесь на мой канал в Телеграме, Medium, Яндекс-Дзене

Считаете, что это стоит прочесть и другим? Дайте им об этом знать, кликнув на иконку “понравилось”

Written by

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store