Алгоритм научили имитировать предвзятости людей

Результатом стал мировой скандал

8 min readOct 4, 2020

Лекция по френологии. Источник: https://antropogenez.ru/article/975/

Вот и дождались сбычи устрашающего прогноза Харари, что алгоритмы машинного обучения будут знать о нас больше, чем родная мама. Осталось понять — что же такое узнал о нас новый алгоритм?

Короткий ответ — он узнал и наглядно показал непреодолимую глубину нашего несовершенства. Люди взглянули на себя в зеркало ИИ и поразились, насколько же они предвзяты. А также осознали (хотя лишь немногие), сколь высокую цену заплатил Homo sapiens эволюции за дарованные ею нам интеллектуальные способности.

Цена оказалась крайне высока. Мы заплатили тем, что в наше сознание автоматически загружается «библиотека стандартных программ общечеловеческих предрассудков». Эта загрузка осуществляется путем прошивки генно-культурной памяти людей. И отказаться от ее загрузки в наше сознание нельзя. Равно как и повлиять на содержимое этой «библиотеки», обобщающей в себе опыт эволюционного приспособления к жизни десятков миллиардов живших до нас на Земле Homo.

Одной из важнейших «стандартных программ» в этой библиотеке является программа определения, насколько внушает доверие чужой человек (для своих работает другая стандартная программа). И хотя физиогномика и френология, по современным научным представлениям, абсолютно несостоятельны (в действительности, психические свойства человека не определяются ни чертами его лица, ни строением черепа), вмонтированная в нас «стандартная программа оценки надежности» чужих людей построена на тех же принципах, что и эти 2 лженауки.

Результат этого — набор непреодолимых предвзятостей наших суждений на основе подсознательной оценки внешности людей. Эти предвзятости питают социальные фобии: от расизма до многообразных негативных оценок чужих людей (напр. людей с особенностями).

Новое исследование Николя Бомара (Nicolas Baumard не старший в группе исследователей, но главный закоперщик) поставило две оригинальные задачи:

Путем машинного обучения, научить алгоритм как можно более точному воспроизведению человеческих предвзятостей при оценке надежности чужих людей по их внешности.
Путем применения полученного алгоритма к огромной исторической базе портретов, попытаться оценить, менялось ли во времени (и если да, то как и почему) восприятие надежности лиц чужих людей.

Итогом публикации результатов исследования в Nature стал колоссальный скандал. Из-за обрушившейся на редакцию лавины критики, им пришлось сделать приписку, что «читатели предупреждены о том, что эта статья подвергается активной критике». И действительно, социальные сети просто взорвались негодованием. А учетная запись Николя Бомара, заварившего эту кашу в Twitter, оказалась стёртой.

Что показало исследование

Современный ИИ — это набор разнообразных алгоритмов машинного обучения. Они учатся все лучше и лучше выполнять всевозможные интеллектуальные задачи в ходе миллионов попыток, анализируя гигантские объемы данных, аккумулирующие либо опыт людей, либо опыт других алгоритмов, имитирующих массовые действия людей.

Идя этим путем удалось достичь многого, превзойдя человека в широком диапазоне «стандартных» задач: от настольных игр до вождения авто. Однако, в более «нестандартных» задачах (например, неотличимая имитация алгоритма, «ведущего диалог», от человека) пока есть много проблем.

В попытках улучшить решение таких задач, логика их постановки до сих пор была всегда одна — сначала научить алгоритм до уровня человека, а потом превзойти этот уровень. Причем то, чему учат алгоритмы, — по определению, некое полезное людям действие. Например, определять уровень риска невозврата кредита, выдаваемого конкретному клиенту.

Главная проблема, с которой столкнулись разработчики таких алгоритмов — их предвзятость. Белые заемщики более предпочтительны для алгоритма, чем темнокожие. Мужчины предпочтительней женщин и т.п. Источник всех этих предвзятостей в данных, на которых обучается алгоритм. И поэтому с такими предвзятостями очень трудно бороться.

Но в исследовании «Отслеживание исторических изменений в надежности с помощью машинного обучения анализ мимических сигналов на картинах» Николя Бомар поставил обратную задачу.

Как научить алгоритм максимально точно имитировать человеческие предвзятости при оценке надежности человека по его внешности.

Иными словами, алгоритм должен максимально точно воспроизводить результат работы вшитой в людей «стандартной программы» определения, насколько внушает доверие чужой человек.

Этот алгоритм обучался на фотографиях. Надежность изображенных на них людей была предварительно оценена другими людьми. В результате обучения, алгоритм стал подвержен тем же предубеждениям, что и большинство людей:

оценивал женственные и счастливые лица более заслуживающими доверия;
оценивал выше надежность обладателей приподнятых бровей и уголков губ;
выделял в качестве «признаков ненадёжности» глубоко посаженные глаза, широкий нос, мордатость и тяжелый подбородок.

Короче, вспомните лица голливудских отрицательных типов (тех же гангстеров) и сравните их с лицами положительных героев (типажи от Вуди Аллена до Брэда Питта), и многие наши тараканы предвзятой оценки внешности станут для вас очевидны.

Обученный алгоритм также освоил и мимические предвзятости людей, типа эффекта улыбки, существенно повышающей расположение к человеку в целом и оценку его надежности в частности. Для примера взгляните на серьезного и улыбающегося Декарта. Кому бы из них вы доверились?

А это пример сравнения оценки надежности по фото Байдена и Трампа из твита Николя Бамара (не ищите экаунт, он уже стерт). Оценка надежности фото улыбающегося Байдена 1.39, а фото насупившегося Трампа -0,63.

Про вторую и основную цель исследования долго распространяться не буду. Напомню, что это за цель —

путем применения полученного алгоритма к огромной исторической базе портретов, попытаться оценить, менялось ли во времени (и если да, то как и почему) восприятие надежности лиц чужих людей.

Для достижения этой цели алгоритм имитации предвзятостей в оценке надежности был использован в качестве инструмента измерения того, насколько люди из прошлого хотели представляться надежными в своих портретах. Важно понимать, что такое измерение не имеет ничего общего с выводом о фактическом уровне надежности или профилированием людей на портретах.

Тестирование проводилось на 4106 портретах 1360–1918 годов, включая работы из 19 западноевропейских стран, представленных в онлайн-галерее искусств. Чтобы проверить предположение о том, что трактовка мимических сигналов на лицах изображенных на портретах людей действительно отражает реальные изменения в социальном доверии, а не то, как люди позируют для портретов, алгоритм был затем применен к 2277 селфи из шести городов, размещенных в социальных сетях.

Исследователи пришли к выводу, что исторический рост надежности, наблюдаемый в их наборах данных, идет параллельно с ростом либеральных ценностей, таких как религиозная терпимость, политическая свобода и демократия. При этом наиболее важным, по их мнению, является то, что это связано с повышением уровня жизни (рост ВВП на душу населения).

Увы, но такой вывод представляется мне не обоснованным. Это типичный пример скороспелой трактовки результатов психологических и социальных исследований, анализирующих корреляции в больших наборах данных.

Во-первых, корреляция вовсе не означает причинно-следственной связи.
Во-вторых, сам расчет корреляций в данном исследовании представляет собой ошибочную трактовку регрессии в теории вероятностей и математической статистике.

Указанные два недостатка очевидны для многих профессионалов.

Гради Буч — руководитель исследований в IBM Research, — назвал эти выводы «плохой наукой во всех отношениях».

А Нассим Талеб — в регрессионном анализе зубы съевший, — даже записал специальный ролик про «фейковую регрессию психологов», взяв в качестве примера такой фейковой регрессии графики, иллюстрирующие выводы исследования Николя Бомара.

Однако Бомару, полагаю, не привыкать к подобной разгромной критике его математических выводов. В 2014 он опубликовал изрядно нашумевшее исследование, в котором обосновал появление религий Больших Богов (морализующих поведение людей) резким ростом благосостояния обществ в период т.н. «осевого времени» (VIII–II вв до н.э.) и позже (подробней см. научно и популярно). Рассказывать здесь эту историю я не буду. Но обязательно напишу о ней, если дойдут руки написать завершение моей саги «Большой Брат — сын Большого Бога».

Ну а здесь надо хоть немного рассказать о страшном скандале, произошедшем в сети в результате публикации исследования «Отслеживание исторических изменений в надежности с помощью машинного обучения анализ мимических сигналов на картинах».

Сетевой скандал года

Запалом для скандала, естественно, послужила не научная статья Бомара и Со, — массовая аудитория такое не читает. Но Бомар решился (и скорее всего, намеренно) прорекламировать исследование в своем Твиттере.

В результате, этим твитом он наступил на огромные грабли. Получив 2К лайков на свой твит, он тут же огреб 163К лайка на твит brittany MPH, RN, в котором его исследование было названо расистским.

Ну а дальше, сами понимаете, понеслось г-но по трубам. И хотя исследование Бомара и Со практически никто толком не читал, его обвинили во всех грехах, приписываемых физиогномике, френологии и расизму, помноженными на то, что он «закрепляет привилегии белых мужчин, и в том числе свои собственные» (заставляя алгоритмы выше оценивать надежность людей, похожих на него самого).

В итоге разгоревшегося в социальных сетях скандала, авторов обвинили в создании расистского алгоритма и проповедовании человеконенавистнических идеологий. Детали свары можно посмотреть, например, здесь и здесь. А тексты «приговора авторам», например, здесь и здесь.

Резюме

Увы, подавляющее число критиков (в своем большинстве осудивших исследование, прочтя лишь его выводы) вынесли свой критический вердикт, не разобравшись.

Они смешали два вида корреляций, которым посвящено исследование.

1. Корреляции между внешностью людей и тем, как оценивают их надежность другие люди. Причем данная оценка делается с учетом всех имеющихся у оценщика когнитивных искажений, предвзятостей и предрассудков.
2. Корреляция между динамикой психологии восприятия мимических сигналов надежности на исторических портретах и динамикой различных экономических и социальных показателей, меняющихся в ходе прогресса цивилизаций.

2-й из названных видов корреляции продемонстрирован в исследовании неубедительно, в первую очередь, из-за сомнительного регрессионного анализа.

Однако большинство критиков исследования, не заметив неубедительности 2-го вида корреляций, обрушили вал негодования на 1-й вид, и при этом трактуя его ошибочно — как и не думали его трактовать авторы исследования.

Увы, но критики не учитывают, что поиск корреляций:

✔️ между чертами лица и характером,
✔️ и между чертами лица и тем, что в этих чертах считывают люди (отягощенные всевозможными предвзятостями),
- это совсем не одно и то же.

Первое — устаревшая лженаука.
Второе — проверяемый и фальсифицируемый факт.

К сожалению, это недопонимание, вкупе с разгоревшимся скандалом в сети, не позволили большинству прочитавших об исследовании вынести из него важный вывод.

Алгоритмы машинного обучения уже (!) знают о нас больше, чем родная мама.
И первое, что следует из этого знания, — вот что.
Наше сознание крайне несовершенно и потому легко уязвимо. Эволюция населила наши головы такими тараканами, что с помощью их дрессуры алгоритмы могут заставить нас поверить во что угодно и кому угодно.

________________________________

Если понравился пост:
- нажимаете на кнопку аплодисментов, — автору будет приятно :-)
- подпишитесь на обновления канала на платформе Medium;
- оставьте комментарий.
Еще больше материалов на моем Телеграм канале «Малоизвестное интересное». Подпишитесь

Алгоритм научили имитировать предвзятости людей

Результатом стал мировой скандал

Что показало исследование

Сетевой скандал года

Резюме

Written by Сергей Карелов

Responses (1)