Самая инновационная, прорывная и интригующая технология в области ИИ

(по версии канала «Малоизвестное интересное», IDC и Gartner)

Image for post
Image for post
Сравнение семантоскопических отпечатков. Источник http://www.cortical.io

Эта технология семантического поиска (поиска по смыслу) позволяет следующее.

✔️ Идентифицировать контент по его смыслу, а не по ключевым словам

✔️ В поисковом запросе используются не ключевые слова, а пример документа — мол, «я ищу документы про это»

✔️ Документ-пример на английском языке используется для поиска близких по смыслу документов «про это» на 20+ языках

✔️ Поиск в терабайтах данных идет на порядок быстрее, чем по ключевым словам

✔️ Проблемы многозначности и двусмысленности слов неявно решаются с помощью семантических сравнений

✔️ Система поиска добавляет новые термины «на лету» без переучивания и вообще без какой-либо переподготовки (т.е. динамически расширяет словарный запас)

Чем это отличается от сегодняшних мейнстримных технологий

Этот необычайно перспективный, абсолютно инновационный и альтернативный (я бы даже сказал, перпендикулярный) современному мейнстриму ИИ метод обработки естественного языка (NLP) основан на вычислительной нейробиологии.

Он называется Семантическая свертка (Semantic Folding) и преобразует текст в двоичные представления, что позволяет осуществлять вычислительную обработку и анализ текста, чтобы сравнивать и связывать разные тексты в обширном существующем или специально формируемом корпусе знаний.

Современные ИИ основаны на принципиально ином — статистическом подходе, который сегодня встречается повсюду: от онлайн переводчиков до голосовых ассистентов. Отсутствие понимания семантики языка заменяется здесь использованием колоссальной статистики. Переводчик Google Translate не понимает ни слов, ни их контекста. Зато у него есть база статистики, в которой переводимое слово встречается миллиарды раз, и методы машинного обучения, которые натаскиваются (обучаются) решать конкретную задачу — в данном случае, — перевод.

Статистический метод NLP работает повсюду, но есть проблемы. Этот метод требует огромного количества данных для обучения, длительного предварительного обучения алгоритмов и, что самое обескураживающее, широкий спектр интерпретаций — вариантов перевода при полном непонимании контекста.

Метод Семантической свертки — основа новой технологии

Метод Семантической свертки наоборот, — работает по аналогии с мозгом. И потому его требования к вычислительной производительности, объему данных и времени предварительной подготовки (натаскиванию) несоизмеримо ниже, чем у статистического метода. А спектр интерпретаций — вариантов перевода существенно уже, вследствие «понимания» контекста.

Метод Семантической свертки (см. видео на 4:44 мин) состоит из 3 фаз.

1) Переформатирование текста в SDR

Наш мозг (точнее его неокортекс) одинаковым способом преобразует (свертывает) информацию, поступающую от зрения, слуха, языка и всех иных источников. Всю эту инфу неокортекс преобразует в специальный формат хранения и обработки данных Разреженное Распределенное Представление — Spares Distributed Representation (SDR).
Каждый SDR — это длинный двоичный вектор с очень малым числом 1. Каждая 1 кодирует определенный семантический аспект части входного текста (слова или фразы). Активация того же бита в 2х разных SDR означает, что они семантически близки, как минимум в том аспекте, что кодирует эта 1.

2) Формирование семантической карты

По единому, универсальному (для языка, зрения и слуха) алгоритму на основании SDR формируется семантическая карта.

— В тексте выделяют смыслосодержащие части — т.н. Лоскуты.

— Лоскуты распределяют по 2мерной решетке, так чтобы лоскуты близкого смысла находились как можно ближе друг к другу, а далекие по смыслу были тем дальше, чем дальше их смысл.

— Близкие лоскуты содержат некое число одних и тех же терминов.

— Сгруппированная по темам решетка составляет семантическую карту.

Каждый лоскут имеет 2 координаты, определяющие его место на семантической карте.

3) Генерация семантоскопических отпечатков

— Для каждого слова проверяется, есть ли оно в конкретных Лоскутах.

— Если есть, то координаты этого Лоскута заносятся на пустую Семантическую карту.

— Когда позиции всех содержащих слово Лоскутов нанесены на Семантическую карту, ее называют семантоскопический/семантический отпечатков — Semantic Fingerprints.

— Совокупность семантоскопических отпечатков формирует семантический словарь.

В ролике показано, что семантоскопический отпечаток слова орган содержит в себе Кластеры Лоскутов: пианино, печень, церковь — т.е. слов, связанных с разной семантической трактовкой слова орган (музыкальной, анатомической, религиозной).

И если входная фраза, например, «орган и пианино — музыкальные инструменты», то чтобы ее осмысленно перевести:

И все это вычисляемо, причем, быстро и точно.

Как работает технология семантического поиска

  1. Для каждого документа в поисковой базе строится его семантоскопический отпечаток (СО).
Image for post
Image for post

2. Строится СО документа-примера (близкого по смыслу к тому, что ищется)

Image for post
Image for post

3. Система семантического поиска сравнивает СО документа-примера и документов в базе и рассчитывает их семантическую близость

Image for post
Image for post

4. Результат поисковой выдачи настраивается по 2м параметрам: минимальная семантическая близость и максимальное число документов выдачи.

Image for post
Image for post

5. Для индивидуализации каждого поискового запроса строится его собственный СО.

Image for post
Image for post

6. Строится поисковый рейтинг документов на основе индивидуализированных поисковых запросов (этот рейтинг индивидуален для каждого пользователя, т.к. отражает его понимание семантической близости документов в выдаче по его заросам).

Image for post
Image for post

Подробней см. здесь.

Если кто-то подумает, что вышеизложенное — лишь новая непроверенная идейка, — это совсем не так.

— Метод Семантической свертки разрабатывался в виде технологии 6 лет и имеет крепкое научно-теоретическое обоснование.

— В 2017 году технология выведена на коммерческий рынок и имеет солидных заказчиков.

— Эта технология названа экспертами IDC и Gartner самой инновационной, прорывной и интригующей технологией в области ИИ, соответственно, в 2016 и 2017.

N.B. Эта технология, уже называемая «Google for Business», отлично работает на внутренних базах документов отдельных компаний (например, Фольксваген), но пока не может заменить поисковые системы на статистическом подходе (Google, Яндекс и т.п.) для массового применения. Причина в том, что пока что не разработана аппаратная реализация основы метода Семантической свертки, и все «семантические вычисления», по сути, эмулируются на обычных компьютерах, изначально для этого не приспособленных.
Но это временно. И над этим ведется работа. В том числе, такими серьезными игроками, как IBM.

И самое важное

Основа метода Семантической свертки — Spares Distributed Representation (см. выше) — наряду еще с двумя супер-прорывными теоретико-технологическими инновациями,

Эта альтернатива

✔️ не только позволяет решать уже решаемые задачи, типа распознавания образов, на качественно ином уровне,

✔️ но и способна вплотную приблизить человечество к созданию «Сильного ИИ».

Об этом в следующих постах.

_________________________

Дополнительные материалы:

— простенькое изложение The Cortical Engine for Processing Text: видео на 12 мин

— более подробное изложение того же из уст сооснователя компании: видео на 33 мин

_________________________

Хотите читать подобные публикации? Подписывайтесь на мой канал вТелеграме, Medium, Яндекс-Дзене

Считаете, что это стоит прочесть и другим? Дайте им об этом знать, кликнув на иконку “понравилось”.

Written by

Малоизвестное интересное на стыке науки, технологий, бизнеса и общества - содержательные рассказы, анализ и аннотации

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store