Эрни от Huawei побил Берта от Google

2 min readJun 3, 2019

Пример использования дополнительных
знаний для лучшего понимания языка. Сплошные линии представляют известные факты. Красные пунктирные линии представляют факты,
извлеченые из предложения, написанного красным шрифтом. Синие пунктирные линии представляют факты, извлеченные из других текстов (окрашены синим цветом). Источник: https://arxiv.org/abs/1905.07129

Разговоры о том, что Китай лишь копирует прорывные решения, пора забыть. Вот яркий пример реально прорывного подхода в NLP. Исследователи из Университета Цинхуа и компании Huawei Technologies разработали ERNIE (модель расширенного представления языка с информативными сущностями), работающую ощутимо точнее, чем новейшая и лучшая в мире модель BERT, недавно разработанная Google AI.

Во время предварительного обучения система пытается связывать слова, которые она читает, с сущностями, хранящимися в структурированном графе знаний. Для интеграции внешних источников данных исследователи создают дополнительную цель предварительного обучения, которая побуждает систему изучать соответствия между различными цепочками токенов.

Например, текст «Боб Дилан написал Blowin’ in the Wind в 1962 году» и найденные в нем сущности (Боб Дилан, Blowin’ in the Wind) — см. рисунок

Суть метода в том, что при предварительном обучении объединяются текст из Википедии с встраиваемыми знаниями. Эти знания получают в ходе обучения на Викиданных. Они представляют собой структурированный набор имен объектов, используемых для идентификации сущностей в графе знаний.

Результаты испытаний таковы.

Модель ERNIE показала по точности лучшие результаты (примерно на 5–7%) во всех тестах.
ERNIE также превосходит BERT в классификации отношений между объектами.

Можно констатировать.

Китайцы разработали экспериментальную систему, реализующую новый подход в NLP: Языковая модель + База знаний

Этот подход может стать прорывным шагом:

от систем, «понимающих» контекст путем сравнения слов, стоящих до и после обрабатываемого,
к системам, «понимающим» контекст путем сопоставления его с известными фактами о сущностях.

Второе видится значительно эффективней.

О BERT прочтете здесь

Об ERNIE и о том, как он побил BERT, — здесь

________________________________

Если понравился пост:
- нажмите на “палец вверх”;
- подпишитесь на обновления канала на платформе Medium;
- оставьте комментарий.
Еще больше материалов на моем Телеграм канале «Малоизвестное интересное». Подпишитесь

Эрни от Huawei побил Берта от Google

Written by Сергей Карелов

No responses yet