Выводы о нейросетях архитектуры Transformer

27 Mar 2019

Векторное представление словоформ (ВП)

Transformer рассматривается как архитектура, позволяющая получать высокую точность ВП слов. В отличие, например, от ВП FastText (Т.Миколов), сети BERT и GPT-2 обеспечивают ликвидацию морфологической и семантической омонимии. Это достигается за счет смещения дистрибутивной семантики словоформ механизмами внимания: на каждой итерации Attention-блока мы накладываем дистрибутивную модель синтактико-семантических связей в тексте на модель ВП. Однако, такой подход к моделированию ВП не всегда востребован: смещение дистрибутивной семантики может приводить к подмене одной словоформы другой, замене нескольких словоформ одной синонимичной или одной словоформы несколькими.

Синтаксический анализ предложений

В дистрибутивных моделях морфология и синтаксис не отделены от семантики, иными словами, форма и содержание текста едины. Поэтому, говорить о синтаксическом анализе текста в классическом понимании не приходится. Однако, анализ, визуализация и последующая дефаззификация матриц весов, соединяющих QueryLayer с KeyLayer внутри Attention-блока, позволяют нам делать вывод о способности нейросетей архитектуры Transformer выделять синтактико-семантические связи между словоформами, в т.ч. объединять последовательности словоформ в токены, идентифицировать пары “слово-местоимение” и “токен-местоимение”, определять различные типы синтаксического и семантического подчинения и т.д.

Семантический синтез текста

На сегодняшний день наиболее впечатляющих результатов в задаче семантического синтеза текста достигла команда OpenAI с нейросетью GPT-2 архитектуры Transformer. Задача сведена к механизмам бесконечного правдоподобного последовательного добавления словоформ к дистрибутивному представлению исходного текста. Подобным образом успешно реализуются даже вопросно-ответные системы: достоточно подать на вход вопрос с началом ответа и сеть допишет непротиворечивое продолжение самостоятельно. К сожалению, подобно моделям рекуррентных нейросетей, архитектура Transformer не обладает ни подсистемой знаний, ни механизмами сознательного оперирования ими: “память” содержится внутри самой нейросети. Иными словами, нейросети архитетуры Transformer с натяжкой можно отнести лишь к моделям бессознательного мышления.

Моделирование семантики текста для извлечения знаний

С точки зрения многих исследователей в области создания нейросетей для NLP, моделью дистрибутивной семантики текста следует называть последовательность ВП, соответствующих токенам в тексте. Несмотря на то, что нейросети архитектуры Transformer показывают ‘state-of-the-art’ результаты в большинстве тестов, имитирующих решение практических задач, проблему извлечения знаний из текста они в явном виде не решают. К сожалению, заявление разработчиков нейросети GPT-2 о том, что многие задачи в NLP данная сеть может решать без добавления слоев и дообучения, не касаются вышеупомянутой проблемы.