-
Искусственная кратковременная память о тексте
Вне зависимости от многочисленных метамоделей памяти, можно выделить следующие варианты кратковременной памяти о тексте (включая статьи, книги, диалоги, переписки и т.д.): запоминается вся предыдущая информация; (1) запоминается n последних токенов из текста; (2) запоминается некоторая сжатая модель длины k всей предыдущей информации; (3) запоминаются n последних токенов из текста и...
-
Частотное кодирование словоформ методом BPE
… а также вероятностная токенизация методом ULM Хотя алгоритм BPE для кодирования и сжатия данных был предложен Ф. Гейджем в 1994-м году, применение BPE для дистрибутивных моделей в задачах NLP началось лишь в 2016-м с работы Neural Machine Translation of Rare Words with Subword Units и была призвана решить проблему...
-
Выводы о нейросетях архитектуры Transformer
Векторное представление словоформ (ВП) Transformer рассматривается как архитектура, позволяющая получать высокую точность ВП слов. В отличие, например, от ВП FastText (Т.Миколов), сети BERT и GPT-2 обеспечивают ликвидацию морфологической и семантической омонимии. Это достигается за счет смещения дистрибутивной семантики словоформ механизмами внимания: на каждой итерации Attention-блока мы накладываем дистрибутивную модель синтактико-семантических...
-
About Language Models Are Unsupervised Multitask Learners
Тезисно: Смысл GPT-2: у вас есть текст из n слов/токенов. Скроем k слов/токенов, например, последнее слово. Создать такую сеть, чтобы на выходе мы получили исходный текст. Обзор статьи “Language Models are Unsupervised Multitask Learners” за авторством создателей сети GPT-2. Ссылка: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf I. Представление входных данных. Используется подход, являющийся неким средним...
-
Нейросети архитектуры Transformer
На сегодняшний день (февраль 2019) лучшие результаты в решении основных задач NLP получены нейросетями т.н. архитектуры Transformer, предложенной исследователями компании Google в декабре 2017-го году в статье Attention Is All You Need. За этим последовала публикация материалов по GPT от OpenAI, затем последовал ответ от Google с нейросетью BERT, после...
-
Быстрый поиск в пространстве сжатых векторных представлений средствами асимметрической кластеризации Вороного
При работе с векторными представлениями (ВП) часто возникают проблемы с вычислительной и емкостной сложность выполения базовых операций в пространстве ВП, в частности поиска ближайших соседей. Использование классических подходов требует сравнить искомый вектор с каждым из известных векторов, мощность множества которых весьма велика (в нашем случае 1 млн.). Использование косинусной метрики...
-
Библиотека Python Textbot Library
Мы постепенно выкладываем некоторые элементы библиотеки Textbot на Python’е в открытый доступ. Ссылка на наш репозиторий Visit our Python Textbot Library repo on https://github.com/Textbot/Textbot-Library
-
Добро пожаловать в Github блог Textbot! / Wellcome to the Textbot Github blog!
В данном блоге мы публикуем различную информацию, связанную с разработкой технологии семантического анализа и синтеза текста Textbot. In this blog we publish different information about the development of the technology for semantic analysis and synthesis of text Textbot.