Textbot

Искусственная кратковременная память о тексте
31 Oct 2019
Вне зависимости от многочисленных метамоделей памяти, можно выделить следующие варианты кратковременной памяти о тексте (включая статьи, книги, диалоги, переписки и т.д.): запоминается вся предыдущая информация; (1) запоминается n последних токенов из текста; (2) запоминается некоторая сжатая модель длины k всей предыдущей информации; (3) запоминаются n последних токенов из текста и...
Частотное кодирование словоформ методом BPE
26 Apr 2019
… а также вероятностная токенизация методом ULM Хотя алгоритм BPE для кодирования и сжатия данных был предложен Ф. Гейджем в 1994-м году, применение BPE для дистрибутивных моделей в задачах NLP началось лишь в 2016-м с работы Neural Machine Translation of Rare Words with Subword Units и была призвана решить проблему...
Выводы о нейросетях архитектуры Transformer
27 Mar 2019
Векторное представление словоформ (ВП) Transformer рассматривается как архитектура, позволяющая получать высокую точность ВП слов. В отличие, например, от ВП FastText (Т.Миколов), сети BERT и GPT-2 обеспечивают ликвидацию морфологической и семантической омонимии. Это достигается за счет смещения дистрибутивной семантики словоформ механизмами внимания: на каждой итерации Attention-блока мы накладываем дистрибутивную модель синтактико-семантических...
About Language Models Are Unsupervised Multitask Learners
23 Mar 2019
Тезисно: Смысл GPT-2: у вас есть текст из n слов/токенов. Скроем k слов/токенов, например, последнее слово. Создать такую сеть, чтобы на выходе мы получили исходный текст. Обзор статьи “Language Models are Unsupervised Multitask Learners” за авторством создателей сети GPT-2. Ссылка: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf I. Представление входных данных. Используется подход, являющийся неким средним...
Нейросети архитектуры Transformer
26 Feb 2019
На сегодняшний день (февраль 2019) лучшие результаты в решении основных задач NLP получены нейросетями т.н. архитектуры Transformer, предложенной исследователями компании Google в декабре 2017-го году в статье Attention Is All You Need. За этим последовала публикация материалов по GPT от OpenAI, затем последовал ответ от Google с нейросетью BERT, после...
Быстрый поиск в пространстве сжатых векторных представлений средствами асимметрической кластеризации Вороного
03 Feb 2019
При работе с векторными представлениями (ВП) часто возникают проблемы с вычислительной и емкостной сложность выполения базовых операций в пространстве ВП, в частности поиска ближайших соседей. Использование классических подходов требует сравнить искомый вектор с каждым из известных векторов, мощность множества которых весьма велика (в нашем случае 1 млн.). Использование косинусной метрики...
Библиотека Python Textbot Library
12 Dec 2018
Мы постепенно выкладываем некоторые элементы библиотеки Textbot на Python’е в открытый доступ. Ссылка на наш репозиторий Visit our Python Textbot Library repo on https://github.com/Textbot/Textbot-Library
Добро пожаловать в Github блог Textbot! / Wellcome to the Textbot Github blog!
14 Apr 2018
В данном блоге мы публикуем различную информацию, связанную с разработкой технологии семантического анализа и синтеза текста Textbot. In this blog we publish different information about the development of the technology for semantic analysis and synthesis of text Textbot.