ИздательствоРечевые технологииВыпуск №1/2020

Чучупал В. Я.
Нейросетевые модели языка для систем распознавания речи

 
Материал в открытом доступе

Общепринятый подход к языковому моделированию в системах распознавания речи до недавнего времени базировался на использовании статистических n-граммных моделей. Разработка и эволюция нейросетевых языковых моделей (ЯМ) привели к повышению качества языкового моделирования фактически «в разы», до значений, которые недавно представлялись маловероятными. В существенной степени эти результаты обусловлены использованием в нейросетях распределенных или векторизованных представлений слов, где величины расстояний коррелируют с синтаксическим или семантическим сходством между словами. В статье приводится описание основных видов нейросетевых ЯМ на простых полносвязных и рекуррентных сетях, многослойных рекуррентных сетях с клетками LSTM, свёрточных сетях, моделей кодера-декодера и Трансформера. Приведены их преимущества и недостатки, требования к вычислительным ресурсам и достигаемые значения показателей качества моделей. Выделены недостатки нейросетевых ЯМ, как относящиеся к моделям, так и более технические, вытекающие из реализаций алгоритмов обучения и распознавания. Для наиболее перспективных подходов приведено сравнение значений показателей качества на эталонных корпусах текстовых данных. Показано, что более выигрышными на момент написания статьи являются модели на основе сети Трансформера.

Ключевые слова: автоматическое распознавание речи, n-граммные статистические модели, модели языка, нейро-сетевые модели языка, сквозные системы распознавания речи, модель внимания.

NEURAL LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION

V.Y. Chuchupal, Candidate of Physical and Mathematical Sciences, Leading Researcher at the A.A. Dorodnitsyn Computing Center of the Federal Research Center «Informatics and Management» of the Russian Academy of Sciences. E‑mail: v.chuchupal@gmail.com

Abstract. Until recently, the generally accepted approach to language modeling in speech recognition systems was based on the use of statistical ngram models. The development and evolution of neural network language models have led to substantial increase of the language modeling quality. The value of the perplexity have been lowered in several times, to the values that have recently seemed inlikely. These results mostly are due to the use of distributed word representations in neural models, where distance correlates with syntactic or semantic similarity between words. The review describes the main types of modern neural language models, namely the models based on fully connected and simple recurrent networks, multilayer recurrent networks with LSTM cells, convolutional networks, encoder-decoder with attention and transformer models. Their advantages and disadvantages, requirements for computing resources as well as the achieved language model quality indicators values are presented. The drawbacks of neural network NMs, both related to model structure and more technical ones, arising from the implementation of training and recognition algorithms are highlighted. A comparative values of the perplexy for the state-of-the-art approaches on the reference datasets is given. It is shown that Transformer based language models are more advantageous at least at the time of the writing of the paper.

Keywords: automatic speech recognition, language modeling, n-gram language models, neural language models, end-to-end speech recognition, attention model.