ЖурналыРечевые технологииВыпуск №3/2020

Чучупал В. Я.
Способы уменьшения вычислительной сложности нейросетевых языковых моделей

купить статью за
50 руб

Нейросетевые языковые модели существенно превосходят традиционные статистические модели по достигаемым показателям качества и начали широко использоваться в коммерческих системах распознавания речи. Вместе с тем им присущи заметные недостатки, одним из которых является очень большая вычислительная сложность. В статье дан краткий обзор основных современных подходов понижения вычислительной сложности нейросетевых языковых моделей. Рассмотрены методы компенсации влияния размера словарей, повышения быстродействия за счет учета свойств графических ускорителей. Приведены результаты оптимизации вычислительной сложности для моделей внимания и трансформера, связанные с использованием методов передачи знаний, динамической оптимизации размеров моделей, свойств функции внимания, а также оптимизации разрядности представления информации в нейросетях. Показано, что комбинирование таких подходов и приёмов позволяет на порядки ускорить процессы обучения и распознавания, симметрично снизив требования к объему памяти.

Ключевые слова: автоматическое распознавание речи, нейро-сетевые модели языка, вычислительная сложность моделей языка, иерархический софт-макс, трансформер, модель внимания.

WAYS TO REDUCE THE COMPUTATIONAL COMPLEXITY OF NEURAL LANGUAGE MODELS

V. Y. Chuchupal, Candidate of Physical and Mathematical Sciences, Leading Researcher at the A. A. Dorodnitsyn Computing Center of the Federal Research Center «Informatics and Management» of the Russian Academy of Sciences. E-mail: v.chuchupal@gmail.com

Abstract. Neural language models are signifcantly superior to statistical models and have begun to be widely used in commercial speech recognition systems. At the same time, they have noticeable disadvantages, one of which is their great computational complexity. The article provides a brief overview of the main modern approaches to reducing the computational complexity of neural network language models. Methods to compensate for the growth of computations due to the size of dictionaries, increasing the speed using the properties of the properties of graphics accelerators are considered. The results of computational complexity optimization for the attention and transformer models, based on the use of knowledge transfer, dynamic control of the size of models, the use of attention properties, as well as a optimization of information representation depth. It is shown that the combination of such approaches and techniques makes it possible to accelerate the learning and interference processes by orders of magnitude, as well as symmetrically reduce the required memory volumes.

Keywords: automatic speech recognition, neural language models, complexity of neural models, hierarchial softmax, transformer, attention model.