Издательство — Речевые технологии — Выпуск №3/2021
Сейедмилад Ранаей. Сиадат. Распознавание эмоций в персидской речи с помощью одномерной (1D) нейронной сети
Проблема распознавания и классификации эмоций в речи является одной из наиболее актуальных и значимых тем исследований; однако на сегодняшний день для большого количества языков практически не проводилось исследований с целью достижения требуемой точности [распознавания]. Выражение и распознавание эмоций на основе сигнала человеческой речи является одной из сложных проблем — помимо собственно языковой проблемы. В настоящей статье предлагается систематический и надежный подход к реализации системы распознавания эмоций для малоресурсных языков, таких как персидский. Насколько нам известно, это первая работа SER на материале персидского языка с использованием методов глубокого обучения. База данных эмоциональной речи Sharif ShEMO с пятью основными эмоциями (гнев, страх, счастье, печаль и удивление), а также нейтральным состоянием была определена как наиболее подходящий кандидат для оценки архитектуры одномерной сверточной нейронной сети (1DCNN). Данные сначала обрабатываются с использованием метода извлечения признаков коэффициентов косинусного преобразования Фурье для частот чистых тонов (MFCC), после чего MFCC поступают в качестве входных данных в нашу нейронную сеть. Результаты эксперимента показывают, что предлагаемый нами метод обеспечивает точность классификации [эмоций] около 74 % на наборе данных ShEMO. • распознавание эмоций • обработка речи • эмоциональная речь • персидский язык • база данных персидской речи EMOTION RECOGNITION IN PERSIAN SPEECH USING A ONE-DIMENSIONAL (1D) NEURAL NETWORK Seyedmilad Ranaei Siadat, Moscow Institute of Physics and Technology, Moscow, Russia, ranaei.siadat.ss@phystech.edu The problem of recognition and classification of emotions in speech is one of the most relevant and significant research topics; however, to date, for a large number of languages, almost no research has been carried out in order to achieve the required accuracy [of recognition]. The expression and recognition of emotions based on the signal of human speech is one of the difficult problems — in addition to the language problem itself. This paper proposes a systematic and robust approach to implementing an emotion recognition system for low-resource languages such as Persian. To the best of our knowledge, this is SER's first work in Persian using deep learning methods. The Sharif ShEMO Emotional Speech Database, with five primary emotions (anger, fear, happiness, sadness, and surprise) as well as a neutral state, was identified as the most suitable candidate for evaluating a 1D Convolutional Neural Network (1DCNN) architecture. The data is first processed using the pure tone cosine Fourier transform coefficient (MFCC) feature extraction method, after which the MFCCs are fed as input to our neural network. The results of the experiment show that our proposed method provides a classification accuracy [of emotions] of about 74 % on the ShEMO dataset. • emotion recognition • speech processing • emotional speech • Persian language • Persian speech database
|