ИздательствоРечевые технологииВыпуск №1/2018

Чучупал В. Я.
Неявная модель произношения для автоматического распознавания речи

 
Материал в открытом доступе

Аннотация. Вариативность произнесения слов в естественной разговорной речи является одним из основных источников ошибок при ее автоматическом распознавании. Примером подобной вариативности является пропуск или подмена отдельных звуков, вызванная неполной или нечеткой артикуляцией в быстрой речи. В статье описана неявная модель произношения, которая реализована посредством сглаживания параметров акустических моделей соседних звуков. Предлагается использовать контексто-зависимые параметры сглаживания, которые обусловлены текущим фонетическим, просодическим и языковым контекстом звуков. Хотя подход к моделированию вариативности произношения уже обсуждался в литературе, метод контексто-зависимого сглаживания моделей смежных звуков, насколько известно автору, пока не был представлен. Эксперименты на речевом корпусе данных, который содержал как читаемую, так и естественную речь, показали корректность предложения использовать переменные параметры сглаживания, значение которых обусловлено фонетическим и просодическим контекстом.

Ключевые слова: автоматическое распознавание речи, обработка естественного языка, акустическое моделирование речи, модели вариативности произношения

Implicit pronunciation variation model for automatic speech recognition

Vladimir J. Chuchupal, leading scientific researcher, Computing center. A. A. Dorodnicyn FITS Yiwu wounds

Abstract. The variations in pronunciation of words in natural speech are one of the main sources of automatic speech recognition errors. The examples of such variations include the pronunciation variations that are caused by a fuzzy or an incomplete articulation that is frequently observed in spontaneous speech. The implicit pronunciation model is proposed that is implemented by means of smoothing of parameters of the adjacent acoustical phone models in phonemic transcription. It is proposed to use the context-dependent smoothing, so that the values of the smoothing parameters are conditioned by the current position and prosodic contexts of a phone. While the pronunciation variation modeling approach on the base of combination of acoustical models has already been discussed in literature, the method based on the context-dependend smoothing of the adjacent models as far as we know has not been published yet. The experiments on the speech corpuses that contained both the read and spontaneous speech showed the correctness of the proposal for the use of the context-dependent smoothing parameters which are conditioned by the features of phonemic context and prosody.

Keywords: automatic speech recognition, natural speech processing, acoustic modeling, pronunciation variation modeling