ЖурналыРечевые технологииВыпуск №1/2020

Хусаинов А. Ф., Сулейманов Д. Ш.
Обзор созданных речевых корпусов и программных средств для синтеза татарской речи

купить статью за
50 руб

В статье приводится обзор основных этапов создания систем синтеза татарской речи. Обзор охватывает исследования института прикладной семиотики Академии наук Республики Татарстан, начиная с первой системы конкатенативного синтеза на основе дифонов, созданной в 1990-х годах, и до последней end-to-end нейронной системы, построенной в 2019 г. Несмотря на существенное различие в технологиях, необходимость создания корпусов звучащей речи остаётся неизменным условием построения синтезатора. Мы представляем несколько однодикторных корпусов, записанных в звукозаписывающей студии, каждый корпус был создан для определённой технологии синтеза. Этот аспект привёл к разнице в продолжительности и способе аннотации корпусов. Предварительные эксперименты показали, что синтезатор речи наилучшего качества может быть построен с использованием нескольких нейронных подходов, но единственный метод из реализованных нами, который на данный момент позволил также обеспечить синтез речи в реальном времени, основан на архитектуре Tacotron2 c нейронным вокодером WaveGlow.

Ключевые слова: синтез речи, речевые корпуса, татарский язык.

OVERVIEW OF SPEECH CORPORA AND SOFTWARE FOR THE TATAR SPEECH SYNTHESIS

Khusainov Aidar Failovich1, Suleymanov Dzhavdet Shevketovich2 1,2 Institute of Applied Semiotics, Tatarstan Academy of Sciences,Kazan, Russia 1,2 Kazan Federal University, Kazan, Russia 1 khusainov.aidar@gmail.com 2 dvdt.slt@gmail.com

Abstract. In this paper, we describe the main stages of creating systems for the synthesis of Tatar speech. This description covers our research starting from the frst diphone-based concatenative synthesis system built in 1990s to the last end-to-end neural system built in 2019. Despite the signifcant difference in technology, the need to create a high-quality corpus of sounding speech remains an unchanged condition for the construction of a synthesizer. We present several single-speaker corpora recorded in sound recording studio, each of the corpus was created for a specifc synthesis technology. This fact led to difference in total duration and annotation of corpora. Preliminary experiments showed that the best quality speech synthesizer can be built using several neural approaches, but the only method that also provides real-time synthesis uses Tacotron-2 architecture followed by neural WaveGlow-vocoder.

Keywords: speech synthesis; speech corpora, Tatar language.