ЖурналыРечевые технологииВыпуск №1/2018

Вашкевич М. И., Азаров И. С., Петровский А. А.
Оценка мгновенной частоты основного тона речевого сигнала на основе многоскоростной обработки

купить статью за
30 руб

Аннотация. В работе предлагается алгоритм оценки частоты основного тона, основанный на представлении речевого сигнала синусоидальной моделью с мгновенными параметрами. Алгоритмом предусмотрена следующая последовательность шагов: 1) декомпозиция сигнала на субполосные составляющие; 2) определение мгновенных параметров синусоидальной модели субполярных сигналов; 3) вычисление функции формирования кандидатов периода основного тона; 4) поиск локального контура частоты основного тона. Особенностью алгоритма является то, что ширина полос пропускания фильтров, используемых для декомпозиции, а также длительность кадра анализа масштабируются для каждого кандидата периода основного тона путем передискретизации сигнала. В работе делается сравнение предлагаемого алгоритма с широко используемыми оценщиками частоты основного тона RAPT, YIN, SWIPE’, IRAPT и PEFAC. Предлагаемый алгоритм демонстрирует хорошее частотное и временное разрешение для сигналов, имеющих значительную частотную модуляцию, и показывает хорошую производительность как для чистых, так и для зашумленных сигналов.

Ключевые слова: частота основного тона, многоскоростная обработка

Estimation of instantaneous fundamental frequency of speech based on multirate signal processi ng

Maksim I. Vashkevich, Candidate of technical Sciences, associate Professor of the Belarusian state University of Informatics and Radioelectronics (BSUIR)

Iliy S. Azarov, Doctor of technical Sciences, associate Professor, BSUIR

Aleksandr A. Petrovsky, Doctor of technical Sciences, Professor of the chair of electronic computing BSUIR

Abstract. The paper presents an algorithm for accurate pitch estimation that takes advantage of the sinusoidal model with instantaneous parameters. The algorithm decomposes the signal into subband components, extracts their instantaneous parameters and evaluates period candidate generating function (PCGF). In order to achieve high accuracy for low and high-pitched sounds it is assumed that possible pitch variation range is proportional to current pitch value. The bandwidths of the decomposition filters and length of the analysis frame are scaled for each period candidate by multirate sampling. The algorithm is compared to other widely used pitch extractors on artificial quasiperiodic signals and natural speech. The proposed algorithm shows a remarkable frequency and time resolution for pitch-modulated sounds and performs well both in clean and noisy conditions.

Keywords: fundamental frequency, pitch, multirate signal processing