Издательство — Речевые технологии — Выпуск №3/2010 Современные системы автоматического распознавания речи, основанные на скрытых марковских моделях, представляют собой сложные многопараметрические программные комплексы (особенно системы с большим словарём, где количество слов превышает 105), которые требуют тонкой многоэтапной настройки (обучения) и предъявляют высокие требования к используемой компьютерной технике как с точки зрения быстродействия, так и с точки зрения используемой памяти. Несмотря на то, что в настоящее время разработаны эффективные алгоритмы декодирования, добиться работы декодера в реальном масштабе времени с сохранением высокого уровня точности по-прежнему сложно. В этой работе предлагается подход к ускорению работы динамического однопроходного Витерби-подобного декодера с древовидной структурой сети распознавания, который используется при распознавании речи с большим словарём. Основная вычислительная нагрузка при работе декодера приходится на вычисление отклика гауссовых смесей, моделирующих состояния контекстнозависимых фонем. В работе при вычислении откликов предлагается использовать алгоритм «дорожная карта», который позволяет находить l лучших гауссоид (дающих наибольший отклик) для данного наблюдения без вычисления откликов всех гауссоид. Перед выполнением декодирования для каждой гауссоиды находится список наиболее близких гауссоид с использованием в качестве расстояния перекрытия данных гауссоид в пространстве признаков. При декодировании выполняется поиск гауссоид, дающих наилучший отклик для данного наблюдения. Процедура поиска является итерационной и напоминает прокладывание маршрута по карте (отсюда название алгоритма). | ||
© 2015 – 2024. Издательский дом «Народное образование»
|