ИздательствоРечевые технологииВыпуск №1/2018

Бирин Д. А., Булашевич А. Е., Грекис М. Ю.
Задача автоматической расстановки знаков пунктуации в распознанной спонтанной русской речи

 
Материал в открытом доступе

Аннотация: Основная цель процесса распознавания речи — получение на выходе удобочитаемого, ясного текста. В русском языке это практически невозможно без знаков препинания. Проблема в том, что существующая система правил пунктуации была разработана для письменного языка. В спонтанной речи эти правила часто не соблюдаются и даже нарушаются. Кроме того, для спонтанной речи характерны такие явления, которые не описаны в правилах, сформулированных для литературного (письменного) языка, поскольку эти явления там практически отсутствуют (например, хезитационный поиск, самоисправления и т.д.). Таким образом, задача заключается в том, чтобы адаптировать классические правила для спонтанной речи и разработать систему автоматической пунктуации, которая сможет превратить последовательность распознанных слов спонтанной речи в понятный письменный текст. На данном этапе наша система позволяет в большинстве случаев однозначно определять границы предложения и с определённой точностью ставить внутренние знаки препинания.

Ключевые слова: распознавание спонтанной речи, пунктуация в спонтанной речи, автоматическая расстановка знаков препинания.

A TA SK OF AUTOMAT IC PUNCTUAT ION IN RECOGN IZED RUSSIAN SPONTANEOU S SPEECH

Dmitry A. Birin, the General Director of branch FGUP "scientific research Institute "Kvant" , Saint-Petersburg

Alexander E. Bulashevich, candidate of technical Sciences, researcher of the branch of FSUE "scientific research, Institute "Kvant", Saint-Petersburg

Marianna Y. Grekis, engineer of FGUP "scientific research Institute "Kvant», Saint-Petersburg

Abstract. The main purpose of speech recognition process is to produce readable, understandable text at output. In the Russian language it is hardly possible without punctuation marks. There is a very complicated system of punctuation rules for the Russian language. The problem is that these rules were developed for written language. Most of them are not observed or are even broken in spontaneous speech. There are also some phenomena in spontaneous speech which are not described in the rules for literary (written) language simply because these phenomena do not meet in the written text (hesitation search, self-repairs etc.). Thus, the task is to adopt classic rules for spontaneous speech and to develop an automatic punctuation system that would be able to transform a sequence of recognized words received from spontaneous speech into a comprehensible written text. At this stage our system allows to detect sentence boundaries in most cases and placing some internal punctuation marks with a certain accuracy.

Keywords: spontaneous speech recognition, punctuation of recognized speech, automatic punctuation.