ИздательствоРечевые технологииВыпуск №1/2016

Харламов А. А.
Формирование n-граммной тематической модели текста




Материал не доступен

Современные средства автоматического смыслового анализа текстов в основном делают акцент на тематическом анализе текстов, который основан преимущественно на использовании механизмов латентно-семантического анализа, вероятностного латентно-семантического анализа и скрытого распределения Дирихле [1]. Тематический анализ, в свою очередь, базируется на монограммной модели текста, то есть на предположении, что порядок слов в тексте не играет роли в анализе частоты их встречаемости в тексте (так называемый «мешок слов»). Использование n-граммной модели текста для тематического моделирования не только улучшает лингвистическую интерпретируемость результатов анализа, но и позволяет выявлять иерархическую тематическую структуру анализируемого текста.

• тематическое моделирование • n-граммная модель текста • рекуррентная процедура вычисления весовых характеристик тем • иерархическая тематическая структура текста

[1]Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на

естественном языке Труды Института системного программирования РАН,

том 23, 2 012, стр. 215-244.