Издательство — Речевые технологии — Выпуск №1/2016
Харламов А. А. Формирование n-граммной тематической модели текста
Современные средства автоматического смыслового анализа текстов в основном делают акцент на тематическом анализе текстов, который основан преимущественно на использовании механизмов латентно-семантического анализа, вероятностного латентно-семантического анализа и скрытого распределения Дирихле [1]. Тематический анализ, в свою очередь, базируется на монограммной модели текста, то есть на предположении, что порядок слов в тексте не играет роли в анализе частоты их встречаемости в тексте (так называемый «мешок слов»). Использование n-граммной модели текста для тематического моделирования не только улучшает лингвистическую интерпретируемость результатов анализа, но и позволяет выявлять иерархическую тематическую структуру анализируемого текста. • тематическое моделирование • n-граммная модель текста • рекуррентная процедура вычисления весовых характеристик тем • иерархическая тематическая структура текста [1]Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на естественном языке Труды Института системного программирования РАН, том 23, 2 012, стр. 215-244.
|