Издательство — Речевые технологии — Выпуск №1/2021
Наймушин М. Word2vec семантическая модель и обработка текстов языка человеком
Создание более эффективных моделей автоматической обработки естественного языка, в частности моделей семантического анализа, основанных на новых методах обработки естественного языка, может свидетельствовать о том, что новые модели лучше отражают обработку естественного языка человеком. Несмотря на это, последние исследования в данной области проводились чаще с позиций информационных наук и машинного обучения, а не лингвистики. В данной статье проводится лингвистический анализ модели word2vec — одного из наиболее новаторских подходов к семантике в машинном обучении. Основываясь на этом анализе, мы провели эксперименты, которые позволяют оценить эффективность word2vec в качестве модели семантики языка. Результаты исследования свидетельствуют об ограниченной эффективности модели (61 и 65,5% в двух экспериментах). • автоматическая обработка естественного языка • семантические модели • векторные модели • word2vec • семантическая память • ментальный лексикон WORD2VEC SEMANTIC MODEL AND HUMAN LANGUAGE PROCESSING Naymushin M.S., bachelor of the faculty of English of MSLU The recent technological advancement in the field of NLP (including semantic analysis) may indicate that the new models are more grounded in the reality of human language processing. In spite of that, latest research has been mostly conducted from the position of computer science and machine learning. This article provides a linguistic analysis of the word2vec model, one of the most groundbreaking approaches to semantics in machine learning. Based on this analysis, we conduct experiments designed to estimate the effectiveness of word2vec as a language model. The results show limited efficacy of 61% and 65.5%. • natural language processing • semantic models • vector models • word2vec • semantic memory • mental lexicon
|