Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 6 2018 год

DOI: 10.17587/prin.9.262-271
УДК: 004.912
Графовые методы определения семантической близости пары ключевых слов и их применения к задаче кластеризации ключевых слов
К. В. Лунев, аспирант, e-mail: kirilllunev@gmail.com, Механико-математический факультет МГУ имени М. В. Ломоносова

Представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для определения семантической близости между двумя ключевыми словами. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах. Документ представляется в виде множества ключевых слов, ассоциированных с этим документом. Определена мера контекстной близости пары ключевых слов. По заданной коллекции документов строится граф ключевых слов. Вершины этого графа соответствуют ключевым словам, а ребра отражают факт контекстной близости пары слов. Далее представлен метод кластеризации построенного графа. Ключевые слова, входящие в один кластер, обладают свойством семантической близости, что является важным результатом настоящей работы. Программная реализация разработанных моделей протестирована на коллекциях ключевых слов к научным публикациям, а также на коллекции тегов к постам в социальной сети ВКонтакте..

Ключевые слова: семантическая близость, обработка естественного языка, алгоритмы на графах, теория графов, кластеризация
Стр. 262–271