Официальный сайт журнала "Программная инженерия" | Графовые методы определения семантической близости пары ключевых слов и их применения к задаче кластеризации ключевых слов

Главная

Новый номер

Архив

Популярные статьи

Главный редактор

Редколлегия

Авторам

Этика публикаций

Рецензирование

Издательство

Старая версия сайта

English

Номер 6 2018 год

DOI: 10.17587/prin.9.262-271

УДК: 004.912

Графовые методы определения семантической близости пары ключевых слов и их применения к задаче кластеризации ключевых слов

К. В. Лунев, аспирант, e-mail: kirilllunev@gmail.com, Механико-математический факультет МГУ имени М. В. Ломоносова

Представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для определения семантической близости между двумя ключевыми словами. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах. Документ представляется в виде множества ключевых слов, ассоциированных с этим документом. Определена мера контекстной близости пары ключевых слов. По заданной коллекции документов строится граф ключевых слов. Вершины этого графа соответствуют ключевым словам, а ребра отражают факт контекстной близости пары слов. Далее представлен метод кластеризации построенного графа. Ключевые слова, входящие в один кластер, обладают свойством семантической близости, что является важным результатом настоящей работы. Программная реализация разработанных моделей протестирована на коллекциях ключевых слов к научным публикациям, а также на коллекции тегов к постам в социальной сети ВКонтакте..

Ключевые слова: семантическая близость, обработка естественного языка, алгоритмы на графах, теория графов, кластеризация

Стр. 262–271