Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 6 2015 год

УДК: 004.912:519.767.6
Выявление упоминаний лиц в новостных текстах
И. В. Трофимов, ст. науч. сотр., e-mail: itrofimov@gmail.com, Институт программных систем им. А. К. Айламазяна РАН, г. Переславль-Залесский

Методы извлечения информации из текстов позволяют автоматически структурировать содержащуюся в документах информацию. Они находят применение в программных системах, осуществляющих обработку больших документальных массивов. В работе рассмотрена задача выявления упоминаний лиц в текстах. Исследованы возможности простых словарно-эвристических алгоритмов. Эффективность алгоритмов оценена на материале двух размеченных русскоязычных новостных коллекций.

Ключевые слова: автоматический анализ текста, извлечение информации, распознавание именованных сущностей, выявление упоминаний лиц, словарь имен, словарь фамилий, правила извлечения информации, размеченный корпус, F-мера
Стр. 41–47
Работа выполнялась в рамках проекта RFMEFI60414X0138 при финансовой поддержке государства в лице Минобрнауки России.