Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 11 2017 год

DOI: 10.17587/prin.8.490-503
УДК: 004.624
Методы и средства мониторинга публикаций в средствах массовой информации
В. А. Васенин, д-р физ.-мат. наук, проф., e-mail: vasenin@msu.ru, НИИ Механики МГУ имени М. В. Ломоносова, М. Д. Дзабраев, разработчик, e-mail: dzabraew@gmail.com, ИАС ИСТИНА, г. Москва

Описан подход к решению востребованной на практике задачи извлечения данных с вебсайтов в целях их дальнейшей обработки для тех или иных приложений. Изложено описание и детали реализации алгоритма, с помощью которого представляется возможным осуществить обход веб-страницы. Целью обхода веб-страницы является попадание во все возможные места на веб-странице и извлечение полезных данных. Обход веб-страницы осуществляется путем нажатия кнопок на веб-странице. Нажатие каждой кнопки способно либо загрузить новую веб-страницу, либо модифицировать существующую с помощью исполнения JavaScript. Алгоритм, описанный в настоящей статье, предназначен для реализации нажатия кнопок, которые изменяют текущую веб-страницу.

Ключевые слова: извлечение данных, веб, readability, обход веб-сайта, обход веб-страницы, Javascript, Firefox
Стр. 490–503