Racing Team Album: ...
oferujemy: pełne ubezpieczenie aut (OC, AC, NW), nowe samochody, brak limitu km, brak udziału wł ...
. Скрипт выполняет
Статья описывает разработку скрипта на языке
Python. Скрипт выполняет
парсинг HTML-кода, составление списка материалов сайта, скачивания статей и предварительную очистку текста статьи от «посторонних» элементов. Используется библиотеки
urllib (получение HTML-страниц),
lxml (парсинг HTML-кода, удаление элементов и сохранение «очищенной» статьи),
re (работа с регулярными выражениями),
configobj (чтение файлов конфигурации).
Для написания скрипта достаточно базовых знаний языка Python, навыков программирования и отладки кода.
В статье даются пояснения по применению библиотек на примере составления списка публикаций С.М. Голубицкого, приведена ссылка на работающий скрипт.
Читать дальше →