Какой рейтинг вас больше интересует?
|
Главная / Главные темы / Тэг «lxml»
Парсер в Nimbus Note, или как мы решали проблему «чистого» HTML 2014-03-28 15:20:23
Одна из ключевых возможностей Nimbus Note — это сохранение и/или редактирование заметок в виде ...
+ развернуть текст сохранённая копия
Одна из ключевых возможностей Nimbus Note — это сохранение и/или редактирование заметок в виде html-документа. И заметки эти создаются/редактируются в браузере или на мобильных устройствах. После чего — отправляются на сервер. А как подсказывает профессиональная паранойя — информации пришедшей от пользователя доверять нельзя. Т.к. там может быть всё что угодно: XSS, документ, превращающий вёрстку в мечту абстракциониста или вообще ни разу не текст. Следовательно, данные пришедшие от пользователя нуждаются в предварительной обработке. В этой статье я опишу некоторые особенности нашего решения данной проблемы.
Читать дальше →
Тэги: beautiful, fvd, lxml, media, nimbus, python, soup, блог, веб, веб-разработка, компании, парсеры, разработка
[Из песочницы] Опыт ленивого переноса блогосайта с Drupal на статику при помощи Python 2012-06-26 21:19:16
Сначала ответ на вопрос «А зачем переходить с Drupal на статику»
Если посмотреть ...
+ развернуть текст сохранённая копия
Сначала ответ на вопрос «А зачем переходить с Drupal на статику»
Если посмотреть на то, как устроено большинство сайтов, то видно, что, чаще всего, необходимости именно в динамичности содержимого нет. Эти сайты — набор статических (или редко изменяющихся) материалов. Интерактив с посетителями редкость.
Единственное, что оправдывает в такой ситуации технологию CMS — это очень быстрое создание сайтов.
Фактически Drupal (да и другие CMS) используются в таких случаях просто как редактор той или иной публикации на сайте.
Статика прекрасно бы подошла под такие задачи. Она требует меньше ресурсов сервера и существенно проще администрируется.
В качестве вспомогательного инструмента для перехода и дальнейшей эксплуатации в статике выбран Python.
Читать дальше →
Тэги: drupal, lxml, python, web-разработка, блог, веб-разработка, контент, статический, страница
Веб-разработка / [Из песочницы] LXML — проблемы с кодировкой при парсинге HTML 2011-09-14 11:03:01
... скармливаются в lxml.html для ... всем виноват lxml .
+ развернуть текст сохранённая копия
Данный пост посвящен извечной проблеме всех питонистов — кодировкам. Недавно я получил письмо, в котором мой знакомый жаловался на то, что у него в программе получаются строчки вида::
u'\xd0\x9a\xd1\x83\xd1\x80\xd1\x83\xd0\xbc\xd0\xbe\xd1\x87'
Вы заметили что что-то не так? И я вот. Строчки как бы уникодные, но внутри них закодированные utf-8 байты. Что-то здесь не так. Разбираясь дальше и потребовав скрипт, которые такое генерирует, становится понятно, что данные берутся из веба. Вполне обычным способом через urllib и потом скармливаются в lxml.html для разбора. Поскольку urllib оперирует только байтовыми строками, то он не мог их так превратить в уникод, а значит во всем виноват lxml .
Читать дальше →
Тэги: html, lxml, кодировка, парсинг
Python / Grab — python библиотека для парсинга сайтов 2011-09-02 14:37:10
Лет пять-шесть назад, когда я ещё программировал преимущественно на PHP, я начал использовать ...
+ развернуть текст сохранённая копия
Лет пять-шесть назад, когда я ещё программировал преимущественно на PHP, я начал использовать библиотеку curl для парсинга сайтов. Мне нужен был инструмент, который позволял эмулировать сессию пользователя на сайте, отсылать заголовки обычного браузера, давать удобный способ отсылки POST-запросов. Сначала я пытался использовать напрямую curl-расширение, но его интерфейс оказался очень неудобным и я написал обёртку с более простым интерфейсом. Время шло, я пересел на python и столкнулся с таким же дубовым API curl-расширения. Пришлось переписать обёртку на python. Читать дальше →
Тэги: curl, grab, lxml, pars, pycurl, python, scraping, xpath, грабинг, парсер, парсинг
Python / [Из песочницы] Парсинг на Pуthon. Как собрать архив Голубятен 2011-06-14 19:24:25
... HTML-страниц), lxml (парсинг HTML ...
+ развернуть текст сохранённая копия
Статья описывает разработку скрипта на языке Python. Скрипт выполняет парсинг HTML-кода, составление списка материалов сайта, скачивания статей и предварительную очистку текста статьи от «посторонних» элементов. Используется библиотеки urllib (получение HTML-страниц), lxml (парсинг HTML-кода, удаление элементов и сохранение «очищенной» статьи), re (работа с регулярными выражениями), configobj (чтение файлов конфигурации).
Для написания скрипта достаточно базовых знаний языка Python, навыков программирования и отладки кода.
В статье даются пояснения по применению библиотек на примере составления списка публикаций С.М. Голубицкого, приведена ссылка на работающий скрипт. Читать дальше →
Тэги: configobj, lxml, python, urllib, xpath
Главная / Главные темы / Тэг «lxml»
|
Взлеты Топ 5
Падения Топ 5
|