Сегодня 20 декабря, суббота ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7281
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Журнал Витуса.
Журнал Витуса.
Голосов: 2
Адрес блога: http://vitus-wagner.livejournal.com/
Добавлен: 2008-02-19 12:48:41 блограйдером Lurk
 

Пишите код, а не петиции.

2015-09-24 09:50:49 (читать в оригинале)

Тут весь ЖЖ всячески бурлит по поводу решения яндекса ограничить поиск по блогам постами за последние три месяца.

Даже петицию на change.org написали.

По-моему, петиции это бесполезно. и надо брать дело поиска по (по крайней мере своему) ЖЖ в свои руки.

Поэтому поводу я решил таки сделать на своих мощностях локальную искабельную копию своего ЖЖ со всеми комментариями.

Для этого пришлось слегка поправить ljdump (и теперь его можно брать отсюда) чтобы он корректно отрабатывал современную антиботовую политику ЖЖ - вставить задержки между запросами по 1/5 секунды и обнаружение ситуации, когда все-таки забанили на час (с ожиданием этого самого часа).

Там в принципе, есть что еще поправить - надо отработать более корректнно не-wellformed комменты (у меня в журнале один такой есть). а то, подозреваю что в результате у меня не сдампился не только этот коммент, но и десяток случайно оказавшийся в response от edit_comments.bml перед ним. Кроме того, если запись попала в lj-times (у меня таких нашлось три), в тэг ljtimes-res пишется почему-то 32-битный integer в бинарном виде, чему потом очень удивляются парсеры XML.

Ну и, конечно, надо туда приделать создание локальной копии всех вставленных в запись и комментарии картинок. (с юзерпиками комментаторов вообще отдельная история).

Ах да, в наше время еще крайне актуально разрешение имен ext_NNNN аккаунтов в open-id URL или имена пользователей гугля, фейсбука и пр.

Но главное - достигнуто. Все то что надо индексировать искалке лежит у меня на диске (и бэкапится).

Теперь начал понемногу писать конвертер этого добра в набор статических html. Собственно конвертер xml-ек поста и комментариев в HTML написал. Используя в качестве шаблонизатора питоновский оператор %.

Осталось прикрутить туда генерацию (и обновление) оглавлений по месяцам и по тэгам, и можно натравливать индексатор от xapian-omega.

This entry was originally posted at http://vitus-wagner.dreamwidth.org/1123916.html. Please comment there using OpenID. Now there are comment count unavailable comments



 


Самый-самый блог
Блогер ЖЖ все стерпит
ЖЖ все стерпит
по сумме баллов (758) в категории «Истории»


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.