Сегодня 14 ноября, четверг ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7276
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Журнал Витуса.
Журнал Витуса.
Голосов: 2
Адрес блога: http://vitus-wagner.livejournal.com/
Добавлен: 2008-02-19 12:48:41 блограйдером Lurk
 

И еще про энциклопедию «Море»

2017-06-26 15:22:39 (читать в оригинале)

Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.

Обновленный торрент можно скачать по этой магнет-ссылке.

Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.

Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.

[personal profile] crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.


Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.

Теперь вопрос, что с этим делать дальше:

1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)

2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.

3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и [personal profile] crower?

4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?

This entry was originally posted at http://vitus-wagner.dreamwidth.org/1916702.html. Please comment there using OpenID. Now there are comment count unavailable comments

Тэги: вопросы, география, занимательная

 


Самый-самый блог
Блогер ЖЖ все стерпит
ЖЖ все стерпит
по сумме баллов (758) в категории «Истории»


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.