(с) warshК девяти существующим в Москве построят два новых железнодорожных вокзала: один на Курском направлении железной дороги в Старосырово, второй - на Киевском направлении в Санино.
А то столица не вмещает в себя китайских туристов, видимо.
+17°...+20°,
.
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для ...
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.
Обновленный торрент можно скачать по этой магнет-ссылке.
Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.
Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.
crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.
Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.
Теперь вопрос, что с этим делать дальше:
1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)
2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.
3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и
crower?
4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?
This entry was originally posted at http://vitus-wagner.dreamwidth.org/1916702.html. Please comment there using OpenID. Now there are comments
Я закончил сканировать энциклопедию «Море» Френсис-Бёфа, Романовского & Co.
(ну и тормозной у ...
Я закончил сканировать энциклопедию «Море» Френсис-Бёфа, Романовского & Co.
(ну и тормозной у меня сканер, скорость сканирования была порядка страницы в минуту).
Теперь вот лежит на диске 3.6G png-шек, преимущественно grayscale, 620 страниц формата A4 + 16 цветных вкладок. По цветным бы надо еще пройтись на предмет цветокоррекции.
Теперь надо все это через scantailor пропускать.
Еще бы найти кто бы взялся это дело от OCR-ить. Поскольку в OCR-енном виде оно бы было гораздо полезнее, чем в виде djvu, даже если и сделать в этом djvu поисковый текстовый слой.
This entry was originally posted at http://vitus-wagner.dreamwidth.org/1915853.html. Please comment there using OpenID. Now there are comments
 
 
(с) warshИностранцы всегда интересны, особенно те, кто дефилирует в военной форме по нашей территории, как эти два месье.
В данном случае это, как я понимаю, сапер наполеоновской армии.
 
 
(с) warshСие ещё раз доказывает, что заниматься военно-исторической реконструкцией можно до седых волос. В качестве забавного хобби, дарящего окружающим массу положительных эмоций.
+20°...+22°,
, вечером обещают
.
 
 
(с) warshВсегда интересно разглядывать на полотнах старых мастеров разные детали быта прошлого. Какие тогда были фужеры, бутылки, как одевались и так далее.
Реконструкция позволяет - в одно мгновение - запечатлеть всё это великолепие.
+12°...+14°,
, временами
.