Еще про «Море»
2017-06-21 22:02:59
Я закончил сканировать энциклопедию «Море» Френсис-Бёфа, Романовского & Co.
(ну и тормозной у ...
+ развернуть текст сохранённая копия
Я закончил сканировать энциклопедию «Море» Френсис-Бёфа, Романовского & Co.
(ну и тормозной у меня сканер, скорость сканирования была порядка страницы в минуту).
Теперь вот лежит на диске 3.6G png-шек, преимущественно grayscale, 620 страниц формата A4 + 16 цветных вкладок. По цветным бы надо еще пройтись на предмет цветокоррекции.
Теперь надо все это через scantailor пропускать.
Еще бы найти кто бы взялся это дело от OCR-ить. Поскольку в OCR-енном виде оно бы было гораздо полезнее, чем в виде djvu, даже если и сделать в этом djvu поисковый текстовый слой.
This entry was originally posted at http://vitus-wagner.dreamwidth.org/1915853.html. Please comment there using OpenID. Now there are comments
Тэги:
fb2,
география,
занимательная
[Из песочницы] Регистрация и авторизация пользователя на сайте — одним кликом — через кастомную кнопку Facebook. 2017
2017-04-03 12:47:48
Итак, начал я разрабатывать один проект по фану. Основная идея проекта проста: площадка, где все ...
+ развернуть текст сохранённая копия
Итак, начал я разрабатывать один проект по фану. Основная идея проекта проста: площадка, где все могут ставить на всё что угодно, заключать пари, сделки и БЕЗ каких либо ограничений. Развлекательный проект по сути своей.
Ну и конечно стал вопрос Удобной авторизации пользователей с наименьшим «трением». Подумав немного, я выбрал авторизацию через Facebook, но думаю, на этом я не остановлюсь и вы прочтете ещё несколько статей, с авторизацией через Google Acc, VK и Tweet.
Итак к делу! В интернете я нашел несколько тем, которые описывают вопрос авторизации, некоторая информация мне помогла, но я не нашел ни одной, которая бы решила поставленную мной задачу, поэтому, завершив задачу я и решил написать эту статью.
Читать дальше →
Тэги:
2017,
api,
codeigniter,
facebook,
fb2,
jquery,
oauth,
php,
sdk,
апрель
Sapiens: A Brief History of Humankind.fb2.zip
2017-03-29 10:14:31
... />http://bubluoteka.org/
fb2/672452/
Sapiens ... History of Humankind.
fb2.zip
https ...
+ развернуть текст сохранённая копия
Кстати:
http://bubluoteka.org/fb2/672452/
Sapiens: A Brief History of Humankind.fb2.zip
https://en.wikipedia.org/wiki/Sapiens:_
A_Brief_History_of_Humankind
бесконечно модная книжка, все знакомые математики
(нерусские) тащатся, как безумные. Не поленился
и скачал, буду читать.
Русский перевод, если кому надо
https://coollib.com/b/361077
Привет
Comments
Тэги:
books,
fb2,
history
TTS
2017-03-08 18:44:15
Попробовал тут tts на десктопе. Тупо и в лоб
apt-get install festival festvox-ru
...
+ развернуть текст сохранённая копия
Попробовал тут tts на десктопе. Тупо и в лоб
apt-get install festival festvox-ru
festival --tts somefile.txt
Вроде работает не хуже, чем это делает андродиный svox.
Правда, обнаружилось что оно ломется на m-тире и кавычках-ёлочках. Пришлось немножко попатчить файл msu_ru_nsh_lexicon.scm из пакета festvox-ru.
В итоге, правда, маркдауновские файлы все равно приходится проигрывать посредством
pandoc -t plain -o - filename.mkd|festival --tts
А то на звездочках, использованных для выделения курсивом, оно ломается.
Теперь осталось придумать какую-нибудь обертку вокруг FB2ToTxt.xslt чтоб можно было вперед-назад абзацы проматывать.
This entry was originally posted at http://vitus-wagner.dreamwidth.org/1880930.html. Please comment there using OpenID. Now there are comments
Тэги:
debian,
fb2,
open,
source
О больших архивах
2017-01-22 18:05:09
... распространенные тулзы генерации
FB2 это не отслеживают ...
+ развернуть текст сохранённая копия
Попробовал тут разгрести описанным в предыдущем посте скриптом архив либрусэка завалявшийся с 2009 года.
Получилось - из менее чем 200000 книг 2176 попросту not well-formed XML. В основном от того что народ использует знаки больше-меньше (даже не сдвоенные) в вместо кавычек-елочек, а какие-то распространенные тулзы генерации FB2 это не отслеживают и не заменяют встретившийся в тексте зна < на соответствующий entity. Аналогичные проблемы возникают с амперсэндами.
Ну и плюс к тому куча пробелов, неразрывных пробелов, кавычек, скобочек в полях "имя автора". В принципе можно скрипт пофиксить, чтобы все символы, не участвующие в сортировке по библиографическим правилам, резал.
Но вообще, конечно, все это добро нуждается в вычитки и чистке от артефактов сканирования и распознавания. Поэтому я и держу настолько маленькую библиотеку, что в ней мне все-таки не лень слазить и руками исправить ошибки в XML и метаданных.
А то и пройтись по всему тексту и правильно оформить тэгами разбиение на главы.
This entry was originally posted at http://vitus-wagner.dreamwidth.org/1869574.html. Please comment there using OpenID. Now there are comments
Тэги:
fb2