Компания ABBYY выпускает новую версию программы для распознавания текста ABBYY FineReader.
...
Компания ABBYY выпускает новую версию программы для распознавания текста ABBYY FineReader.
fr02_redaktor_izobrazheniy.png
читать дальше
Хех, ну наконец-то. «Компания Cognitive Technologies … создала первую в России систему, обеспечивающую промышленное качество ввода сложных типов документов, к которым главным образом относится первичная бухгалтерская документация (счета фактуры, товарно-транспортные накладные и т.д.)».
image003.jpg
image005.jpg
image007.jpg
image011.jpg
image014.jpg
image015.png
image016.jpg
читать дальше
Корни истории уходят в те годы, когда один из кланов древней текстовой игры «Бойцовский клуб» ...
Корни истории уходят в те годы, когда один из кланов древней текстовой игры «Бойцовский клуб» заказал у меня, молодого программиста на Perl, капчу для игры. Пара бессонных ночей — и четыре ровных цифры готовы вместе с проверкой ввода.
Через несколько дней пришёл другой, не менее уважаемый клан, и заказал парсер той самой капчи. Для её разбора пришлось потратить гораздо больше времени, никакого Ocrad тогда ещё не было, но был найден очень простой и рабочий способ.
Через неделю пришёл третий, и самый заслуженный в игре клан, и заказал новую капчу. Через пару месяцев перетягивания одеяла почти все топовые кланы обогатились на новые картинки-артефакты, их программисты на ворох разноцветных бумажек, проект — на кучу генераторов чепухи, а лично я на бесценный опыт.
Совсем недавно этот опыт пригодился для разбора тысяч телефонных номеров с одного из сайтов из изображения обратно в текст. Алгоритм использовался тот же самый, и я хочу им поделиться. Вот отвёртка и молоток, а что вы ими соберёте — синхрофазотрон или гравипушку — уже ваше личное дело.
Читать дальше →
По ходу своей трудовой деятельности получил задачу придумать и реализовать ...
Пролог
По ходу своей трудовой деятельности получил задачу придумать и реализовать систему учета рекламной информации. Учет заключался в проверке наличия нужной информации на нужном рекламном щите. Щит и полиграфия пронумерованы.
В качестве исходной информации для системы предлагалось использовать фото. После
торговли согласования с дизайнерами было оговорено, что оба номера будут располагаться внутри одной рамки. Единственное, что рамка могла быть в любом месте щита.
Собственно на этом постановка задачи заканчивается и начинается повествование о реализации.
Задача решается в три действия:
- Нахождение нужного прямоугольника на изображении.
- Распознавание текста.
- Проверка правильности распознавания.
Читать дальше →
... но тогда поддержка
ограничилась американским и ... новости про обновление
модуля, систему ...
В сервис Google Docs была добавлена возможностью распознавания скриншотов и сканированных документов на 29 языках.
Возможность распознавать сканированный текст появилась в Google еще летом прошлого года, но тогда поддержка OCR ограничилась американским и несколькими европейскими языками. Сегодня этот сервис принимает не только русский и упрощенный китайский, но и ряд кириллических и азиатских языков. Лучше всего сервис разбирается в сканах высокого разрешения, отметил Джейрон Шеффер, занимающий в Google должность программиста.
После публикации новости про обновление OCR модуля, систему протестили инженеры Abbyy. Google повторяет свои ошибки, представляя продукт с недостаточно качественным распознаванием, считает Григорий Липич, занимающий пост гендиректора в Abbyy Россия. Специалистам медиагиганта еще есть над чем потрудится: необходимо повысить качество распознавание и уделить внимание сохранению полученных документов, отметил Липич. Вместе с тем стремление Google достойно похвалы, ведь внедрение подобных систем в столь известные продукты ведет к популяризации OCR продуктов, подвел итог Григорий Липич.