URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 116291
[ Назад ]

Исходное сообщение
"Выпуск системы распознавания текста GNU Ocrad 0.27"

Отправлено opennews , 14-Янв-19 12:14 
Подготовлен (https://www.mail-archive.com/info-gnu@gnu.org/msg02558.... релиз системы распознавания текста Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.  

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction (http://en.wikipedia.org/wiki/Feature_extraction)). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm  или ppm.

При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к  ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.


URL: https://www.mail-archive.com/info-gnu@gnu.org/msg02558....
Новость: https://www.opennet.dev/opennews/art.shtml?num=49945


Содержание

Сообщения в этом обсуждении
"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено CHERTS , 14-Янв-19 12:14 
>>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).

Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 12:26 
Ой, прости, тебя спросить забыли, когда проект начинали.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Тонкая , 14-Янв-19 14:29 
А ответить "слабо"? Или только тыкать способно?

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Анонзо , 14-Янв-19 21:17 
Ой, не ты ли начинал то?

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 15-Янв-19 11:59 
когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 15-Янв-19 11:59 
>Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY?

Исправил, не благодари.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено evkogan , 14-Янв-19 15:40 
Это поделие было когда teseract не было.
А вот зачем кто-то шевелит труп не знаю.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 15-Янв-19 03:02 
А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено рпрп , 15-Янв-19 08:16 
не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Чювак , 14-Янв-19 16:02 
Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено VINRARUS , 14-Янв-19 21:08 
На торенте.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 16:36 
10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах.

Зачем о нём вспомнили?


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 17:49 
Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 18:12 
Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц.

Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено KonstantinB , 14-Янв-19 20:02 
Есть Finereader Engine для linux, но цены там какие-то совсем неприличные.

Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 23:32 
Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Молчуны , 14-Янв-19 21:28 
YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 05-Мрт-20 18:24 
Падает, пока не сделана небольшая настройка.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 15-Янв-19 00:49 
Есть Wine.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 17:59 
tesseract и гуи морда к нему

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Enter Your Name , 14-Янв-19 23:08 
"В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей."

А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено рпрп , 15-Янв-19 08:19 
распознает более менее, но на выходе plain text

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 14-Янв-19 21:11 
> Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

Это шутка такая ?


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Alexey , 14-Янв-19 23:17 
Ты чо, самые распространенные графформаты ... среди рептилоидов

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Ponchik , 14-Янв-19 23:19 
Википедия показывает 5 основных СПО систем OCR:

1. CuneiForm

2. GOCR

3. Ocrad

4. OCRopus

5. Tesseract

Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.

Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).


Так же есть 2 морды:

1. OCRFeeder (на GTK), последняя версия 2014 год

2. YAGF (на Qt), последняя версия 2015 год

Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Виталий , 14-Янв-19 23:29 
> CuneiForm
> Последняя версия 1.1.0 (19 апреля 2011)

Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено AndrewR , 15-Янв-19 06:40 
https://github.com/manisandro/gImageReader

"gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Аноним , 15-Янв-19 15:04 
GOCR давно пригоден для распознавания английской капчи, но расширять его нереально, проще переписать с нуля. Вот на него и забили.

OCRopus -- исследовательский проект, который пилится каким-то профессором в свободное время. Для хорошего распознавания рекомендуется серый текст на серой бумаге.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Gannet , 16-Янв-19 21:30 
>1. CuneiForm

Да, по степени говняности качества ПО, оно действительно на первом месте.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Адекват , 15-Янв-19 07:18 
Мне кажется это как раз тот случай, который показывает почему софт бывает платным. Почему платный софт лучше бесплатного. Почему софт ДОЛЖЕН быть платным.
В целом, почему деньги "не зло" - деньги это эквивалент труда (в идеальной сферической вселенной), но и в нашем мире, чтобы сделать что-то действительно качественное и хорошее нужно затратить какое-то количество человеко-часов, которые должны быть ОПЛАЧЕНЫ, иначе все будет очень печально. Ну а хорошие платные вещи (в частности софт) будут стимулировать покупателей зарабатывать деньги - развиваться, становиться полезными обществу, расти как специалисты, становиться высокооплачиваемыми профи.
Если же рассмотреть противоположную ситуацию, доведенную  до абсурда - когда все  БЕСПЛАТНО, человек не будет развиваться, у него не будет просто причин, не будет мотивации, не будет желания расти как личность, и как специалист - все превратятся в апатичное, безвольное, безмозглое бухающее быдло. Все будут пить пиво, смотреть сериальчики, играть в компьютерные игры и тусить.

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено рпрп , 15-Янв-19 08:25 
Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать.
С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Gannet , 16-Янв-19 21:34 
А с платным софтом нет нет хитрого нае**? Докажи. На примере Шиндошs например. Нет никакого нае**, точно? Ты действительно в это веришь?

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено mma , 15-Янв-19 11:45 
>Мне кажется это как раз тот случай, который показывает почему софт бывает платным.

Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.


"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено иисус , 16-Янв-19 11:42 
Господи, вторая половина это прям про меня ;Ж))

"Выпуск системы распознавания текста GNU Ocrad 0.27"
Отправлено Тот_Самый_Анонимус , 30-Мрт-19 15:21 
>Адекват
>Почему платный софт лучше бесплатного.

Блендер смотрит на тебя, как на ГМО. К тому же, ник неправильно подобран.