Подготовлен (https://www.mail-archive.com/info-gnu@gnu.org/msg02558.... релиз системы распознавания текста Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction (http://en.wikipedia.org/wiki/Feature_extraction)). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.
При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.
URL: https://www.mail-archive.com/info-gnu@gnu.org/msg02558....
Новость: https://www.opennet.dev/opennews/art.shtml?num=49945
>>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?
Ой, прости, тебя спросить забыли, когда проект начинали.
А ответить "слабо"? Или только тыкать способно?
Ой, не ты ли начинал то?
когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь
>Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY?Исправил, не благодари.
Это поделие было когда teseract не было.
А вот зачем кто-то шевелит труп не знаю.
А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?
не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.
Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.
На торенте.
10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах.Зачем о нём вспомнили?
Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?
Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц.Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.
Есть Finereader Engine для linux, но цены там какие-то совсем неприличные.Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).
Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...
YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.
Падает, пока не сделана небольшая настройка.
Есть Wine.
tesseract и гуи морда к нему
"В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей."А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?
распознает более менее, но на выходе plain text
> Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.Это шутка такая ?
Ты чо, самые распространенные графформаты ... среди рептилоидов
Википедия показывает 5 основных СПО систем OCR:1. CuneiForm
2. GOCR
3. Ocrad
4. OCRopus
5. Tesseract
Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.
Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).
Так же есть 2 морды:1. OCRFeeder (на GTK), последняя версия 2014 год
2. YAGF (на Qt), последняя версия 2015 год
Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.
> CuneiForm
> Последняя версия 1.1.0 (19 апреля 2011)Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(
https://github.com/manisandro/gImageReader"gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)
GOCR давно пригоден для распознавания английской капчи, но расширять его нереально, проще переписать с нуля. Вот на него и забили.OCRopus -- исследовательский проект, который пилится каким-то профессором в свободное время. Для хорошего распознавания рекомендуется серый текст на серой бумаге.
>1. CuneiFormДа, по степени говняности качества ПО, оно действительно на первом месте.
Мне кажется это как раз тот случай, который показывает почему софт бывает платным. Почему платный софт лучше бесплатного. Почему софт ДОЛЖЕН быть платным.
В целом, почему деньги "не зло" - деньги это эквивалент труда (в идеальной сферической вселенной), но и в нашем мире, чтобы сделать что-то действительно качественное и хорошее нужно затратить какое-то количество человеко-часов, которые должны быть ОПЛАЧЕНЫ, иначе все будет очень печально. Ну а хорошие платные вещи (в частности софт) будут стимулировать покупателей зарабатывать деньги - развиваться, становиться полезными обществу, расти как специалисты, становиться высокооплачиваемыми профи.
Если же рассмотреть противоположную ситуацию, доведенную до абсурда - когда все БЕСПЛАТНО, человек не будет развиваться, у него не будет просто причин, не будет мотивации, не будет желания расти как личность, и как специалист - все превратятся в апатичное, безвольное, безмозглое бухающее быдло. Все будут пить пиво, смотреть сериальчики, играть в компьютерные игры и тусить.
Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать.
С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).
А с платным софтом нет нет хитрого нае**? Докажи. На примере Шиндошs например. Нет никакого нае**, точно? Ты действительно в это веришь?
>Мне кажется это как раз тот случай, который показывает почему софт бывает платным.Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.
Господи, вторая половина это прям про меня ;Ж))
>Адекват
>Почему платный софт лучше бесплатного.Блендер смотрит на тебя, как на ГМО. К тому же, ник неправильно подобран.