The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз системы распознавания текста Tesseract 4.1"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от opennews (?), 12-Июл-19, 10:21 
Подготовлен (https://groups.google.com/forum/#!topic/tesseract-ocr/oKtTOI...) релиз системы оптического распознавания текста Tesseract 4.1 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензией Apache 2.0.


Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов (https://github.com/tesseract-ocr/tesseract/wiki/User-Project...) можно отметить gImageReader (https://github.com/manisandro/gImageReader), VietOCR (http://vietocr.sourceforge.net/) и YAGF (https://sourceforge.net/projects/yagf-ocr/). Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files). Для  оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes) в Tesseract 4.1:


-  Добавлена возможность вывода в XML-формате ALTO (https://en.wikipedia.org/wiki/ALTO_(XML)) (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
-  Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
-  Добавлена поддержка псевдографики в выводе hOCR;
-  Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;

-  Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
-  По умолчанию отключена поддержка OpenMP из-за проблем (https://github.com/tesseract-ocr/tesseract/issues/1171) с производительностью;
-  В движке LSTM добавлена поддержка белых и чёрных списков;
-  Улучшены сборочные сценарии на базе Cmake.


URL: https://groups.google.com/forum/#!topic/tesseract-ocr/oKtTOI...
Новость: https://www.opennet.dev/opennews/art.shtml?num=51081

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Релиз системы распознавания текста Tesseract 4.1"  –5 +/
Сообщение от iPony129412 (?), 12-Июл-19, 10:21 
YAGF как там с Qt 5?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 4.1"  +6 +/
Сообщение от Анон__ (?), 12-Июл-19, 10:42 
По ссылке влом сходить? Или ща так не модно?
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от iPony129412 (?), 12-Июл-19, 12:16 
Я переходил прежде чем писать.
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Sluggard (ok), 12-Июл-19, 12:18 
И не нашёл отдельный бранч с Qt5-версией? Странно.
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 4.1"  –3 +/
Сообщение от iPony129412 (?), 12-Июл-19, 12:36 
И не нашёл, и не собрал, и не затестил. Ужас...
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 4.1"  +4 +/
Сообщение от fske (?), 12-Июл-19, 13:04 
Ну яблочник, очевидно же...
Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от iPony129412 (?), 12-Июл-19, 14:33 
А если кто-то не «яблочник», то он просто так сразу побежит тратить один конечас на сборку проекта, который ему нужен этак со степенью ‘маловероятно’?
ЗЫ: дет сад уровня местной аудитории
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 4.1"  –4 +/
Сообщение от Аноним (16), 12-Июл-19, 14:36 
Ты походу адресом сайта ошибся тебе бы в комменты к вилсе на ютубе.
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 4.1"  –3 +/
Сообщение от iPony129412 (?), 12-Июл-19, 14:45 
- как там Qt5? /* Вроде что-то было по портированию с Qt4 на Qt5 */
- да, что-то есть по портированию.

Спасибо 👍

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 4.1"  –3 +/
Сообщение от Жабры Егорина (?), 12-Июл-19, 18:42 
Оу, сюда и скрытые фанаты вилсы оупенсорсники захаживают. А линуксоиды-пикабушники есть?
Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Аноним (20), 12-Июл-19, 14:46 
> проекта, который ему нужен этак со степенью ‘маловероятно’

Тогда не задавай глупых вопросов и не трать наши человекоминуты.

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от Sluggard (ok), 12-Июл-19, 16:12 
Зависит от того, насколько ему оно интересно и нужно.
Если интересно средне — есть бранч с Qt5, можно посмотреть историю коммитов и открытых тикетов, если интересно сильно — попробовать собрать и попользоваться.
Детсад — ждать, что кто-то сделает вышеперечисленное за и ради тебя.
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

68. "Релиз системы распознавания текста Tesseract 4.1"  +2 +/
Сообщение от iPony129412 (?), 15-Июл-19, 06:26 
> Детсад — ждать, что кто-то сделает вышеперечисленное за и ради тебя.

Нет, тут полно тулкитофобов, которым особо делать нечего.
Поэтому вероятность встретить кого-то "да, я вот пользуюсь" вполне нормальная.
PS: хотя вероятность встретить неадекватов, которым просто пофлудить ради поднятия ЧСВ, явно больше

Ответить | Правка | ^ к родителю #25 | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от Аноним (11), 12-Июл-19, 13:12 
В Mageia возьмите.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 4.1"  –2 +/
Сообщение от Аноним (4), 12-Июл-19, 12:17 
К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера OCR - весьма слабое место.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от corvuscor (ok), 12-Июл-19, 12:30 
Да нормально он распознает. Более-менее приличный скан пролетает без проблем.
Жаль только, что оно не умеет в форматирование, таблицы. Но можно юзать какой-нибудь ocrmypdf.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 4.1"  +2 +/
Сообщение от evkogan (?), 12-Июл-19, 12:41 
Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
Им реально можно книги распознавать.
А это только утилита выдрать текст с картинки авось получится, для добавления индексов в поиск пойдет.
Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

71. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от none_first (ok), 15-Июл-19, 13:42 
> Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
> Им реально можно книги распознавать.
> А это только утилита выдрать текст с картинки авось получится, для добавления
> индексов в поиск пойдет.

на нек. сканах - файнридер (любой) тупо крашится или выжирает всю память от виндадко ;)
и да, ФР порой текст распознает отвратительно (если скан неважный)
надо понимать (отличать) просто распознавание текста и все задачу по распознаванию сканов (она гораздо масштабнее)

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от iPony129412 (?), 12-Июл-19, 12:35 
Зависит от входных данных. Для сабжа действительно надо что-то простое.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

63. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Дегенератор (ok), 14-Июл-19, 16:31 
Это ты про буфер обмена?
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от psvemail (??), 12-Июл-19, 13:57 
И LSTM модуль тоже пробовали?
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

17. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (16), 12-Июл-19, 14:37 
В свое время распознавал им капчу было норм. Правда я сначала подготавливал картинку.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

51. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (51), 13-Июл-19, 11:55 
> К сожалнию, качество распознавания - просто кошмар.

Ваще идеально работает по PDF рендерингам в имиджи.

По хорошим сканам тоже - хватАет.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

70. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от none_first (ok), 15-Июл-19, 13:31 
> К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера
> OCR - весьма слабое место.

Применял с предобработкой Scan Tailor - результат был лучше продуктов ABBYY
"Недостаток" - отсутствие распознавание таблиц (хотя были зачатки) и макета страницы, но это не является задачей движка распознавания самого текста ;)
Графические надстройки (типа YAGF) как-то пытаются выполнять подобные ф-ции...

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Аноним (13), 12-Июл-19, 14:11 
> поддерживающей распознавание символов UTF-8

Смайлики что-ли?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от mandala (ok), 12-Июл-19, 17:30 
Emoji, еретик! Еще "колобки" бы сказал...
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

43. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от konst555 (?), 13-Июл-19, 00:14 
мне тоже резануло слух.
Я даже шутку придумал: пока не научится распозновать символы koi8-r - ну ее на фиг.
С другой стороны - все правильно сказано.
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

44. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от konst555 (?), 13-Июл-19, 00:15 
хотя лучше бы написали: символов, поддерживаемых UTF8
Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

73. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Фноним (?), 17-Июл-19, 00:19 
Конкретных пяти символов же:
U,T,F,дефис и восемь
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 4.1"  –5 +/
Сообщение от Сигизмунд (?), 12-Июл-19, 14:34 
Я почему то думал что Tesseract это шутер:
http://tesseract.gg/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

37. "Релиз системы распознавания текста Tesseract 4.1"  +3 +/
Сообщение от Аноним (37), 12-Июл-19, 19:58 
Сейчас придет школота и объяснит тебе, что тессеракт - это один из камней бесконечности, содержащий одну из шести сингулярностей, предшествовавших вселенной.
Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

74. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от www2 (??), 19-Июл-19, 22:17 
Тессеракт - это гиперкуб из четырёхмерного пространства, аналог двумерного квадрата и трёхмерного куба. Его "гранями" являются трёхмерные кубы.
Ответить | Правка | ^ к родителю #37 | Наверх | Cообщить модератору

59. "Релиз системы распознавания текста Tesseract 4.1"  +8 +/
Сообщение от Led (ok), 13-Июл-19, 19:28 
> Я ...думал

Шлёма, не звезди.

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от qaqa (?), 12-Июл-19, 14:44 
Никто не скажет, опенсорснутый Cuneiform так ни во что юзабельное и не превратился?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

21. "Релиз системы распознавания текста Tesseract 4.1"  +4 +/
Сообщение от Аноним (20), 12-Июл-19, 14:54 
Код волшебным образом превращается во что-то только спустя 10 лет лежания без коммитов, а пока прошло только 8.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

66. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (66), 14-Июл-19, 20:34 
Что ещё предскажет нумерология?
Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Ретроград (?), 12-Июл-19, 17:27 
Это тот, который даже не запускается в Release, только в Debug? Нет, не вылился. И не нужно.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

34. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от Michael Shigorinemail (ok), 12-Июл-19, 19:12 
Он непортабельный, плюс ко всему... куски асма без generic.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

60. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Gannetemail (ok), 14-Июл-19, 00:45 
Он подох по ходу. Был УГ и подох УГом.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

22. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (37), 12-Июл-19, 15:00 
Я правильно понимаю, что они и не пытались выяснить, куда девается производительность при сборке mingw64 с OpenMP и просто решили его отключить?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

41. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (41), 12-Июл-19, 22:04 
OpenMP там, похоже, прикручен для галочки. К примеру, используемое число потоков захардкожено и его нельзя повысить, только понизить через переменную окружения: https://github.com/tesseract-ocr/tesseract/issues/1600

Судя по беглому поиску по исходникам, OpenMP в tesseract используется для оптимизаци низкоуровневых операций (работа с матрицами, сегментация текста). Как следствие, каждому отдельному потоку достаётся сравнительно мало работы, и вместо прирост производительности на коротких текстах легко получить просадку.

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 4.1"  –9 +/
Сообщение от Адекват (ok), 12-Июл-19, 16:04 
К сожалению, если софт опенсорсный и бесплатный - он будет таким всегда, это как...соперничество двух сил, у платного софта - есть функционал, который был достигнут благодаря трудозатратам разработчиков, и деньги тут являются способом передачи энергии - разработчики затратили свои силы, работали в поте лица, ожидая получить вознаграждение (и получили), пользователи ожидали получить качественный продукт - и получили, но не бесплатно, но если вдуматься - их затраты в виде денег, это альтернатива затратам в виде ручной работы, в данном случае ручного набирания текста на клавиатуре, а в случае если у пользователя сотня листов, то работа может быть существенной, и разовая плата за лицензию может быть существенно ниже, чем оплата одного или нескольких сотрудников, которые будут выполнять работу по перепечатыванию текста с бумаги в компьютер. Вот и получается выгода всем - пользователи платят деньги (и в долгосрочной перспективе экономят), получая софт, который работает за них, а разработчики получают эти деньги за свои труды. Все в профите.
А что ждет бесплатный опенсорсный софт в этом цикле ? Разработчики не получают деньги и не готовы работать полный рабочий день, пользователи не получают тот функционал, что есть в проприетарном софте, и соответственно не считают нужным его оплачивать, нет денег - нет переноса энергии. Отсюда можно сделать вывод, что развитие бесплатных проектов будет или минимальным или его не будет вовсе, а может и отрицательный прогресс будет - ПО будет становиться только хуже.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 4.1"  +2 +/
Сообщение от Аноним (26), 12-Июл-19, 16:27 
Мы тебя услышали! Давай, подскажи *платный* (за деньги!) модуль (чтобы интегрировать в серерную систему) распознавания *под линукс*.

Подсказка: у Abbyy такого нет, не работают они с линуксом, даже за деньги.

ЗЫ. информация давности примерно год, вдруг что-то и поменялось?

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 4.1"  +3 +/
Сообщение от Ретроград (?), 12-Июл-19, 17:30 
Норкоман чтоле? Всю жизнь у них был Finereader Engine под линуксы:

https://www.abbyy.com/en-eu/support/frengine/11linux/info/sr/

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

35. "Релиз системы распознавания текста Tesseract 4.1"  –3 +/
Сообщение от Michael Shigorinemail (ok), 12-Июл-19, 19:13 
Ну далеко не всю жизнь, но достаточно давно, чтоб удивиться тому, почему сами-то встали на полдороги.
Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

31. "Релиз системы распознавания текста Tesseract 4.1"  +2 +/
Сообщение от mandms (?), 12-Июл-19, 17:49 
И нет и да.
Нет, потому, что проект, приобретя пользователей (кинетическую энергию, в ваших терминах) - то есть раскрутив свой маховик (разов/часов использования, количества пользоватетелей) - привлекает как клиентов бизнес, а как производителя и оказывающего сервис сопровождения корпорацию, одну или больше и продолжает жить на этом. такова тут "передача энергии" в виде денег или "отчужденного труда"

Да, потому, что если проект не раскрутится до многих юзеров и не приобретет многих девелоперов, то поддержки не получит. С сообтветствующим циклом обратной связи которая останавливает или тормозит.
То есть на такой проект кроме естественной силы развития и разгона, порожденного самой идеей и нужности данного софта, действует другая естественная сила торможения.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от kknight (ok), 12-Июл-19, 16:06 
Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я потратил время на создание модели обучения, вручную обводил в Box editor каждую буковку, всё сконвертировал как надо. На результат это сильно не повлияло - как был мусор, так и остался. Не готов пока Тессеракт.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Ретроград (?), 12-Июл-19, 17:32 
С hires сканов он распознает очень даже нормально, пользовал его для оцифровки книжек. Только там надо минимум 600 dpi, а лучше 1200 и выше.
Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

32. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Tita_M (ok), 12-Июл-19, 18:28 
Части распознанного текста уже не вырезает?
Когда-то давно пробовал им распознавать .djvu файлы. Так он "глотал" случайные части текста и выходной файл получался без части текста. Также попадались файлы с флибусты с подобной проблемой - видимо я не один такой.
Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

38. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от forum reader (?), 12-Июл-19, 20:49 
>Части распознанного текста уже не вырезает?

Вырезает мат и неполиткоректтность

>>В движке LSTM добавлена поддержка белых и чёрных списков;

Ответить | Правка | ^ к родителю #32 | Наверх | Cообщить модератору

47. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от Аноним (47), 13-Июл-19, 11:28 
Фу. Не чёрных, а альтернативно белых.
Ответить | Правка | ^ к родителю #38 | Наверх | Cообщить модератору

72. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от none_first (ok), 15-Июл-19, 17:16 
> Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество
> там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я
> потратил время на создание модели обучения, вручную обводил в Box editor
> каждую буковку, всё сконвертировал как надо. На результат это сильно не
> повлияло - как был мусор, так и остался. Не готов пока
> Тессеракт.

поставьте scantailor, у него есть пакетный режим обработки (по настройкам) из CLI (если надо несколько страниц), получите на выходе картинки в 600dpi, далее tesseract. Я получал результат лучше файнридера (в смысле рапознавания текста)
Скантейлор имеет ф-ции выравнивания строк (эксперементальные) - у меня работало без нареканий. Как пример: фотка (с сильными шумами, с искаженной перспективой) с банковскими реквизитами, сделанная телефоном, через пленку, была распознана достойно

Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

39. "Релиз системы распознавания текста Tesseract 4.1"  –1 +/
Сообщение от Аноним (39), 12-Июл-19, 21:59 
Увы, по прежнему альтернативы Finereader не видно. Тут дело скорей даже не в самом движке сколько в предобученных моделях. В ABBY использовали нейросети достаточно давно плюс сотрудничество с кучей корпоративных клиентов (в т.ч. библиотек), как итог у них значительно лучше предобученные модели. По прежнему гоняю виртуалку когда надо что-то из сканов перегнать в цифру.  
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

40. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Аноним (39), 12-Июл-19, 22:03 
Плюс GUI для Tesseract-а по сравнению с продуктом ABBY мусор. И это еще одна беда. Более чем уверен что Tesseract где-то продается вместе нормальными моделями распознавания и GUI.  
Ответить | Правка | ^ к родителю #39 | Наверх | Cообщить модератору

54. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 16:26 
Это посмотрите https://help.ubuntu.ru/wiki/yagf
Ответить | Правка | ^ к родителю #40 | Наверх | Cообщить модератору

55. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 16:28 
YAGF is a graphical front-end for cuneiform and tesseract OCR tools
https://sourceforge.net/projects/yagf-ocr/
Ответить | Правка | ^ к родителю #40 | Наверх | Cообщить модератору

42. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от alexrayneemail (?), 12-Июл-19, 23:14 
recognita+ приятная штучка. только падает на вин7. надо из виртуалки видимо пускать
Ответить | Правка | ^ к родителю #39 | Наверх | Cообщить модератору

45. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 10:35 
Поддержка только Windows не позволяет серьезно рассматривать данный продукт несмотря на повсеместное распространение. Ведь мы же серьезные люди. А так вполне удачен gimageReader. Правда, форматирование не сохраняет.
p.s. Есть сомнение относительно необходимости OCR как класса ПО. По крайней мере некоторые уже имеют проблемы от его использования. Я имею в виду диссертантов и обвинение в плагиате. Поэтому советую, при острой необходимости заимствования, либо точное цитирование (объем которого ничтожен) либо прочитать источник, закрыть его и изложить своими словами.
Ответить | Правка | ^ к родителю #39 | Наверх | Cообщить модератору

46. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 10:37 
Добавление. Не существует программ для распознавания формул. В нашей области это проблема, требующая времени для решения. А распознавание текста - разве что для гуманитариев.
Ответить | Правка | ^ к родителю #45 | Наверх | Cообщить модератору

48. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (47), 13-Июл-19, 11:28 
Finereader есть под линукс.
Ответить | Правка | ^ к родителю #45 | Наверх | Cообщить модератору

49. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от iPony129412 (?), 13-Июл-19, 11:48 
Только серверный
Ответить | Правка | ^ к родителю #48 | Наверх | Cообщить модератору

52. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 15:07 
Это? "ABBYY FineReader Engine is the Software Development Kit (SDK) to integrate multilingual text recognition and conversion technologies into external applications".

Пользовательских (числе серверных) продуктов нет для систем, отличных от Windows.

Ответить | Правка | ^ к родителю #49 | Наверх | Cообщить модератору

61. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от iPony129412 (?), 14-Июл-19, 07:37 
Ну типа того. Есть разве что ещё вебный сервис от них для обычных пользователей.
Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

53. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (54), 13-Июл-19, 15:07 
Ссылку можно?
Ответить | Правка | ^ к родителю #48 | Наверх | Cообщить модератору

64. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Дегенератор (ok), 14-Июл-19, 16:34 
Кто-то должен страдать )))
Ответить | Правка | ^ к родителю #39 | Наверх | Cообщить модератору

50. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Анонимemail (50), 13-Июл-19, 11:55 
Текст из капчи осилит?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

56. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (56), 13-Июл-19, 17:06 
сам уже не справляешься?
Ответить | Правка | ^ к родителю #50 | Наверх | Cообщить модератору

57. "Релиз системы распознавания текста Tesseract 4.1"  +1 +/
Сообщение от Анонимemail (50), 13-Июл-19, 17:09 
Я не робот!
Ответить | Правка | ^ к родителю #56 | Наверх | Cообщить модератору

58. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (56), 13-Июл-19, 17:36 
угу, продолжайте разгадывать, осталось еще четыре стадии
Ответить | Правка | ^ к родителю #57 | Наверх | Cообщить модератору

62. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от iPony129412 (?), 14-Июл-19, 07:38 
Ты отстал от жизни.
Теперь человеком, является только тот, кто распознаёт автобусы 🚌, переходы, гидранты...
У меня плохо получается, но я учусь.
Ответить | Правка | ^ к родителю #57 | Наверх | Cообщить модератору

65. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (65), 14-Июл-19, 19:09 
По0моему нужно быть роботом что бы угадать некоторые витрины с автобусами
Ответить | Правка | ^ к родителю #62 | Наверх | Cообщить модератору

67. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Аноним (66), 14-Июл-19, 20:36 
А что мешает запилить на основе нейросетей нормальный распознавальщик? Пусть он будет в 10 раз тормознее на CPU, тут главное - качество.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

69. "Релиз системы распознавания текста Tesseract 4.1"  +/
Сообщение от Ordu (ok), 15-Июл-19, 10:54 
Из новости:

> Предлагается два движка распознавания: [...] и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности.

Ответить | Правка | ^ к родителю #67 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру