URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 115708
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 4.0"

Отправлено opennews , 01-Ноя-18 00:15 
Опубликован (https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg... релиз системы оптического распознавания текста Tesseract 4.0 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавания документов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензий Apache 2.0.


Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes... в Tesseract 4.0:


-  Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM (https://ru.wikipedia.org/wiki/%D0%94%D0%... оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Старый движок, распознающий текст на уровне шаблонов отдельных символов, продолжает поставляться в качестве опции. Альтернативный движок Cube удалён из кодовой базы;

-  Добавлены сопутствующие новому OCR-движку утилиты для тренировки модели машинного обучения. Готовые натренированные модели опубликованы для 123 языков (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#u...
-  Для нового движка распознавания подготовлены модули для оптимизации производительности при помощи OpenMP и SIMD-инструкций AVX2, AVX  или SSE4.1;

-  Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование (https://semver.org/)", подразумевающей использование нотации X.Y.Z (вместо ранее используемой W.X.Y.Z), в которой X меняется при внесении изменений, нарушающих обратную совместимость, Y меняется при расширении функциональности и Z при исправлении ошибок.

-  Обновлена сборочная система. Для сборки теперь требуется компилятор с поддержкой C++ 11. Добавлены unit-тесты.  Добавлен режим сборки без старого движка распознавания. Выполнена реогранизация дерева исходных текстов. Проведена чистка устаревшего кода;
-  Улучшена обработка многостраничных TIFF-изображений;
-  Улучшен экспорт в PDF.


URL: https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg...
Новость: https://www.opennet.dev/opennews/art.shtml?num=49534


Содержание

Сообщения в этом обсуждении
"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 02:32 
Версия для Windows есть?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 03:03 
Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki
Мог бы и сам скомпилить, или не виндавз-вэй?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 09:58 
Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено h31 , 01-Ноя-18 15:27 
Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinXP. У меня подобная ошибка повально встречалась на WinXP SP2, потому что в какой-то момент эту версию задепрекейтили в компиляторе. Но даже с SP3 сейчас очень много софта не будет запускаться.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 15:53 
> msvcrt.dll

Вангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 21:51 
>Версия 4.0.0.20181030 на Windows XP установилась, но не работает.

Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 02-Ноя-18 08:03 
> Так бывает, когда используешь ОС 17-летней давности.

Да так бывает. Но не совсем согласен с Вами.
Windows XP без сервис паков и обновлений не поддерживала USB - это система как раз 17-летней давности. Но система развивалась и её поддержку прекратили 8 апреля 2014, так-что ей не 17 лет а меньше. Кроме того есть родственные версии Windows XP, которые поддерживаются до сих пор, например Windows Embedded.
Windows XP попросту уничтожают.
Я не отрицаю, что в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного, есть встроенная поддержка прозрачных тем.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено lg , 02-Ноя-18 08:42 
>>есть встроенная поддержка прозрачных тем.

уже нет =)


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено iPony , 02-Ноя-18 11:20 
> Windows XP без сервис паков и обновлений не поддерживала USB

Обман. Не поддерживала USB 2.0. А USB вполне.
А так всё равно- 17 летняя ОС по архитектуре.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено neit95 , 04-Ноя-18 18:48 
По архитектуре она Windows NT, как и более современные Windows'ы.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 02-Ноя-18 11:38 
>Windows XP попросту уничтожают

Да-да, это всё заговор!

>в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного

Улучшение безопасности, более-менее адекватный сэндбоксинг приложений, вынос многих драйверов в юзерспейс. Ничего полезного, да.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено asdasd , 03-Ноя-18 20:37 
А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено scorry , 16-Ноя-18 12:46 
Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6.2 или 6.22 — не упомню. Резво попросил записать ему бут-дискетку. Потом жаловался, мол, гадость эта ваша новая дос, не хватает на дискете места под это, под то и во-о-н под то. А 3.3 — в самый раз, и ещё игрушка-бильярд помещается. Или покер. Снова жеж не упомню. Дискеты-то не мои были.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 02-Ноя-18 13:47 
USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 02:33 
К новости не хватает скрееншотов.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Онаним , 01-Ноя-18 12:52 
Это чисто движок вроде, либа, интерфейс сделай сам.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 02:43 
> Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV.

Недостаточно поддерживаемых форматов, ещё нужно хотя-бы *.odt,, *.rtf *.doc...


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено mikhailnov , 01-Ноя-18 08:10 
От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 16:31 
А чем плох hOCR?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 02:58 
Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 05:25 
https://i.imgur.com/uxab5b7.png

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 09:40 
Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Atterratio , 01-Ноя-18 11:32 
Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено h31 , 01-Ноя-18 15:30 
Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено lg , 02-Ноя-18 08:44 
с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено fske , 01-Ноя-18 11:52 
это у вас меню в заголовке окна?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 14:59 
Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено kknight , 01-Ноя-18 12:13 
у gImageReader есть нормальный Qt-интерфейс, вообще-то.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 14:52 
О, спасибо, не знал. В репах Debian и Ubuntu только GTK*, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : )

* Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 14:53 
А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 15:17 
Вообще да (и это было включено, см. кнопку "Распознать всё rus + eng" в заголовке окна), но в данном случае отработало оно на английских словах слабенько. Повторюсь, что запускаю я его крайне редко, и здесь никаких вообще приготовлений или настроек не делал: просто вставил скрин и распознал. Наверное, если её покормить данными, как выше пишет Atterratio, ситуация может улучшиться, но из коробки вот так.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 02-Ноя-18 16:54 
FineReader 4 (с другими не работал почти) умел объединять языки в любых комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не риторический, серьёзно хочу понять, какие есть принципиальные отличия.)

Раз уж речь об ФР, умеет ли Тессеракт руководствоваться при распознавании системами проверки орфографии и грамматики? То есть из нескольких вариантов выбирать слово, проходящее проверку Hunspell и LanguageTool?


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Ю.Т. , 02-Ноя-18 22:13 
> FineReader 4 (с другими не работал почти) умел объединять языки в любых
> комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не
> риторический, серьёзно хочу понять, какие есть принципиальные отличия.)

Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.

А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено GenuZ , 15-Ноя-18 15:56 
Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст.
И хрен бы с ним, что получается плохо - он делает это в виде "надписей" (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование.
Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д.

Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Led , 03-Ноя-18 00:40 
> смесь русского и английского

Это как - английский со скрепами?


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 07-Ноя-18 13:37 
Это как на скриншоте выше по дереву: https://www.opennet.dev/openforum/vsluhforumID3/115708.html#11

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Ю.Т. , 01-Ноя-18 07:27 
Может, и не только.
В целом серия 3 была ещё так себе, но серия 4 в бетах и предвыпусках, т.е. минимум с 2016, это вполне достойный инструмент.
Из минусов: может сбиваться на обработке нетривиальной вёрстки полосы (две колонки текста, таблицы). Обучение (в частности новым буквам) документировано очень запутанно. Неудобный трекер (но сейчас-то гуглоплюс придётся сменить?..).

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено iPony , 01-Ноя-18 04:16 
А гуля то нет.
Был YAGF, но Qt4

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 05:26 
gImageReader

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 06:49 
gImageReader не работает на macOS

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено ryoken , 01-Ноя-18 06:58 
МакОС ненужен

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Qwerty , 01-Ноя-18 09:25 
Вопрос не в ненужности, а в том, кросплатформенный ли софт, который называют кросплатформенным?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Клыкастый , 01-Ноя-18 12:55 
собери/напиши - будет. пока никому не нужно, получается

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено lg , 02-Ноя-18 08:48 
кросплатформенный - это тот который работает на каких-то двух платформах, например на винде и на андроид =)

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 07:52 
https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-Б─⌠-3rdParty

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено mikhailnov , 01-Ноя-18 08:09 
Gimagereader-Qt

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено ryoken , 01-Ноя-18 06:59 
Распознаётся ли набранное левой задней ногой после пьянки?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 09:31 
Да, но распознан будет на основе нейронных сетей построенных на куриных мозгах и ответ будет написан "как курица лапой!" ;)

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено meequz , 01-Ноя-18 10:31 
Зачем распознавать набранное?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 10:58 
Ох, ещё бы про член вспомнил.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 10:07 
>Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z

Ну наконец то хоть в одном проекте адекваты.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 10:56 
И чё? Как-будто версии, например, ядра не в формате X.Y.Z : 4.14.78, 4.18.16 Или GCC : 7.3.0


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 10:13 
Это правильная команда для сохранения в текстовый файл?
tesseract phototest.tif phototest txt

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Клыкастый , 01-Ноя-18 12:58 
уже бы прочёл ман, выхлоп tesseract --help, запустил и точно бы знал.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 14:55 
Что с распознаванием таблиц? Не собираются этим заниматься?

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Shevchuk , 01-Ноя-18 15:34 
Есть Tabula (открытое ПО для извлечения данных из таблиц), они хотели бы, но сейчас ресурсов на это нет: https://github.com/tabulapdf/tabula/issues/409 — но там в обсуждении есть другие заинтересованнные в этом функционале лица и компании, в том числе готове финансировать разработку. Со стороны Tesseract тоже нужна поддержка: https://github.com/tesseract-ocr/tesseract/issues/1714

Ещё есть вот такое: https://github.com/UW-Deepdive-Infrastructure/table-extract


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено zeronet , 01-Ноя-18 18:53 
Все таки не забросили проект ... Маст хев. Еще в 2000-х тысячных пытался пользоваться... Но с русским тогда не особо дружили разработчики

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Кккк , 02-Ноя-18 20:18 
С русским из коробки и сейчас не очень, чтобы получить хоть какой-Нить приемлемый результат в реальных документах нужно много поучить, да и резальщик не очень.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено lol , 01-Ноя-18 19:53 
Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Аноним , 01-Ноя-18 20:03 
В прошлой версии был кошмар.

"Релиз системы распознавания текста Tesseract 4.0"
Отправлено Ю.Т. , 01-Ноя-18 21:57 
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые
> и вёрстка без изысков.

Серия 4 неплохо, справляется с различием "длинного с" и "f", хотя некоторые сканы приходится масштабировать и подкручивать гамму. Нормально проходит размер растра примерно 2500 на 3600 точек на лист А4.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено t_cirkla , 19-Дек-18 00:51 
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.

Как? Всё, что не FineReader, до сих пор не умеет сохранять форматирование отсканированного текста.


"Релиз системы распознавания текста Tesseract 4.0"
Отправлено werter , 03-Ноя-18 18:45 
OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
https://github.com/jbarlow83/OCRmyPDF