Опубликован (https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg... релиз системы оптического распознавания текста Tesseract 4.0 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавания документов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензий Apache 2.0.
Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes... в Tesseract 4.0:
- Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM (https://ru.wikipedia.org/wiki/%D0%94%D0%... оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Старый движок, распознающий текст на уровне шаблонов отдельных символов, продолжает поставляться в качестве опции. Альтернативный движок Cube удалён из кодовой базы;- Добавлены сопутствующие новому OCR-движку утилиты для тренировки модели машинного обучения. Готовые натренированные модели опубликованы для 123 языков (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#u...
- Для нового движка распознавания подготовлены модули для оптимизации производительности при помощи OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1;- Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование (https://semver.org/)", подразумевающей использование нотации X.Y.Z (вместо ранее используемой W.X.Y.Z), в которой X меняется при внесении изменений, нарушающих обратную совместимость, Y меняется при расширении функциональности и Z при исправлении ошибок.
- Обновлена сборочная система. Для сборки теперь требуется компилятор с поддержкой C++ 11. Добавлены unit-тесты. Добавлен режим сборки без старого движка распознавания. Выполнена реогранизация дерева исходных текстов. Проведена чистка устаревшего кода;
- Улучшена обработка многостраничных TIFF-изображений;
- Улучшен экспорт в PDF.
URL: https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg...
Новость: https://www.opennet.dev/opennews/art.shtml?num=49534
Версия для Windows есть?
Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki
Мог бы и сам скомпилить, или не виндавз-вэй?
Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.
Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinXP. У меня подобная ошибка повально встречалась на WinXP SP2, потому что в какой-то момент эту версию задепрекейтили в компиляторе. Но даже с SP3 сейчас очень много софта не будет запускаться.
> msvcrt.dllВангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.
>Версия 4.0.0.20181030 на Windows XP установилась, но не работает.Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.
> Так бывает, когда используешь ОС 17-летней давности.Да так бывает. Но не совсем согласен с Вами.
Windows XP без сервис паков и обновлений не поддерживала USB - это система как раз 17-летней давности. Но система развивалась и её поддержку прекратили 8 апреля 2014, так-что ей не 17 лет а меньше. Кроме того есть родственные версии Windows XP, которые поддерживаются до сих пор, например Windows Embedded.
Windows XP попросту уничтожают.
Я не отрицаю, что в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного, есть встроенная поддержка прозрачных тем.
>>есть встроенная поддержка прозрачных тем.уже нет =)
> Windows XP без сервис паков и обновлений не поддерживала USBОбман. Не поддерживала USB 2.0. А USB вполне.
А так всё равно- 17 летняя ОС по архитектуре.
По архитектуре она Windows NT, как и более современные Windows'ы.
>Windows XP попросту уничтожаютДа-да, это всё заговор!
>в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного
Улучшение безопасности, более-менее адекватный сэндбоксинг приложений, вынос многих драйверов в юзерспейс. Ничего полезного, да.
А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.
Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6.2 или 6.22 — не упомню. Резво попросил записать ему бут-дискетку. Потом жаловался, мол, гадость эта ваша новая дос, не хватает на дискете места под это, под то и во-о-н под то. А 3.3 — в самый раз, и ещё игрушка-бильярд помещается. Или покер. Снова жеж не упомню. Дискеты-то не мои были.
USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.
К новости не хватает скрееншотов.
Это чисто движок вроде, либа, интерфейс сделай сам.
> Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV.Недостаточно поддерживаемых форматов, ещё нужно хотя-бы *.odt,, *.rtf *.doc...
От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.
А чем плох hOCR?
Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?
https://i.imgur.com/uxab5b7.png
Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.
Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.
Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.
с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.
это у вас меню в заголовке окна?
Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.
у gImageReader есть нормальный Qt-интерфейс, вообще-то.
О, спасибо, не знал. В репах Debian и Ubuntu только GTK*, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : )* Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414
А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?
Вообще да (и это было включено, см. кнопку "Распознать всё rus + eng" в заголовке окна), но в данном случае отработало оно на английских словах слабенько. Повторюсь, что запускаю я его крайне редко, и здесь никаких вообще приготовлений или настроек не делал: просто вставил скрин и распознал. Наверное, если её покормить данными, как выше пишет Atterratio, ситуация может улучшиться, но из коробки вот так.
FineReader 4 (с другими не работал почти) умел объединять языки в любых комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не риторический, серьёзно хочу понять, какие есть принципиальные отличия.)Раз уж речь об ФР, умеет ли Тессеракт руководствоваться при распознавании системами проверки орфографии и грамматики? То есть из нескольких вариантов выбирать слово, проходящее проверку Hunspell и LanguageTool?
> FineReader 4 (с другими не работал почти) умел объединять языки в любых
> комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не
> риторический, серьёзно хочу понять, какие есть принципиальные отличия.)Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.
А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.
Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст.
И хрен бы с ним, что получается плохо - он делает это в виде "надписей" (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование.
Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д.Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.
> смесь русского и английскогоЭто как - английский со скрепами?
Это как на скриншоте выше по дереву: https://www.opennet.dev/openforum/vsluhforumID3/115708.html#11
Может, и не только.
В целом серия 3 была ещё так себе, но серия 4 в бетах и предвыпусках, т.е. минимум с 2016, это вполне достойный инструмент.
Из минусов: может сбиваться на обработке нетривиальной вёрстки полосы (две колонки текста, таблицы). Обучение (в частности новым буквам) документировано очень запутанно. Неудобный трекер (но сейчас-то гуглоплюс придётся сменить?..).
А гуля то нет.
Был YAGF, но Qt4
gImageReader
gImageReader не работает на macOS
МакОС ненужен
Вопрос не в ненужности, а в том, кросплатформенный ли софт, который называют кросплатформенным?
собери/напиши - будет. пока никому не нужно, получается
кросплатформенный - это тот который работает на каких-то двух платформах, например на винде и на андроид =)
https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-Б─⌠-3rdParty
Gimagereader-Qt
Распознаётся ли набранное левой задней ногой после пьянки?
Да, но распознан будет на основе нейронных сетей построенных на куриных мозгах и ответ будет написан "как курица лапой!" ;)
Зачем распознавать набранное?
Ох, ещё бы про член вспомнил.
>Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.ZНу наконец то хоть в одном проекте адекваты.
И чё? Как-будто версии, например, ядра не в формате X.Y.Z : 4.14.78, 4.18.16 Или GCC : 7.3.0
Это правильная команда для сохранения в текстовый файл?
tesseract phototest.tif phototest txt
уже бы прочёл ман, выхлоп tesseract --help, запустил и точно бы знал.
Что с распознаванием таблиц? Не собираются этим заниматься?
Есть Tabula (открытое ПО для извлечения данных из таблиц), они хотели бы, но сейчас ресурсов на это нет: https://github.com/tabulapdf/tabula/issues/409 — но там в обсуждении есть другие заинтересованнные в этом функционале лица и компании, в том числе готове финансировать разработку. Со стороны Tesseract тоже нужна поддержка: https://github.com/tesseract-ocr/tesseract/issues/1714Ещё есть вот такое: https://github.com/UW-Deepdive-Infrastructure/table-extract
Все таки не забросили проект ... Маст хев. Еще в 2000-х тысячных пытался пользоваться... Но с русским тогда не особо дружили разработчики
С русским из коробки и сейчас не очень, чтобы получить хоть какой-Нить приемлемый результат в реальных документах нужно много поучить, да и резальщик не очень.
Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.
В прошлой версии был кошмар.
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые
> и вёрстка без изысков.Серия 4 неплохо, справляется с различием "длинного с" и "f", хотя некоторые сканы приходится масштабировать и подкручивать гамму. Нормально проходит размер растра примерно 2500 на 3600 точек на лист А4.
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.Как? Всё, что не FineReader, до сих пор не умеет сохранять форматирование отсканированного текста.
OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
https://github.com/jbarlow83/OCRmyPDF