URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 127948
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.2"
Отправлено opennews , 07-Июл-22 17:06

Опубликован релиз системы оптического распознавания текста Tesseract 5.2, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0...
Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57469

Содержание

Релиз системы распознавания текста Tesseract 5.2,Аноним, 17:06 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Аноним12345, 17:12 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Shevchuk, 17:17 , 07-Июл-22
  - Релиз системы распознавания текста Tesseract 5.2,Grishow.Wise, 18:42 , 07-Июл-22
    - Релиз системы распознавания текста Tesseract 5.2,Аноним, 20:09 , 07-Июл-22
Релиз системы распознавания текста Tesseract 5.2,Аноним, 17:10 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Аноним12345, 17:13 , 07-Июл-22
Релиз системы распознавания текста Tesseract 5.2,Жироватт, 17:17 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Аноним12345, 17:35 , 07-Июл-22
  - Релиз системы распознавания текста Tesseract 5.2,tty0, 18:52 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Аноним, 04:36 , 08-Июл-22
  - Релиз системы распознавания текста Tesseract 5.2,Жироватт, 08:38 , 08-Июл-22
    - Релиз системы распознавания текста Tesseract 5.2,Попандопала, 10:17 , 08-Июл-22
    - Актуально только для архивов,Johny, 08:29 , 12-Июл-22
Релиз системы распознавания текста Tesseract 5.2,кубрик, 22:01 , 07-Июл-22
Релиз системы распознавания текста Tesseract 5.2,Геймер, 22:48 , 07-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,Аноним, 10:55 , 08-Июл-22
  - Релиз системы распознавания текста Tesseract 5.2,анон_тот самый, 01:04 , 09-Июл-22
    - Релиз системы распознавания текста Tesseract 5.2,Аноним, 02:52 , 09-Июл-22
    - Релиз системы распознавания текста Tesseract 5.2,Аноним, 16:45 , 09-Июл-22
      - Релиз системы распознавания текста Tesseract 5.2,анон_тот самый, 21:00 , 13-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,KhabMan, 14:00 , 08-Июл-22
- Релиз системы распознавания текста Tesseract 5.2,InuYasha, 10:25 , 09-Июл-22
Релиз системы распознавания текста Tesseract 5.2,Аноним, 14:26 , 09-Июл-22
Релиз системы распознавания текста Tesseract 5.2,mandms, 11:26 , 13-Июл-22

Сообщения в этом обсуждении

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 07-Июл-22 17:06

Оно всё также ужасно распознаёт (вернее, лишь пытается распознать) текст, где есть рюсске буквы?

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним12345 , 07-Июл-22 17:12

Да уж ...

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Shevchuk , 07-Июл-22 17:17

https://i.imgur.com/hv7kmO2.png

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Grishow.Wise , 07-Июл-22 18:42

вообще не пример. экранный текст 99.9% софта даже самого корявого прокатывает на 100%. вот лучше фото чека и что распознается в студию.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 07-Июл-22 20:09

Из моего опыта работы с Tesseract могу сказать, что слова распознаются хорошо, но вот когда на входе пара-тройка букв/цифр и более ничего, то результат очень печальный. Конечно же я при этом включал режим посимвольного распознавания. Текст с экрана. Использовал готовые модели, сам не тренировал.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 07-Июл-22 17:10

Гугл последний раз раздавал модели (хоть какие-нибудь) 5 лет назад и не совсем понятно как можно натренировать свои собственные и сколько на это ресурсов потребуется (скорее всего много, недоступно много). Толку то с обновлений, если оно не распознаёт?

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним12345 , 07-Июл-22 17:13

В тессеракте как бы есть модель обучения, но она очень далека от обычных вычислительных мощностей

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Жироватт , 07-Июл-22 17:17

Оно почерк моего терапевта распознает?

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним12345 , 07-Июл-22 17:35

Оно даже чек из супермаркета не может распознать

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено tty0 , 07-Июл-22 18:52

Я проверю, но мне так кажется, что проблема только в настройках контрастности (раньше так было). Не забуду - попробую.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 08-Июл-22 04:36

Нет. Это как исходник на Perl. Сам автор не всегда разобрать может.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Жироватт , 08-Июл-22 08:38

Жаль. Но вот приложение переводящее с врачебного в нормальный печатный было бы просто бомба

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Попандопала , 08-Июл-22 10:17

Иногда лучше многого не знать. D

"Актуально только для архивов"
Отправлено Johny , 12-Июл-22 08:29

В емиас все в utf8

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено кубрик , 07-Июл-22 22:01

Годная штука. И нормальные интерфейсы к ней есть.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Геймер , 07-Июл-22 22:48

"релиз системы оптического распознавания текста, поддерживающей распознавание символов UTF-8"
Это как? Может быть WTF?

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 08-Июл-22 10:55

рукописный текст на бумаге в UTF-8

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено анон_тот самый , 09-Июл-22 01:04

(00)/........ мыслительный процесс останавливается от ваших заявлений. хотя меня больше беспокоит возможность увидеть именно utf-8 на бумаге. правда очень хочу. это было бы чудо)))) в компе понятно, но на бумаге как?))) но по теме все эти OCR жутко лаговые.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 09-Июл-22 02:52

Оптимизация плохо зделана

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 09-Июл-22 16:45

Ну как, как — примерно вот так:
РЅРѕ РЅР° Р±СѓРјР°РіРµ РєР°Рє

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено анон_тот самый , 13-Июл-22 21:00

он что сказал? распечатал ютф-8 на бумаге. на бумаге в принципе ничего кроме чернильных точек быть не может. вы это как то разберитесь. представление шрифта в операционной системе и на бумаге. не вводите народ в заблуждение. а его отображение в системе и при просмотре в проге без правильной кодировки это другое. на бумаге нет кодировок как таковых. а в принтерах сплошной постскрипт.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено KhabMan , 08-Июл-22 14:00

Осталось изобрести АЦП, оцифровывающий цифровой звук))

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено InuYasha , 09-Июл-22 10:25

Скорее просто несколько языков отдельно + смайлы и всякая экзотическая пунктуация.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено Аноним , 09-Июл-22 14:26

Эта штука может распознать только текст со скриншота, да и то не всегда.

"Релиз системы распознавания текста Tesseract 5.2"
Отправлено mandms , 13-Июл-22 11:26

> поддерживающей распознавание(...)текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский
На самом деле начиная с версии 4 распознаются тексты на языках всех республик бывшего СССР кроме туркменского.
(а всего на 123+ языках)
То есть, включая: армянский, грузинский, молдавский, все 3 прибалтийских, 4 среднеазиатских кроме туркменского, азербайджанский. [1]
[1] https://github.com/tesseract-ocr/tesseract/blob/main/doc/tes...
hye (Armenian), kat (Georgian), kat_old (Georgian - Old),
ron (Romanian; Moldavian; Moldovan),
lav (Latvian), lit (Lithuanian), est (Estonian),
kaz (Kazakh), uzb (Uzbek), uzb_cyrl (Uzbek - Cyrilic),
kir (Kirghiz; Kyrgyz), tgk (Tajik),
aze (Azerbaijani), aze_cyrl (Azerbaijani - Cyrilic),
Только про туркменский не написано что поддерживается (его 3-буквенный код в ISO 639-2 - tuk)