The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз системы распознавания текста Tesseract 5.2"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от opennews (??), 07-Июл-22, 17:06 
Опубликован релиз системы оптического распознавания текста Tesseract 5.2, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57469

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. Скрыто модератором  –9 +/
Сообщение от Аноним (-), 07-Июл-22, 17:06 
Ответить | Правка | Наверх | Cообщить модератору

3. Скрыто модератором  +/
Сообщение от Аноним12345 (?), 07-Июл-22, 17:12 
Ответить | Правка | Наверх | Cообщить модератору

6. Скрыто модератором  +3 +/
Сообщение от Shevchuk (ok), 07-Июл-22, 17:17 
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

9. Скрыто модератором  +1 +/
Сообщение от Grishow.Wiseemail (?), 07-Июл-22, 18:42 
Ответить | Правка | Наверх | Cообщить модератору

11. Скрыто модератором  +/
Сообщение от Аноним (11), 07-Июл-22, 20:09 
Ответить | Правка | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 5.2"  +1 +/
Сообщение от Аноним (2), 07-Июл-22, 17:10 
Гугл последний раз раздавал модели (хоть какие-нибудь) 5 лет назад и не совсем понятно как можно натренировать свои собственные и сколько на это ресурсов потребуется (скорее всего много, недоступно много). Толку то с обновлений, если оно не распознаёт?
Ответить | Правка | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.2"  –1 +/
Сообщение от Аноним12345 (?), 07-Июл-22, 17:13 
В тессеракте как бы есть модель обучения, но она очень далека от обычных вычислительных мощностей
Ответить | Правка | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 5.2"  +6 +/
Сообщение от Жироватт (ok), 07-Июл-22, 17:17 
Оно почерк моего терапевта распознает?
Ответить | Правка | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 5.2"  +4 +/
Сообщение от Аноним12345 (?), 07-Июл-22, 17:35 
Оно даже чек из супермаркета не может распознать
Ответить | Правка | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 5.2"  +1 +/
Сообщение от tty0 (?), 07-Июл-22, 18:52 
Я проверю, но мне так кажется, что проблема только в настройках контрастности (раньше так было). Не забуду - попробую.
Ответить | Правка | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.2"  +6 +/
Сообщение от Аноним (16), 08-Июл-22, 04:36 
Нет. Это как исходник на Perl. Сам автор не всегда разобрать может.
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

17. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от Жироватт (ok), 08-Июл-22, 08:38 
Жаль. Но вот приложение переводящее с врачебного в нормальный печатный было бы просто бомба
Ответить | Правка | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 5.2"  +2 +/
Сообщение от Попандопала (?), 08-Июл-22, 10:17 
Иногда лучше многого не знать. D
Ответить | Правка | Наверх | Cообщить модератору

26. "Актуально только для архивов"  +/
Сообщение от Johny (?), 12-Июл-22, 08:29 
В емиас все в utf8
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от кубрик (?), 07-Июл-22, 22:01 
Годная штука. И нормальные интерфейсы к ней есть.
Ответить | Правка | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.2"  +3 +/
Сообщение от Геймер (?), 07-Июл-22, 22:48 
"релиз системы оптического распознавания текста, поддерживающей распознавание символов UTF-8"

Это как? Может быть WTF?

Ответить | Правка | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 5.2"  +4 +/
Сообщение от Аноним (19), 08-Июл-22, 10:55 
рукописный текст на бумаге в UTF-8
Ответить | Правка | Наверх | Cообщить модератору

21. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от анон_тот самый (?), 09-Июл-22, 01:04 
(00)/........ мыслительный процесс останавливается от ваших заявлений. хотя меня больше беспокоит возможность увидеть именно utf-8 на бумаге. правда очень хочу. это было бы чудо)))) в компе понятно, но на бумаге как?))) но по теме все эти OCR жутко лаговые.
Ответить | Правка | Наверх | Cообщить модератору

22. "Релиз системы распознавания текста Tesseract 5.2"  –1 +/
Сообщение от Аноним (22), 09-Июл-22, 02:52 
Оптимизация плохо зделана
Ответить | Правка | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от Аноним (25), 09-Июл-22, 16:45 
Ну как, как — примерно вот так:
но на бумаге как
Ответить | Правка | К родителю #21 | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от анон_тот самый (?), 13-Июл-22, 21:00 
он что сказал? распечатал ютф-8 на бумаге. на бумаге в принципе ничего кроме чернильных точек быть не может. вы это как то разберитесь. представление шрифта в операционной системе и на бумаге. не вводите народ в заблуждение. а его отображение в системе и при просмотре в проге без правильной кодировки это другое. на бумаге нет кодировок как таковых. а в принтерах сплошной постскрипт.
Ответить | Правка | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от KhabManemail (ok), 08-Июл-22, 14:00 
Осталось изобрести АЦП, оцифровывающий цифровой звук))
Ответить | Правка | К родителю #13 | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от InuYasha (??), 09-Июл-22, 10:25 
Скорее просто несколько языков отдельно + смайлы и всякая экзотическая пунктуация.
Ответить | Правка | К родителю #13 | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от Аноним (24), 09-Июл-22, 14:26 
Эта штука может распознать только текст со скриншота, да и то не всегда.
Ответить | Правка | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 5.2"  +/
Сообщение от mandmsemail (ok), 13-Июл-22, 11:26 
> поддерживающей распознавание(...)текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский

На самом деле начиная с версии 4 распознаются тексты на языках всех республик бывшего СССР кроме туркменского.
(а всего на 123+ языках)
То есть, включая: армянский, грузинский, молдавский, все 3 прибалтийских, 4 среднеазиатских кроме туркменского, азербайджанский. [1]

[1] https://github.com/tesseract-ocr/tesseract/blob/main/doc/tes...
hye (Armenian), kat (Georgian), kat_old (Georgian - Old),
ron (Romanian; Moldavian; Moldovan),
lav (Latvian), lit (Lithuanian), est (Estonian),
kaz (Kazakh), uzb (Uzbek), uzb_cyrl (Uzbek - Cyrilic),
kir (Kirghiz; Kyrgyz), tgk (Tajik),
aze (Azerbaijani), aze_cyrl (Azerbaijani - Cyrilic),

Только про туркменский не написано что поддерживается (его 3-буквенный код в ISO 639-2 - tuk)

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру