The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз системы распознавания текста Tesseract 5.4.0"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от opennews (??), 06-Июн-24, 22:48 
Опубликован релиз системы оптического распознавания текста Tesseract 5.4.0, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=61329

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (1), 06-Июн-24, 22:48 
У кого-нибудь есть натренированные модели для китайского языка получше? Гугл зажал те, что использует сам. Штатно доступны только десятилетние и кривые, практически бесполезны.
Ответить | Правка | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.4.0"  –1 +/
Сообщение от Аноним (3), 07-Июн-24, 01:45 
Именно так. Толку от этих обновлений нет, фактически эта поделка люто проприетарная, публично выложена только демо-версия, ни на что не годное барахло, а нормальных моделей нет и не предвидится, даже спиратить нигде нельзя. "Тренируйте своё сами", идите нафиг.
Ответить | Правка | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 5.4.0"  +10 +/
Сообщение от Павел Фадеев (-), 07-Июн-24, 11:12 
> публично выложена только демо-версия, ни на что не годное барахло

Ты видимо совсем нapкoмaн, или тpoллишь, а может просто глyпый. Tesseract мне лично помог распознать десятки книг на русском, английском, немецком, итальянском и португальском. Распознает идеально на большинстве языков. То что с иероглифами пока плоховато работает - не обесценивает общую ценность программы. В этих иероглифах сами китайцы порой путаются (есть знакомый китаец). А с помощью Tesseract'а были оцифрованы миллионы книг из мировых архивов во многих странах. Полезность программы огромна.

Ответить | Правка | Наверх | Cообщить модератору

45. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от Аноним (45), 08-Июн-24, 21:44 
Ну нельзя же делать столько ошибок в слове FineReader!
Ответить | Правка | Наверх | Cообщить модератору

17. "Релиз системы распознавания текста Tesseract 5.4.0"  +2 +/
Сообщение от КО (?), 07-Июн-24, 06:42 
Ну вот это попробуй подсунь в Crow Translate и будет счастье
github.com/gumblex/tessdata_chi
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

32. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от Аноним (32), 07-Июн-24, 11:10 
PaddleOCR же.

Или нужно именно под тессеракт?

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (2), 06-Июн-24, 23:00 
Ничего лучше из бесплатного нет, но: шрифт прибит гвоздями к pdf-у и размер рdf-а великоват.

Ответить | Правка | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.4.0"  +3 +/
Сообщение от kotpilotemail (ok), 07-Июн-24, 01:50 
Ну и кто его пробовал? Как он по сравнению с каким-нибудь файнридером. Как в установке, настройке, загрузке проца, памяти, как распознает кириллицу? В общем реальные кейсы использования имеются у кого?
А то из этих рекламных новостей, которые как под копирку пишут админы, ничего не понятно.
Распознавание на основе машинного обучения - звучит многообещающе
Ответить | Правка | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Анонимemail (6), 07-Июн-24, 03:18 
Тут только теоретические выкладки на тему ЯП и корпораций.
За реальными кейсами нужно идти в буржнет.
Ответить | Правка | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от soarin (ok), 07-Июн-24, 03:50 
Традиционно было сильно хуже того же FineReader.
Совсем для простого.
Хотя сейчас уже на мобильных устройствах на раз-два текст распознаётся.
https://postimg.cc/WFqZ9STd
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.4.0"  +3 +/
Сообщение от Аноним (15), 07-Июн-24, 05:06 
А разве было что-то лучше "какого-нибудь файнридра"?  
В общем, сами попробуйте и напишите нам, как он в установке, настройке, загрузке проца, памяти, как распознает кириллицу.
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

39. "Релиз системы распознавания текста Tesseract 5.4.0"  +4 +/
Сообщение от Аноним (39), 07-Июн-24, 15:12 
Finereader лучше оного. Но при интеграции ядра Finereader в свое приложение за поделку ABBYY необходимо платить по тарифу за 10000 распознанных страниц в месяц, плюс доплата за превышение. Возможности купить лицензию на ядро Finereader для каждого экземпляра своего приложения разово - нет. Такое весьма сомнительное решение для разработчика ядра распознавания.
У нас не разу не встретилось заказчика, который бы с пониманием отнесся к варианту заплатить за разработку плюс ежемесячно доплачивать какому-то стороннему вендору. Выходили из ситуации посредством распараллеливания на CuneiForm и Tesseract. Результат точности получался 99.97%. Форматирование выдерживали блочной разметкой. Таблицы получалось только фиксированных форм. Скорость распознавания - 2 минуты на страницу на 1 ядро. Время включает: вращение с помощью imagemagick на 90, 180 и 270, предварительный прогон Tesseract на поиск правильного поворота, очистка документа imagemagick'ом по нескольким шаблонам, распознавание CuneiForm плюс блочное распознавание Tesseract, сопоставление двух результатов, сверка со словарем, итоговое форматирование, определение по шаблонам получателя документа, отправка получателю. В наших случаях время было приемлемо, поскольку за раз в сканер погружалось по несколько тысяч, а то и десятков документов одним отделом, а результат востребовался через день или несколько другими. Кто спрашивал про производительность: 10000 документов -> 20000 мин./1 ядро ~> 625 минут/16 ядер/32 потока -> 21 час.
С FineReader не пришлось бы искать нужный поворот, легче работать со структурами. Предварительная чистка документа требовалась. Но и не было бы удовольствия от собственного творчества. Плюс тестовые 7 страниц в ядре FineReader
Ответить | Правка | Наверх | Cообщить модератору

40. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (39), 07-Июн-24, 15:13 
Core не дают даже возможности понять возможности.
Ответить | Правка | Наверх | Cообщить модератору

43. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от Бывалый Смузихлёб (ok), 08-Июн-24, 09:08 
Примечательно то, что файнридер ощутимо лучше работал ещё лет 10-15 назад в сравнении с тем что есть сейчас не-файн-ридерского. А ведь тогда и компы были слабее и ОЗУ было сильно меньше
Я как-то давно сканер покупал, с ним вместе подарком шёл и файнридер лицензионный. Очень сильно помогал в былые времена, в т.ч с таблицами

И вот до сих пор остаётся неясным - как ограниченных размеров и финансирования команда умудрилась сделать такой продукт, который до сих пор недостижим по многим параметрам в т.ч конторами, которые десятилетиями в три хари жрут бюджеты и могут привлекать почти неограниченное количество разработчиков

Ответить | Правка | К родителю #39 | Наверх | Cообщить модератору

51. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (51), 12-Июн-24, 01:31 
Да нет в файнридере ничего особенного, если речь о латинице.
А в распознавание кириллицы кроме них и Cuneiform никто и не вкладывался никогда
Ответить | Правка | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (23), 07-Июн-24, 08:16 
Тут один админ если что.
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от dove1922email (?), 07-Июн-24, 08:29 
Gimagereader + tesseract вполне неплохо распознаёт, и отдельно русский, и rus+eng. Пользуюсь почти каждый день. Из недостатков - не сращивает строки в предложения, достаёт вручную это делать. Ну и никакое распознавание таблиц - получается просто куча текста.
Но для линукса пока ничего лучше не нашел.
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

37. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (39), 07-Июн-24, 14:37 
Есть же механизм управления блоками. Для фиксированных таблиц годен. Для династических - нет.
Ответить | Правка | Наверх | Cообщить модератору

38. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (39), 07-Июн-24, 14:38 
...динамических... Т9
Ответить | Правка | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (27), 07-Июн-24, 08:46 
> В общем реальные кейсы использования имеются у кого?

Весь archive.org им распознан.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

44. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от robot228email (?), 08-Июн-24, 09:08 
Вась, бухнул? Там FR много где.
Ответить | Правка | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Jh (?), 07-Июн-24, 09:55 
Я пробовал версию 4. сканы разрешением 200 dpi вполне прилично распознавал, причем сканы с ксерокопий из мед учреждений. Нам пдф не нужен был, в простой текст. тот же файнридер сколько не пробовал, если надо редактировать, один фиг всё едет и приходится руками много делать.
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

35. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от nox. (?), 07-Июн-24, 13:55 
> по сравнению с каким-нибудь файнридером

к сожалению, можно считать, что ничего и нет.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от нитгитлистер (?), 07-Июн-24, 05:52 
ммда, найти интсал для винды оказалось несколько сложнее чем хотелось бы. весит 48 метров для х64, что уже само по себе настораживает. при установке на пункте выбора загрузки скриптов надо очень постараьбся чтобы найти кириллицу латиницу раусский и английский языки. выбрав такой минимум на диске засрётся неожиданно 354 метра. радует что загрузка доп можулей через тырнет на очень хороших скоростях. сосно на эьтом всё и заканчивается. потому что кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет. инструкции как именно с ней работать. какие команды вводить нет. в общем какое то непонятное поделие непонятно для кого сделанное
Ответить | Правка | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 5.4.0"  –1 +/
Сообщение от Аноним (27), 07-Июн-24, 08:45 
> кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет

https://tesseract-ocr.github.io/tessdoc/User-Projects-%...

> инструкции как именно с ней работать. какие команды вводить нет.

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

Чел, тебя в гугле забанили?

Ответить | Правка | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от нитгитлистер (?), 07-Июн-24, 09:31 
>> кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет
> https://tesseract-ocr.github.io/tessdoc/User-Projects-%...
>> инструкции как именно с ней работать. какие команды вводить нет.
> https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html
> Чел, тебя в гугле забанили?

забанили, мне эти строчки в глаза не попадались)

Ответить | Правка | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Jh (?), 07-Июн-24, 10:00 
для винды есть фронт VietOCR, но он для 4 версии. А вообще не понимаю тех кто воротит нос от бесплатных программ. Зажрались
Ответить | Правка | К родителю #16 | Наверх | Cообщить модератору

31. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (31), 07-Июн-24, 10:53 
Вторая ссылка в Гугле, например, https://github.com/nguyenq/VietOCR3
Ответить | Правка | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от pashev.ru (?), 07-Июн-24, 06:59 
> поддерживающей распознавание символов UTF-8

А что там сложного? Это же уже коды символов. Автор и редактор новости не в себе? :-)

Ответить | Правка | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от Аноним (20), 07-Июн-24, 07:07 
возможно имеются в виду символы типа такого : 😊
Ответить | Правка | Наверх | Cообщить модератору

22. "Релиз системы распознавания текста Tesseract 5.4.0"  +4 +/
Сообщение от Аноним (22), 07-Июн-24, 08:09 
Иногда мне кажется, что ABBYY им приплачивает, чтобы они не развивались.
Ответить | Правка | Наверх | Cообщить модератору

34. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от nox. (?), 07-Июн-24, 13:53 
YAGF - последнее обновление 8 лет назад. Местами не работает.
Ответить | Правка | Наверх | Cообщить модератору

36. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от iPony129412 (?), 07-Июн-24, 14:02 
Так тут наоборот. Надо бы денег заносить, чтобы развивались.
Но это никому толком не надо.
Ответить | Правка | К родителю #22 | Наверх | Cообщить модератору

41. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от нах. (?), 07-Июн-24, 20:12 
нет столько деньгов
Ответить | Правка | Наверх | Cообщить модератору

52. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (52), 12-Июн-24, 02:30 
Деньгов есть столько просто не у тех и не на то...
Ответить | Правка | Наверх | Cообщить модератору

42. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от анон (?), 08-Июн-24, 01:08 
Ещё один коммерческий OCR-движок стал бесплатным, но исходников нет. Есть версия под линукс.
https://web.archive.org/web/20220401060601/https://www.nicom.../
Ответить | Правка | К родителю #22 | Наверх | Cообщить модератору

46. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от Аноним (46), 08-Июн-24, 22:23 
Как оно работает с греческим, грузинским и армянским алфавитами?
Ответить | Правка | Наверх | Cообщить модератору

48. "Релиз системы распознавания текста Tesseract 5.4.0"  +1 +/
Сообщение от EuPhobos (ok), 09-Июн-24, 16:31 
Мне понадобилось пропарсить огромную кучу фоток без EXIF-данных с видеонаблюдения, но на которых есть жёсткий счётчик даты и времени. Тессеракт нифига не справился, 40% чуши, с учётом того, что парсить нужно было только жиные и контрастные цифры, и строго в определённом углу.
Даже заранее используя imagemagic и вырезав этот угол с датой, tesseract-у это не помогло.
Ответить | Правка | Наверх | Cообщить модератору

49. "Релиз системы распознавания текста Tesseract 5.4.0"  +/
Сообщение от AS (??), 10-Июн-24, 11:25 
такаяЖеФигня:
получал с вебКамеры контрастные цифры с прибора, у которого ну никаких более интерфейсов нет..
и контрастность крутил и черноБелил имажи - неПомогло. может я что-то неТак делал?
Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру