Вариант для распечатки |
Пред. тема | След. тема | ||
| Форум Разговоры, обсуждение новостей | |||
|---|---|---|---|
| Изначальное сообщение | [ Отслеживать ] | ||
| "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от opennews (??), 18-Янв-24, 20:25 | ||
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... | ||
| Ответить | Правка | Cообщить модератору | ||
| Оглавление |
| Сообщения | [Сортировка по времени | RSS] |
| 1. "Релиз системы распознавания текста Tesseract 5.3.4" | +10 +/– | |
| Сообщение от Аноним (1), 18-Янв-24, 20:25 | ||
Линуксу не хватает распознавания текстов уровня FineReader | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 2. "Релиз системы распознавания текста Tesseract 5.3.4" | –10 +/– | |
| Сообщение от Аноним (2), 18-Янв-24, 20:31 | ||
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 3. "Релиз системы распознавания текста Tesseract 5.3.4" | +7 +/– | |
| Сообщение от Аноним (3), 18-Янв-24, 20:42 | ||
> в инете | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 5. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Аноним (5), 18-Янв-24, 20:45 | ||
Без обучения все равно результат плохой. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 8. "Релиз системы распознавания текста Tesseract 5.3.4" | +3 +/– | |
| Сообщение от Аноним (1), 18-Янв-24, 21:01 | ||
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме. | ||
| Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору | ||
| 9. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Аноним (2), 18-Янв-24, 21:09 | ||
Ты что-ли занимаешься? Или софт вместо тебя этим занимается? | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 31. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Прадед (?), 20-Янв-24, 09:28 | ||
Недавно занимался распознаванием документа. Потом уснул.. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 32. Скрыто модератором | +/– | |
| Сообщение от Аноним (-), 20-Янв-24, 12:58 | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 14. "Релиз системы распознавания текста Tesseract 5.3.4" | +6 +/– | |
| Сообщение от Матвей (??), 18-Янв-24, 22:42 | ||
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. | ||
| Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору | ||
| 19. "Релиз системы распознавания текста Tesseract 5.3.4" | +8 +/– | |
| Сообщение от onanim (?), 19-Янв-24, 10:07 | ||
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 27. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Jh (?), 19-Янв-24, 20:16 | ||
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы. | ||
| Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору | ||
| 28. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Jh (?), 19-Янв-24, 20:18 | ||
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 29. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Jh (?), 19-Янв-24, 20:30 | ||
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой | ||
| Ответить | Правка | К родителю #27 | Наверх | Cообщить модератору | ||
| 4. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
Сообщение от robot228 (?), 18-Янв-24, 20:42 | ||
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 10. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Quad Romb (ok), 18-Янв-24, 21:14 | ||
Fraktur очень медленно распознаёт по сравнению с FR15. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 7. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
| Сообщение от Аноним (7), 18-Янв-24, 20:46 | ||
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 11. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
| Сообщение от paulus (ok), 18-Янв-24, 21:26 | ||
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось? | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 12. "Релиз системы распознавания текста Tesseract 5.3.4" | +2 +/– | |
| Сообщение от Quad Romb (ok), 18-Янв-24, 21:29 | ||
Могёт. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 13. "Релиз системы распознавания текста Tesseract 5.3.4" | +2 +/– | |
| Сообщение от Аноним (13), 18-Янв-24, 22:38 | ||
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало. | ||
| Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору | ||
| 15. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
| Сообщение от Аноним (15), 18-Янв-24, 22:49 | ||
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 18. "Релиз системы распознавания текста Tesseract 5.3.4" | +3 +/– | |
| Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01 | ||
После файнридера приводить текст к единому стилю — то ещё удовольствие. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 16. "Релиз системы распознавания текста Tesseract 5.3.4" | –1 +/– | |
| Сообщение от Аноним (15), 18-Янв-24, 22:52 | ||
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 20. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Ильч (?), 19-Янв-24, 10:44 | ||
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст? | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 23. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
Сообщение от Аноним (23), 19-Янв-24, 13:44 | ||
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать! | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 24. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Аноним (24), 19-Янв-24, 15:06 | ||
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 25. "Релиз системы распознавания текста Tesseract 5.3.4" | –2 +/– | |
| Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54 | ||
> Если языковой барьер не мешает, то пожалуйста. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 26. "Релиз системы распознавания текста Tesseract 5.3.4" | +/– | |
| Сообщение от Аноним (24), 19-Янв-24, 16:10 | ||
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 30. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
| Сообщение от cat666 (ok), 19-Янв-24, 21:22 | ||
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы. | ||
| Ответить | Правка | К родителю #24 | Наверх | Cообщить модератору | ||
| 33. "Релиз системы распознавания текста Tesseract 5.3.4" | +1 +/– | |
| Сообщение от Аноним (33), 20-Янв-24, 15:25 | ||
Китайцы безусловно молодцы, факт. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
|
Архив | Удалить |
Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема |
|
Закладки на сайте Проследить за страницей |
Created 1996-2025 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |