1.1, Аноним (1), 22:48, 06/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
У кого-нибудь есть натренированные модели для китайского языка получше? Гугл зажал те, что использует сам. Штатно доступны только десятилетние и кривые, практически бесполезны.
| |
|
2.3, Аноним (3), 01:45, 07/06/2024 [^] [^^] [^^^] [ответить]
| –1 +/– |
Именно так. Толку от этих обновлений нет, фактически эта поделка люто проприетарная, публично выложена только демо-версия, ни на что не годное барахло, а нормальных моделей нет и не предвидится, даже спиратить нигде нельзя. "Тренируйте своё сами", идите нафиг.
| |
|
3.33, Павел Фадеев (-), 11:12, 07/06/2024 [^] [^^] [^^^] [ответить]
| +10 +/– |
> публично выложена только демо-версия, ни на что не годное барахло
Ты видимо совсем нapкoмaн, или тpoллишь, а может просто глyпый. Tesseract мне лично помог распознать десятки книг на русском, английском, немецком, итальянском и португальском. Распознает идеально на большинстве языков. То что с иероглифами пока плоховато работает - не обесценивает общую ценность программы. В этих иероглифах сами китайцы порой путаются (есть знакомый китаец). А с помощью Tesseract'а были оцифрованы миллионы книг из мировых архивов во многих странах. Полезность программы огромна.
| |
|
2.17, КО (?), 06:42, 07/06/2024 [^] [^^] [^^^] [ответить]
| +2 +/– |
Ну вот это попробуй подсунь в Crow Translate и будет счастье
github.com/gumblex/tessdata_chi
| |
|
1.2, Аноним (2), 23:00, 06/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Ничего лучше из бесплатного нет, но: шрифт прибит гвоздями к pdf-у и размер рdf-а великоват.
| |
1.4, kotpilot (ok), 01:50, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +3 +/– |
Ну и кто его пробовал? Как он по сравнению с каким-нибудь файнридером. Как в установке, настройке, загрузке проца, памяти, как распознает кириллицу? В общем реальные кейсы использования имеются у кого?
А то из этих рекламных новостей, которые как под копирку пишут админы, ничего не понятно.
Распознавание на основе машинного обучения - звучит многообещающе
| |
|
2.6, Аноним (6), 03:18, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
Тут только теоретические выкладки на тему ЯП и корпораций.
За реальными кейсами нужно идти в буржнет.
| |
2.15, Аноним (15), 05:06, 07/06/2024 [^] [^^] [^^^] [ответить]
| +3 +/– |
А разве было что-то лучше "какого-нибудь файнридра"?
В общем, сами попробуйте и напишите нам, как он в установке, настройке, загрузке проца, памяти, как распознает кириллицу.
| |
|
3.39, Аноним (39), 15:12, 07/06/2024 [^] [^^] [^^^] [ответить] | +4 +/– | Finereader лучше оного Но при интеграции ядра Finereader в свое приложение за п... большой текст свёрнут, показать | |
|
4.43, Бывалый Смузихлёб (ok), 09:08, 08/06/2024 [^] [^^] [^^^] [ответить]
| +1 +/– |
Примечательно то, что файнридер ощутимо лучше работал ещё лет 10-15 назад в сравнении с тем что есть сейчас не-файн-ридерского. А ведь тогда и компы были слабее и ОЗУ было сильно меньше
Я как-то давно сканер покупал, с ним вместе подарком шёл и файнридер лицензионный. Очень сильно помогал в былые времена, в т.ч с таблицами
И вот до сих пор остаётся неясным - как ограниченных размеров и финансирования команда умудрилась сделать такой продукт, который до сих пор недостижим по многим параметрам в т.ч конторами, которые десятилетиями в три хари жрут бюджеты и могут привлекать почти неограниченное количество разработчиков
| |
|
5.51, Аноним (51), 01:31, 12/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
Да нет в файнридере ничего особенного, если речь о латинице.
А в распознавание кириллицы кроме них и Cuneiform никто и не вкладывался никогда
| |
|
|
|
2.25, dove1922 (?), 08:29, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
Gimagereader + tesseract вполне неплохо распознаёт, и отдельно русский, и rus+eng. Пользуюсь почти каждый день. Из недостатков - не сращивает строки в предложения, достаёт вручную это делать. Ну и никакое распознавание таблиц - получается просто куча текста.
Но для линукса пока ничего лучше не нашел.
| |
|
3.37, Аноним (39), 14:37, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
Есть же механизм управления блоками. Для фиксированных таблиц годен. Для династических - нет.
| |
|
2.27, Аноним (27), 08:46, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
> В общем реальные кейсы использования имеются у кого?
Весь archive.org им распознан.
| |
2.29, Jh (?), 09:55, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
Я пробовал версию 4. сканы разрешением 200 dpi вполне прилично распознавал, причем сканы с ксерокопий из мед учреждений. Нам пдф не нужен был, в простой текст. тот же файнридер сколько не пробовал, если надо редактировать, один фиг всё едет и приходится руками много делать.
| |
2.35, nox. (?), 13:55, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
> по сравнению с каким-нибудь файнридером
к сожалению, можно считать, что ничего и нет.
| |
|
1.16, нитгитлистер (?), 05:52, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
ммда, найти интсал для винды оказалось несколько сложнее чем хотелось бы. весит 48 метров для х64, что уже само по себе настораживает. при установке на пункте выбора загрузки скриптов надо очень постараьбся чтобы найти кириллицу латиницу раусский и английский языки. выбрав такой минимум на диске засрётся неожиданно 354 метра. радует что загрузка доп можулей через тырнет на очень хороших скоростях. сосно на эьтом всё и заканчивается. потому что кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет. инструкции как именно с ней работать. какие команды вводить нет. в общем какое то непонятное поделие непонятно для кого сделанное
| |
|
2.30, Jh (?), 10:00, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
для винды есть фронт VietOCR, но он для 4 версии. А вообще не понимаю тех кто воротит нос от бесплатных программ. Зажрались
| |
|
1.19, pashev.ru (?), 06:59, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
> поддерживающей распознавание символов UTF-8
А что там сложного? Это же уже коды символов. Автор и редактор новости не в себе? :-)
| |
1.22, Аноним (22), 08:09, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +4 +/– |
Иногда мне кажется, что ABBYY им приплачивает, чтобы они не развивались.
| |
|
2.34, nox. (?), 13:53, 07/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
YAGF - последнее обновление 8 лет назад. Местами не работает.
| |
2.36, iPony129412 (?), 14:02, 07/06/2024 [^] [^^] [^^^] [ответить]
| +1 +/– |
Так тут наоборот. Надо бы денег заносить, чтобы развивались.
Но это никому толком не надо.
| |
|
1.48, EuPhobos (ok), 16:31, 09/06/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Мне понадобилось пропарсить огромную кучу фоток без EXIF-данных с видеонаблюдения, но на которых есть жёсткий счётчик даты и времени. Тессеракт нифига не справился, 40% чуши, с учётом того, что парсить нужно было только жиные и контрастные цифры, и строго в определённом углу.
Даже заранее используя imagemagic и вырезав этот угол с датой, tesseract-у это не помогло.
| |
|
2.49, AS (??), 11:25, 10/06/2024 [^] [^^] [^^^] [ответить]
| +/– |
такаяЖеФигня:
получал с вебКамеры контрастные цифры с прибора, у которого ну никаких более интерфейсов нет..
и контрастность крутил и черноБелил имажи - неПомогло. может я что-то неТак делал?
| |
|
|