The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Обновление программы для распознавания текста dpScreenOCR 1.5.1"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Обновление программы для распознавания текста dpScreenOCR 1.5.1"  +/
Сообщение от opennews (??), 25-Апр-26, 08:03 
Состоялся выпуск программы для оптического распознавания текста dpScreenOCR 1.5.1, использующей Tesseract. dpScreenOCR позволяет при помощи глобальной горячей клавиши и мыши захватить произвольную область экрана, текст из которой будет распознан. В зависимости от выбора пользователя, программа может копировать распознанный текст в буфер обмена, добавить его в историю или отправить внешней программе. Готовые сборки сформированы для Linux и Windows (также доступны репозитории пакетов для Debian и Ubuntu). Код программы написан на C++ и распространяется под лицензией zlib...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=65281

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Обновление программы для распознавания текста dpScreenOCR 1...."  –3 +/
Сообщение от Аноним (1), 25-Апр-26, 08:03 
Кто-нибудь уже натренировал и слил в сеть нормальные модели для tesseract? Штатная слабовато распознаёт, много ошибок и требовательно к чистоте картинки. И наклону. Желательно без стилеров токенов и ботнетов комплектом.
Ответить | Правка | Наверх | Cообщить модератору

5. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Аноним (5), 25-Апр-26, 08:53 
прекрасно он текст распознает, но нужно чтобы распознаваемый
шрифт входил во мн-во на котором он учился. Переобучение
несложно локально сделать, там файлик со списком шрифтов есть
Ответить | Правка | Наверх | Cообщить модератору

6. "Обновление программы для распознавания текста dpScreenOCR 1...."  +2 +/
Сообщение от Аноним (1), 25-Апр-26, 08:58 
С ошибками. Мне иероглифы вообще распознавать надо. У гугла вон работает распознавание по фото с любым текстом под любым углом, а тут приходится вращать, выкручивать контрастность, двухцветные изображения делать. Не сказал бы, что это прекрасно, как минимум, нужны нормальные веса.
Ответить | Правка | Наверх | Cообщить модератору

10. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Анонимище (?), 25-Апр-26, 09:18 
А почему Вам нужно распозновать иероглифы, простите за любопытство?
Ответить | Правка | Наверх | Cообщить модератору

12. "Обновление программы для распознавания текста dpScreenOCR 1...."  –1 +/
Сообщение от Аноним (1), 25-Апр-26, 09:42 
Много китайской продукции и я не владею китайским, одна надежда на переводчик. Посылать всё в гугл для распознавания, конечно, замечательная идея, но у неё есть свои недостатки.
Ответить | Правка | Наверх | Cообщить модератору

18. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Анонимище (?), 25-Апр-26, 10:17 
И что за недостатки?
Ответить | Правка | Наверх | Cообщить модератору

19. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Аноним (1), 25-Апр-26, 10:22 
> И что за недостатки?

Гугл блокирует подсеть. Или хочет денег.

Ответить | Правка | Наверх | Cообщить модератору

22. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от faa (?), 25-Апр-26, 14:39 
А если послать какому-нибудь дипсику или квен?
Ответить | Правка | Наверх | Cообщить модератору

24. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от ryoken (ok), 25-Апр-26, 15:52 
В расчете на родной язык авторов? :)
Ответить | Правка | Наверх | Cообщить модератору

20. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Анонисссм (?), 25-Апр-26, 10:45 
>Мне иероглифы вообще распознавать надо

tesseract прекрасно и раз в 10 быстрее работает, если НЕ нужны таблицы и прочее сложное форматирование, возможно китайский тоже не умеет. paddleOCR и подобное тебе нужно

Ответить | Правка | К родителю #6 | Наверх | Cообщить модератору

25. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (25), 25-Апр-26, 15:52 
> Мне иероглифы вообще распознавать надо
> тут приходится вращать, выкручивать контрастность, двухцветные изображения делать

Сабж, насколько понимаю, делает такие приготовления для изображений: у него качество распознавания несоизмеримо лучше, чем у голого консольного tesseract. Хотя я сравнивал для англичского и русского, а не для иероглифов.

Ответить | Правка | К родителю #6 | Наверх | Cообщить модератору

34. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от tkzv (ok), 26-Апр-26, 09:52 
Короткие тексты иероглифами tesseract распознаёт отлично, хотя многоцветные и длиннее 200 знаков особо распознавать не приходилось.

Вместо возни с контрастностью предпочитаю сразу распознать на нескольких уровнях гаммы — от 0,06 до 8 — и выбрать лучший. Забавно, что часто с гаммой и 2, и 0,5 получается одинаково хорошо, и гораздо лучше, чем с 1.

Ответить | Правка | К родителю #6 | Наверх | Cообщить модератору

8. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Профессор Кислвх Щей (?), 25-Апр-26, 09:07 
Так это ужасно. Она не должна знать то что распознает. Конечно у нее точное будет, если она видела этот пример
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

27. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Jh (?), 25-Апр-26, 16:52 
Я пробовал распознавать на сканах ксерокопий 200dpi, нормально распознает. Что не хватает так это работы с таблицами.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

2. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Аноним (2), 25-Апр-26, 08:21 
а на вяленом будет работать? :D
Ответить | Правка | Наверх | Cообщить модератору

3. "Обновление программы для распознавания текста dpScreenOCR 1...."  –1 +/
Сообщение от Аноним (3), 25-Апр-26, 08:29 
>использующей Tesseract

Tesseract - это хлам. Я ожидал, что таки навайбкодят аналог файнридера на нейронках, но видимо неподъёмно.

Ответить | Правка | Наверх | Cообщить модератору

4. "Обновление программы для распознавания текста dpScreenOCR 1...."  –5 +/
Сообщение от Аноним (-), 25-Апр-26, 08:37 
> Программа стала доступна в Microsoft Store.

Дожили, опеннет постит ссылки на коммерческий блобоварезник майкрософта :\

Ответить | Правка | Наверх | Cообщить модератору

9. "Обновление программы для распознавания текста dpScreenOCR 1...."  +4 +/
Сообщение от Аноним (9), 25-Апр-26, 09:08 
И по этой ссылке опенсорсное приложение. Вроде бы все в пределах философии опенннета.
Ответить | Правка | Наверх | Cообщить модератору

11. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (11), 25-Апр-26, 09:26 
Написал так, как будто у вас процессор не на технологиях ASML разработан.
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

13. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Аркагоблин (?), 25-Апр-26, 09:48 
И что? Сама программа с открытым исходным кодом (лицензия zlib), а Microsoft Store лишь один из вариантов распространения. Firefox, LibreOffice и даже Ubuntu тоже там доступны, и что?
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

28. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (25), 25-Апр-26, 19:24 
>> Программа стала доступна в Microsoft Store.
> Дожили, опеннет постит ссылки на коммерческий блобоварезник майкрософта :\

Подавляющее большинство людей предпочтет установить программу из официального магазина, а не качать-запускать непонятно какие EXE с васянских сайтов.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

31. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (31), 26-Апр-26, 03:48 
Подавляющее большинство людей не пользуются официальным магазином, а предпочитают как и всегда качать непосредственно с сайта.
Ответить | Правка | Наверх | Cообщить модератору

14. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аркагоблин (?), 25-Апр-26, 09:51 
Как раз на днях искал программу для распознавания текста из изображений (не китайский глянцевый хлам на непонятном стеке, с рекламой и VIP подпиской), и сегодня узнал об этой программе
Ответить | Правка | Наверх | Cообщить модератору

21. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Смузихлеб забывший пароль (?), 25-Апр-26, 13:25 
> китайский глянцевый хлам на непонятном стеке, с рекламой и VIP подпиской

ты примерно описал среднестатистическое приложение яблостора( десктоп )

Ответить | Правка | Наверх | Cообщить модератору

17. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от psv (??), 25-Апр-26, 10:10 
И что никто не поставил в ламу локальную Qwen3.6-35b "смесь экспертов" с указанием "грузить картинки тоже"? )))
Ответить | Правка | Наверх | Cообщить модератору

23. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (23), 25-Апр-26, 15:03 
не проще скрин в дипсик скинуть?
Ответить | Правка | Наверх | Cообщить модератору

26. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Аноним (25), 25-Апр-26, 15:58 
> не проще скрин в дипсик скинуть?

Не проще. Сабж без лишних телодвижений сразу распознает скрины дает результат в буфер обмена. Это банально быстрее, чем куда-то что-то загружать и потом выделять-копировать вручную.

Ну и работает оффлайн без необходимости сливать свои данные третьим лицам.

Ответить | Правка | Наверх | Cообщить модератору

29. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Аноним (29), 25-Апр-26, 19:38 
Tesseract всё ещё работает ужасно?
Ответить | Правка | Наверх | Cообщить модератору

32. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от жыжа (?), 26-Апр-26, 03:56 
Весьма посредственно, если судить по spectacle, куда недавно завели распознавание текста на скринах через tesseract, и распознать смесь русского с английским, похоже, задача непосильная.
Ответить | Правка | Наверх | Cообщить модератору

35. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от tkzv (ok), 26-Апр-26, 10:02 
> Tesseract всё ещё работает ужасно?

Для распознавания скриншотов текста — более чем достаточно. Если весь текст одного размера и цвета, и достаточно контрастный. Проблемы бывают со светлосерым на белом (лечится прогоном через magick -gamma), с жёлтым на голубом (аналогично), при размере текста меньше 6 пикселов.

Если текст нескольких цветов, иногда приходится распознавать с разными гаммами и компоновать.

Если текст на нескольких языках, может подставить символы не того языка. HET, 3EB, НЕАР и т.д.

Ответить | Правка | К родителю #29 | Наверх | Cообщить модератору

30. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Петр А.email (?), 25-Апр-26, 21:49 
Еще в коллекцию?

https://www.altlinux.org/OCR

Ответить | Правка | Наверх | Cообщить модератору

33. "Обновление программы для распознавания текста dpScreenOCR 1...."  +1 +/
Сообщение от Ю.Т. (?), 26-Апр-26, 08:26 
Тессеракт имеет "нейронки" уже лет 10 почти.

Со "смесью языков" он работает, возможно, не блестяще, но и не плохо.

Китайский в нём есть, и "новый", и "старый".

Работать нужно, понятно же, с лучшим набором:
github.com/tesseract-ocr/tessdata_best

Чего не хватает тессеракту -
1 никак не родят к нему путёвый разбиватель страницы. Собственный там старый и довольно упрощённый.
2 Семантика текста, выражаемая размерами, положениями и начертаниями (выделения,дроби, индексы, сноски), не обрабатывается.
3 Их обучающие наборы данных скромноваты по размерам (не забудем, конечно, что их собирают и раздают бесплатно)
4 Также реализованная в тессеракте модель машобучения не позволяет её удобно доообучить.

Ответить | Правка | Наверх | Cообщить модератору

36. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от tkzv (ok), 26-Апр-26, 10:14 
> Со "смесью языков" он работает, возможно, не блестяще, но и не плохо.

Прикрутить бы LanguageTool какой-нибудь. Чтобы меньше путал "не" и "he".

> 1 никак не родят к нему путёвый разбиватель страницы. Собственный там старый и довольно упрощённый.

Сейчас проще руками разбить картинку на несколько, чем надеяться, что распознает колонки.

> 2 Семантика текста, выражаемая размерами, положениями и начертаниями (выделения,дроби,  индексы, сноски), не обрабатывается.

Вообще какая-нибудь программа это умеет?

> 4 Также реализованная в тессеракте модель машобучения не позволяет её удобно доообучить.

Если я правильно понял документацию, обучение медленное и не умеет пользоваться GPU.

От себя добавлю внезапные затыки, когда в упор не видит не очень контрастный текст, но при изменении гаммы в любую сторону прекрасно всё распознаёт. И очень плохо распознаёт, если на черно-белом скриншоте что-то подчёркнуто или обведено красным.


Ответить | Правка | Наверх | Cообщить модератору

37. "Обновление программы для распознавания текста dpScreenOCR 1...."  +/
Сообщение от Ю.Т. (?), 26-Апр-26, 12:09 
> Прикрутить бы LanguageTool какой-нибудь. Чтобы меньше путал "не" и "he".

Думаю, такие действия лучше бы получать из мета-описаний. "Текст содержит целые слова в разных системах письма", а отсюда и вариант: "В тексте просто есть римские числа".

То же и к разбивателю относится. Глаз-мозг у всех одинаковы (с точки зрения такой задачи), так что не так много и сценариев выкладки (лучше сказать -- признаков?).

> Вообще какая-нибудь программа это умеет?

Кажется, нет. Но это как бы и не задача распознавалки, скорее - для средств постобработки.

Да, разноцветный текст тессеракт не любит. Но там и предобработка - оочень скупая.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру