The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"? OCR ?"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [Проследить за развитием треда]

"? OCR ?"  
Сообщение от HarryPotter email(??) on 03-Сен-07, 08:57 
Здравствуйте!

Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа на входе - имя файла с картинкой, на выходе - имя файла с текстом. Если есть API, позволяющее вызвать ее как фунцию из проги на C++, еще лучше :) Текст - чистая латиница.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

 Оглавление

  • ? OCR ?, rootuas, 15:24 , 03-Сен-07, (1)  
    • ? OCR ?, HarryPotter, 15:31 , 03-Сен-07, (2)  
      • ? OCR ?, Beda, 15:44 , 03-Сен-07, (3)  
        • ? OCR ?, HarryPotter, 16:06 , 03-Сен-07, (4)  
          • ? OCR ?, Beda, 18:48 , 03-Сен-07, (5)  
            • ? OCR ?, HarryPotter, 21:29 , 03-Сен-07, (6)  
              • ? OCR ?, HarryPotter, 17:35 , 04-Сен-07, (7)  
                • ? OCR ?, Хмурый, 09:17 , 07-Сен-07, (8)  

Сообщения по теме [Сортировка по времени, UBB]


1. "? OCR ?"  
Сообщение от rootuas email on 03-Сен-07, 15:24 
>Здравствуйте!
>
>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>на входе - имя файла с картинкой, на выходе - имя
>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>из проги на C++, еще лучше :) Текст - чистая латиница.
>

http://groundstate.ca/ocr

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "? OCR ?"  
Сообщение от HarryPotter email(??) on 03-Сен-07, 15:31 
>>Здравствуйте!
>>
>>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>>на входе - имя файла с картинкой, на выходе - имя
>>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>>из проги на C++, еще лучше :) Текст - чистая латиница.
>>
>
>http://groundstate.ca/ocr

Спасибо.
Интересно...
Пока пробую tesseract Ктоб его еще русскому научил...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "? OCR ?"  
Сообщение от Beda (??) on 03-Сен-07, 15:44 
>Интересно...
>Пока пробую tesseract Ктоб его еще русскому научил...

...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "? OCR ?"  
Сообщение от HarryPotter email(??) on 03-Сен-07, 16:06 
>>Интересно...
>>Пока пробую tesseract Ктоб его еще русскому научил...
>
>...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)
>

Дык есть на Аглицком.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "? OCR ?"  
Сообщение от Beda (??) on 03-Сен-07, 18:48 
>Дык есть на Аглицком.
>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

дык, про что и речь... мы про русский язык говорим или английский? ;)
нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?

наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "? OCR ?"  
Сообщение от HarryPotter email(??) on 03-Сен-07, 21:29 
>>Дык есть на Аглицком.
>>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
>
>дык, про что и речь... мы про русский язык говорим или английский?
>;)
>нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?
>
>наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.
>

Полученный после обработки текст однозначно будет в UTF-8 Я собирал сам Tesseract под SUSE10 - проблем не было. Но там UTF-8 и никак иначе. Fedora Core, Mandriva и Debian тоже предлагают UTF-8. Так что, я думаю, надо на эту локаль переходить однозначно. Доку я прочитал, постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для какого-нибудь популярного шрифта типа Times Roman, но не обещаю...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "? OCR ?"  
Сообщение от HarryPotter email(??) on 04-Сен-07, 17:35 
>Доку я прочитал,
>постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для
>какого-нибудь популярного шрифта типа Times Roman, но не обещаю...

Вот, как и обещал, попробовал обучить tesseract и попутно описал все мои шаги здесь:

http://www.opennet.dev//base/rus/osr_tesseract_rus.txt.html

Все заняло полдня.
Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "? OCR ?"  
Сообщение от Хмурый on 07-Сен-07, 09:17 
>Все заняло полдня.
>Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)

предлагаю всем заинтересованным, перенести обсуждение на Google Groups:
http://groups.google.com/group/tesseract-ocr-russian?hl=ru

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру