-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Стать круче djvubind #11
Comments
По поводу OCR. Смотри связку tesseract + tesseract2djvused + djvused. Правда в среднем мне совсем не нравится, что пользует QXml. Ну почему не libxml? С другой стороны дарённому коню в зубы не смотрят. Но привязка к Qt всё-равно напрягает. |
Ну, я буду без Qt делать, в любом случае. И там tesseract отдаёт html, а не чистый xml. Этот аспект тоже надо учитывать |
@plzombie say:
Нет. Tesseract имеет несколько выходных генераторов, один из них for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng pdf txt hocr; done либо как единственный: for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng hocr; done |
Как раз в спеках по hOCR пишут, что это HTML/XHTML. А в случае HTML там могут быть вещи вроде тега <br> без закрывающейся скобки. Хотя, не думаю, что tesseract такое экспортирует. В примерах вообще используется libxml2. Но надо иметь ввиду, что на вход могут подать любой HTML документ |
@plzombie say:
Нет. Это генератор |
Как-то мимо меня прошёл этот скрипт на Питоне. Собственно, чего оттуда у меня нет.
В остальном я пока впереди.
The text was updated successfully, but these errors were encountered: