Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Стать круче djvubind #11

Open
plzombie opened this issue Jun 2, 2023 · 5 comments
Open

Стать круче djvubind #11

plzombie opened this issue Jun 2, 2023 · 5 comments
Labels
enhancement New feature or request

Comments

@plzombie
Copy link
Owner

plzombie commented Jun 2, 2023

Как-то мимо меня прошёл этот скрипт на Питоне. Собственно, чего оттуда у меня нет.

  • Нет OCR.
  • Нет метадаты.

В остальном я пока впереди.

@plzombie plzombie added the enhancement New feature or request label Jun 2, 2023
@zvezdochiot
Copy link
Contributor

zvezdochiot commented Sep 14, 2023

@plzombie .

По поводу OCR.

Смотри связку tesseract + tesseract2djvused + djvused. Правда в среднем мне совсем не нравится, что пользует QXml. Ну почему не libxml? С другой стороны дарённому коню в зубы не смотрят. Но привязка к Qt всё-равно напрягает.

@plzombie
Copy link
Owner Author

Ну, я буду без Qt делать, в любом случае. И там tesseract отдаёт html, а не чистый xml. Этот аспект тоже надо учитывать

@zvezdochiot
Copy link
Contributor

@plzombie say:

И там tesseract отдаёт html, а не чистый xml.

Нет. Tesseract имеет несколько выходных генераторов, один из них hocr, а это чистый xml. Только его указывать надо либо в списке:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng pdf txt hocr; done

либо как единственный:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng hocr; done

@plzombie
Copy link
Owner Author

plzombie commented Sep 18, 2023

Как раз в спеках по hOCR пишут, что это HTML/XHTML. А в случае HTML там могут быть вещи вроде тега <br> без закрывающейся скобки. Хотя, не думаю, что tesseract такое экспортирует. В примерах вообще используется libxml2. Но надо иметь ввиду, что на вход могут подать любой HTML документ

@zvezdochiot
Copy link
Contributor

zvezdochiot commented Sep 18, 2023

@plzombie say:

Как раз в спеках по hOCR пишут, что это HTML/XHTML.

Нет. Это генератор html и он сильно отличается от hocr. Никаких <br> и еже в hocr ты никогда не встетишь. Там вообще привычних HTML-тегов нет совсем.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants