Стать круче djvubind #11

plzombie · 2023-06-02T19:55:11Z

Как-то мимо меня прошёл этот скрипт на Питоне. Собственно, чего оттуда у меня нет.

Нет OCR.
Нет метадаты.

В остальном я пока впереди.

zvezdochiot · 2023-09-14T19:51:04Z

По поводу OCR.

Смотри связку tesseract + tesseract2djvused + djvused. Правда в среднем мне совсем не нравится, что пользует QXml. Ну почему не libxml? С другой стороны дарённому коню в зубы не смотрят. Но привязка к Qt всё-равно напрягает.

plzombie · 2023-09-18T09:27:10Z

Ну, я буду без Qt делать, в любом случае. И там tesseract отдаёт html, а не чистый xml. Этот аспект тоже надо учитывать

zvezdochiot · 2023-09-18T09:32:57Z

@plzombie say:

И там tesseract отдаёт html, а не чистый xml.

Нет. Tesseract имеет несколько выходных генераторов, один из них hocr, а это чистый xml. Только его указывать надо либо в списке:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng pdf txt hocr; done

либо как единственный:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng hocr; done

plzombie · 2023-09-18T09:43:01Z

Как раз в спеках по hOCR пишут, что это HTML/XHTML. А в случае HTML там могут быть вещи вроде тега <br> без закрывающейся скобки. Хотя, не думаю, что tesseract такое экспортирует. В примерах вообще используется libxml2. Но надо иметь ввиду, что на вход могут подать любой HTML документ

zvezdochiot · 2023-09-18T09:47:15Z

@plzombie say:

Как раз в спеках по hOCR пишут, что это HTML/XHTML.

Нет. Это генератор html и он сильно отличается от hocr. Никаких <br> и еже в hocr ты никогда не встетишь. Там вообще привычних HTML-тегов нет совсем.

plzombie added the enhancement New feature or request label Jun 2, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Стать круче djvubind #11

Стать круче djvubind #11

plzombie commented Jun 2, 2023

zvezdochiot commented Sep 14, 2023 •

edited

Loading

plzombie commented Sep 18, 2023

zvezdochiot commented Sep 18, 2023

plzombie commented Sep 18, 2023 •

edited

Loading

zvezdochiot commented Sep 18, 2023 •

edited

Loading

Стать круче djvubind #11

Стать круче djvubind #11

Comments

plzombie commented Jun 2, 2023

zvezdochiot commented Sep 14, 2023 • edited Loading

plzombie commented Sep 18, 2023

zvezdochiot commented Sep 18, 2023

plzombie commented Sep 18, 2023 • edited Loading

zvezdochiot commented Sep 18, 2023 • edited Loading

zvezdochiot commented Sep 14, 2023 •

edited

Loading

plzombie commented Sep 18, 2023 •

edited

Loading

zvezdochiot commented Sep 18, 2023 •

edited

Loading