question-mark
Stuck on an issue?

Lightrun Answers was designed to reduce the constant googling that comes with debugging 3rd party libraries. It collects links to all the places you might be looking at while hunting down a tough bug.

And, if you’re still stuck at the end, we’re happy to hop on a call to see how we can help out.

page_validator.py produces wrong concatenated text

See original GitHub issue

In get_text(), the TextEquiv with index=1 is used if it exists. The way I read the documentation of the index attribute in the PAGE schema, it should use the one with the lowest index:

Used for sort order in case multiple TextEquivs are defined. The text content with the lowest index should be interpreted as the main text content.

The lowest possible value for index is 0, according to the schema.

Issue Analytics

  • State:closed
  • Created 4 years ago
  • Reactions:1
  • Comments:24 (19 by maintainers)

github_iconTop GitHub Comments

1reaction
kbacommented, Feb 13, 2020

I always make sure to run make install PIP_INSTALL="pip install -e" in core to make sure core has been installed “editable”.

ocrd workspace validate --skip dimension --page-coordinate-consistency off

17:32:59.037 INFO ocrd.page_validator - Validating input file 'OCR-D-GT-PAGE_00000024'
17:32:59.481 INFO ocrd.page_validator - Validating input file 'OUTPUT_00000024'
<report valid="false">
  <error>INCONSISTENCY in TextLine ID 'l2159' of file 'OCR-D-GT-PAGE_00000024': text results 'eine ſo große Verwandſafft, daß ſo gar in legibus einem einigen Verbreen⸗ wie der Conſpirationi &' != concatenated 'eine ſo große einigen der Conſpirationi & wie in legibus einem Verwandſafft, daß ſo gar'</error>
  <error>INCONSISTENCY in TextLine ID 'l19' of file 'OUTPUT_00000024': text results '[22]' != concatenated '[ 22 ]'</error>
  <error>INCONSISTENCY in TextLine ID 'l32' of file 'OUTPUT_00000024': text results '[22' != concatenated '[ 22'</error>
  <error>INCONSISTENCY in TextLine ID 'l1250' of file 'OUTPUT_00000024': text results 'ein gleiches vorgegeben, und ſo gar ſehr viele mahle gegen alle menſchliche Moͤglichkeit mit Gewalt tor-' != concatenated 'ein gleiches vorgegeben , und ſo gar ſehr viele mahle gegen alle menſchliche Moͤglichkeit mit Gewalt tor -'</error>
  <error>INCONSISTENCY in TextLine ID 'l108' of file 'OUTPUT_00000024': text results 'ciret worden zu ſeyn, behaupten will, mithin nebſt dem Bredeka, welcher (§. 28. 29.) ſich in allen ſeinen' != concatenated 'ciret worden zu ſeyn , behaupten will , mithin nebſt dem Bredeka , welcher ( § . 28 . 29 . ) ſich in allen ſeinen'</error>
  <error>INCONSISTENCY in TextLine ID 'l212' of file 'OUTPUT_00000024': text results 'Auſſagen wiederſprochen, mit der Pœna talſi um do gewiſſer zu belegen iſt, da' != concatenated 'Auſſagen wiederſprochen , mit der Pœna talſi um do gewiſſer zu belegen iſt , da'</error>
  <error>INCONSISTENCY in TextLine ID 'l294' of file 'OUTPUT_00000024': text results 'ſecund. Fatin. Tit. 9. qu. 6. p . 320.' != concatenated 'ſecund . Fatin . Tit . 9 . qu . 6 . p . 320 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l361' of file 'OUTPUT_00000024': text results 'die Klage ſo wohl als das Zeignuͤß vos falſch und erdichtet muͤßen gehalten werden.' != concatenated 'die Klage ſo wohl als das Zeignuͤß vos falſch und erdichtet muͤßen gehalten werden .'</error>
  <error>INCONSISTENCY in TextLine ID 'l446' of file 'OUTPUT_00000024': text results 'S. 35) So viel die von der Inquiſitin' != concatenated 'S . 35 ) So viel die von der Inquiſitin'</error>
  <error>INCONSISTENCY in TextLine ID 'l2048' of file 'OUTPUT_00000024': text results 'rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hrn. Graffen von Koͤnigsfeld Vor⸗' != concatenated 'rath mit einer Pœna fiſcali angeſehen worden , und ſolche durch des Hrn . Graffen von Koͤnigsfeld Vor ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l99' of file 'OUTPUT_00000024': text results 'ſpruch, nur aus Gnaden nachgelaſſen erhalten.' != concatenated 'ſpruch , nur aus Gnaden nachgelaſſen erhalten .'</error>
  <error>INCONSISTENCY in TextLine ID 'l149' of file 'OUTPUT_00000024': text results 'Sondern man hat auch dieſen 4. Wochen lang alle Abend bey der Inquiſitin gantz allein gelaſſen.' != concatenated 'Sondern man hat auch dieſen 4 . Wochen lang alle Abend bey der Inquiſitin gantz allein gelaſſen .'</error>
  <error>INCONSISTENCY in TextLine ID 'l240' of file 'OUTPUT_00000024': text results 'Binnen welcher gantzer Zeit der Schreiber Bredeka beſtaͤndig bey Jhme geweſen, und ſich in' != concatenated 'Binnen welcher gantzer Zeit der Schreiber Bredeka beſtaͤndig bey Jhme geweſen , und ſich in'</error>
  <error>INCONSISTENCY in TextLine ID 'l328' of file 'OUTPUT_00000024': text results 'der am 13ten Octobr. a. c. in fudicio gegen ſeinen geweſenen Hrn. intröducirter Appellation deſſen Bey⸗' != concatenated 'der am 13ten Octobr . a . c . in fudicio gegen ſeinen geweſenen Hrn . intröducirter Appellation deſſen Bey ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l431' of file 'OUTPUT_00000024': text results 'raths bedienet hat;' != concatenated 'raths bedienet hat ;'</error>
  <error>INCONSISTENCY in TextLine ID 'l466' of file 'OUTPUT_00000024': text results '.z) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und' != concatenated '. z ) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben , und'</error>
  <error>INCONSISTENCY in TextLine ID 'l563' of file 'OUTPUT_00000024': text results 'hat nicht nur durch ſeinen Coſuletten, ſondern auch, weilen der Inquiſitii ſelbſten in Jhrem Gefaͤngnuͤß' != concatenated 'hat nicht nur durch ſeinen Coſuletten , ſondern auch , weilen der Inquiſitii ſelbſten in Jhrem Gefaͤngnuͤß'</error>
  <error>INCONSISTENCY in TextLine ID 'l663' of file 'OUTPUT_00000024': text results 'ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anverwandten ohngehindert em⸗' != concatenated 'ſo viele Freyheit gelaſſen worden , daß ſie frembden Beſuch von Jhren Anverwandten ohngehindert em ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l761' of file 'OUTPUT_00000024': text results 'pfangen koͤnnen, durch andere Perſonen ſich mit ihr uͤber alles, was Er oder ſie dereinſten zu ſagen hat⸗' != concatenated 'pfangen koͤnnen , durch andere Perſonen ſich mit ihr uͤber alles , was Er oder ſie dereinſten zu ſagen hat ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l868' of file 'OUTPUT_00000024': text results 'ten, vereinigen koͤnnen, immaſſen der Hofrath Senckenberg, als dieſer am 1. Octob. das Officium Jcdi-' != concatenated 'ten , vereinigen koͤnnen , immaſſen der Hofrath Senckenberg , als dieſer am 1 . Octob . das Officium Jcdi -'</error>
  <error>INCONSISTENCY in TextLine ID 'l965' of file 'OUTPUT_00000024': text results 'cis gegen ihn zur ſatisfactione publica excitirete, vor ſich aber ratione injuriarum demſelben (eben § præced.' != concatenated 'cis gegen ihn zur ſatisfactione publica excitirete , vor ſich aber ratione injuriarum demſelben ( eben § præced .'</error>
  <error>INCONSISTENCY in TextLine ID 'l1071' of file 'OUTPUT_00000024': text results 'geſagter maſſen) eine Leibes⸗Straͤffe aufzulegen bate, vor allen Dingen, gleich als ob Er ein peinlicher' != concatenated 'geſagter maſſen ) eine Leibes ⸗ Straͤffe aufzulegen bate , vor allen Dingen , gleich als ob Er ein peinlicher'</error>
  <error>INCONSISTENCY in TextLine ID 'l1179' of file 'OUTPUT_00000024': text results 'Anklaͤger waͤre, und ohne indiciis denuneiiret haͤtte,' != concatenated 'Anklaͤger waͤre , und ohne indiciis denuneiiret haͤtte ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l1254' of file 'OUTPUT_00000024': text results 'deauf dieſem Fall inioid. Cr. art. 12. vom peinlichen Klaͤger erforderte' != concatenated 'deauf dieſem Fall inioid . Cr . art . 12 . vom peinlichen Klaͤger erforderte'</error>
  <error>INCONSISTENCY in TextLine ID 'l1326' of file 'OUTPUT_00000024': text results 'Caution zu leiſten, auferleget worden, da man ſich doch ex Actis (vid. §. 31. haͤtte erſehen koͤnnen, daß' != concatenated 'Caution zu leiſten , auferleget worden , da man ſich doch ex Actis ( vid . § . 31 . haͤtte erſehen koͤnnen , daß'</error>
  <error>INCONSISTENCY in TextLine ID 'l1427' of file 'OUTPUT_00000024': text results 'hier von einer ohnzweiffentlichen und offentlichen Miſſethat die Frage obwalte, wobey dem Richter' != concatenated 'hier von einer ohnzweiffentlichen und offentlichen Miſſethat die Frage obwalte , wobey dem Richter'</error>
  <error>INCONSISTENCY in TextLine ID 'l1523' of file 'OUTPUT_00000024': text results 'in O. Cr. art. 16.' != concatenated 'in O . Cr . art . 16 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l1558' of file 'OUTPUT_00000024': text results 'in gantz anderer ex Officio anzuſtellender Proceß vorgeſchrieben wird und allenfalls, wenn uͤber die' != concatenated 'in gantz anderer ex Officio anzuſtellender Proceß vorgeſchrieben wird und allenfalls , wenn uͤber die'</error>
  <error>INCONSISTENCY in TextLine ID 'l1654' of file 'OUTPUT_00000024': text results 'inlufficientia Iidiciorum ein Zweiffel obgewaltet haͤtte,' != concatenated 'inlufficientia Iidiciorum ein Zweiffel obgewaltet haͤtte ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l1722' of file 'OUTPUT_00000024': text results 'ſeeund. O Cr. art. 7.' != concatenated 'ſeeund . O Cr . art . 7 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l1758' of file 'OUTPUT_00000024': text results 'auswaͤrtige Rechtsgelaͤhrte haͤtten muͤſſen befraget werden, anſonſten aber bey der bloßen actione Injuria-' != concatenated 'auswaͤrtige Rechtsgelaͤhrte haͤtten muͤſſen befraget werden , anſonſten aber bey der bloßen actione Injuria -'</error>
  <error>INCONSISTENCY in TextLine ID 'l1857' of file 'OUTPUT_00000024': text results 'rum dem Hofrath Senckenberg die Cautions Leiſtung um do weniger konnte auferleget werden, da ſolche' != concatenated 'rum dem Hofrath Senckenberg die Cautions Leiſtung um do weniger konnte auferleget werden , da ſolche'</error>
  <error>INCONSISTENCY in TextLine ID 'l1956' of file 'OUTPUT_00000024': text results 'auch bey der Inhafftirung der Agricola von Jhm keinesweges ware erfordert worden.' != concatenated 'auch bey der Inhafftirung der Agricola von Jhm keinesweges ware erfordert worden .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2042' of file 'OUTPUT_00000024': text results '§ 34) Zwiſchen dem Crimine falſi und concuſſionis iſt' != concatenated '§ 34 ) Zwiſchen dem Crimine falſi und concuſſionis iſt'</error>
  <error>INCONSISTENCY in TextLine ID 'l2097' of file 'OUTPUT_00000024': text results 'ſec. LAUTERB. Coll. Theot. Pract. Lib. 48. Tit. 10. §. 16.' != concatenated 'ſec . LAUTERB . Coll . Theot . Pract . Lib . 48 . Tit . 10 . § . 16 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2159' of file 'OUTPUT_00000024': text results 'erne ſo große Verwandſchafft, daß ſo gar in legibus einem einigen Verrechen⸗wie der Conſpirationi &' != concatenated 'erne ſo große Verwandſchafft , daß ſo gar in legibus einem einigen Verrechen ⸗ wie der Conſpirationi &'</error>
  <error>INCONSISTENCY in TextLine ID 'l2259' of file 'OUTPUT_00000024': text results 'ſubornationi Teſtium bald dieſer bald jenet Nahme beygeleget wird.' != concatenated 'ſubornationi Teſtium bald dieſer bald jenet Nahme beygeleget wird .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2330' of file 'OUTPUT_00000024': text results 'L. 2. de concuſſ I. t. der. Cornel. de fall.' != concatenated 'L . 2 . de concuſſ I . t . der . Cornel . de fall .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2384' of file 'OUTPUT_00000024': text results 'Da nun der Inquiſirin dieſes Crien allſchon voͤllig erwieſen worden (. 22.) und dieſelbe, wenn fie auch' != concatenated 'Da nun der Inquiſirin dieſes Crien allſchon voͤllig erwieſen worden ( . 22 . ) und dieſelbe , wenn fie auch'</error>
  <error>INCONSISTENCY in TextLine ID 'l2482' of file 'OUTPUT_00000024': text results 'ohngeſtandenen falls zu einem wahren Zeugnuͤß ſuborniret haͤtte,' != concatenated 'ohngeſtandenen falls zu einem wahren Zeugnuͤß ſuborniret haͤtte ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l2556' of file 'OUTPUT_00000024': text results 'ſec. LATERs. Coll. Theor. Pract. L. 48. T. 10. §. 8.' != concatenated 'ſec . LATERs . Coll . Theor . Pract . L . 48 . T . 10 . § . 8 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2612' of file 'OUTPUT_00000024': text results 'dennoch mit der pœna falſi, als falſum fieri curans,' != concatenated 'dennoch mit der pœna falſi , als falſum fieri curans ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l2670' of file 'OUTPUT_00000024': text results 'ſec. l. 0. 6. 3. ad L. Corn. de fali.' != concatenated 'ſec . l . 0 . 6 . 3 . ad L . Corn . de fali .'</error>
  <error>INCONSISTENCY in TextLine ID 'l2714' of file 'OUTPUT_00000024': text results 'L.4. 8. C. e. 7 X. de fali.' != concatenated 'L . 4 . 8 . C . e . 7 X . de fali .'</error>
  <error>INCONSISTENCY in TextLine ID 'l25' of file 'OUTPUT_00000024': text results 'muͤßte beleget werden,/ welche dann oben (§. 3i) geſagter maſſen die Straffe der Enthauptung iſt/ wie viel⸗' != concatenated 'muͤßte beleget werden , / welche dann oben ( § . 3i ) geſagter maſſen die Straffe der Enthauptung iſt / wie viel ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l2860' of file 'OUTPUT_00000024': text results 'mehr wird derſelben und Jhrem Complici Bredekaw dieſe Straffe angedeyhen muͤſſen, da dieſelbe extra' != concatenated 'mehr wird derſelben und Jhrem Complici Bredekaw dieſe Straffe angedeyhen muͤſſen , da dieſelbe extra'</error>
  <error>INCONSISTENCY in TextLine ID 'l2960' of file 'OUTPUT_00000024': text results 'Judicium beſtaͤndig behauptet, daß ſie der Hofrath Senckenberg mit Gewalt⸗und ſo gar it Piſtolen zu' != concatenated 'Judicium beſtaͤndig behauptet , daß ſie der Hofrath Senckenberg mit Gewalt ⸗ und ſo gar it Piſtolen zu'</error>
  <error>INCONSISTENCY in TextLine ID 'l3060' of file 'OUTPUT_00000024': text results 'ſeinem Willen gezwungen,' != concatenated 'ſeinem Willen gezwungen ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l3102' of file 'OUTPUT_00000024': text results 'Protoc. Inquiſ. fol. 71. b. fol73. b. 82. a. b. fol. 23. a.' != concatenated 'Protoc . Inquiſ . fol . 71 . b . fol73 . b . 82 . a . b . fol . 23 . a .'</error>
  <error>INCONSISTENCY in TextLine ID 'l3168' of file 'OUTPUT_00000024': text results 'auch in Judicio,' != concatenated 'auch in Judicio ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l50' of file 'OUTPUT_00000024': text results 'antzegebene Zeugin belanget, ſo muß zwar, ſo viel Teſt. 1. neml. des aͤltern Hx. Burgermeiſters hoch⸗' != concatenated 'antzegebene Zeugin belanget , ſo muß zwar , ſo viel Teſt . 1 . neml . des aͤltern Hx . Burgermeiſters hoch ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l92' of file 'OUTPUT_00000024': text results 'wohlgebl. anbetrifft, der Hofrath Senckenberg zu ſeinem groͤßten Leidweeſen bekennen, daß Er dieſelbe,' != concatenated 'wohlgebl . anbetrifft , der Hofrath Senckenberg zu ſeinem groͤßten Leidweeſen bekennen , daß Er dieſelbe ,'</error>
  <error>INCONSISTENCY in TextLine ID 'l189' of file 'OUTPUT_00000024': text results '(nach Veranlaſſung§. 16. 17. 18. 19.) vor einen Inimicum angeben muͤße, woferne jedoch annoch ein Pro⸗' != concatenated '( nach Veranlaſſung § . 16 . 17 . 18 . 19 . ) vor einen Inimicum angeben muͤße , woferne jedoch annoch ein Pro ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l287' of file 'OUTPUT_00000024': text results 'ceß gegen den Hofrath Senckenberg ſtatt haben koͤnnte, und nicht' != concatenated 'ceß gegen den Hofrath Senckenberg ſtatt haben koͤnnte , und nicht'</error>
  <error>INCONSISTENCY in TextLine ID 'l350' of file 'OUTPUT_00000024': text results 'contra Q Cr. art. 100.' != concatenated 'contra Q Cr . art . 100 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l399' of file 'OUTPUT_00000024': text results 'wie ſonſten hier gewoͤhnlich, articuli impertinentes oder dergleichen Interrogatoria zugelaſſen/ auch die von' != concatenated 'wie ſonſten hier gewoͤhnlich , articuli impertinentes oder dergleichen Interrogatoria zugelaſſen / auch die von'</error>
  <error>INCONSISTENCY in TextLine ID 'l577' of file 'OUTPUT_00000024': text results 'ſec. cap. accedens 23. X. de accus.' != concatenated 'ſec . cap . accedens 23 . X . de accus .'</error>
  <error>INCONSISTENCY in TextLine ID 'l625' of file 'OUTPUT_00000024': text results 'nichr zugelaſſen wird, duͤrfften dieſelbe vielleicht um do ehender vernommen werden, weilen alles ohne⸗' != concatenated 'nichr zugelaſſen wird , duͤrfften dieſelbe vielleicht um do ehender vernommen werden , weilen alles ohne ⸗'</error>
  <error>INCONSISTENCY in TextLine ID 'l717' of file 'OUTPUT_00000024': text results 'hin. ex Originaiibus zu erweiſen ſtehet.' != concatenated 'hin . ex Originaiibus zu erweiſen ſtehet .'</error>
  <error>INCONSISTENCY in TextLine ID 'l782' of file 'OUTPUT_00000024': text results '§. 36) Was von dem Bredekaw, der Seitzin und deren Sohn zu halten, iſt oben (s. 25. 26. 27.' != concatenated '§ . 36 ) Was von dem Bredekaw , der Seitzin und deren Sohn zu halten , iſt oben ( s . 25 . 26 . 27 .'</error>
  <error>INCONSISTENCY in TextLine ID 'l875' of file 'OUTPUT_00000024': text results '28.) erinnert worden.' != concatenated '28 . ) erinnert worden .'</error>
  <error>INCONSISTENCY in TextLine ID 'l926' of file 'OUTPUT_00000024': text results 'Mein Laquays Græf darff, wann gegen mich annoch ein Proceß ſtatt hatte, mmerhin verhoͤhret' != concatenated 'Mein Laquays Græf darff , wann gegen mich annoch ein Proceß ſtatt hatte , mmerhin verhoͤhret'</error>
  <error>INCONSISTENCY in TextLine ID 'l1012' of file 'OUTPUT_00000024': text results 'werden.' != concatenated 'werden .'</error>
  <error>INCONSISTENCY in TextLine ID 'l1053' of file 'OUTPUT_00000024': text results 'Die Wagnerin und deren Mann haben allſchon gegen die Inquiſitin ausgeſagt.' != concatenated 'Die Wagnerin und deren Mann haben allſchon gegen die Inquiſitin ausgeſagt .'</error>
  <error>INCONSISTENCY in TextLine ID 'l1130' of file 'OUTPUT_00000024': text results 'Der Schnltheiß zu Oberrod, der Wirth Krebs und Hr. Notarus Tribert ſind bereits' != concatenated 'Der Schnltheiß zu Oberrod , der Wirth Krebs und Hr . Notarus Tribert ſind bereits'</error>
  <error>INCONSISTENCY in TextLine ID 'l1203' of file 'OUTPUT_00000024': text results 'abgehoͤret.' != concatenated 'abgehoͤret .'</error>
  <notice>fileGrp USE does not begin with 'OCR-D-': OUTPUT</notice>
</report>
1reaction
kbacommented, Feb 3, 2020

It does say so [in our PAGE specs]:

`@index` of the first (preferred) `<pg:TextEquiv>` must be the value 1.

I’m fairly certain I had a reason for that, could that be the convenion of Aletheia or TRANSKRIBUS?

Read more comments on GitHub >

github_iconTop Results From Across the Web

How to correct a #VALUE! error in the CONCATENATE function
You can build a formula that checks for an error in the cell reference, and if it does, display the text string where...
Read more >
Why am I getting this python concatenation error?
Its some kind of concatenation issue. What I don't understand is that the code will print when I concatenate other strings and when...
Read more >
How to concatenate strings using Python - KnowledgeHut
We will delve into different ways of concatenating strings including the + operator, * operator and % operator and take you through various ......
Read more >
How to concatenate keeping number/date formatting in Excel?
This section is talking about how to keep date format in the CONCATENATE function in Excel. 1. Select a blank cell you will...
Read more >
Python String Concatenation | DigitalOcean
This tutorial is aimed to explore different ways to concatenate strings in a python program.
Read more >

github_iconTop Related Medium Post

No results found

github_iconTop Related StackOverflow Question

No results found

github_iconTroubleshoot Live Code

Lightrun enables developers to add logs, metrics and snapshots to live code - no restarts or redeploys required.
Start Free

github_iconTop Related Reddit Thread

No results found

github_iconTop Related Hackernoon Post

No results found

github_iconTop Related Tweet

No results found

github_iconTop Related Dev.to Post

No results found

github_iconTop Related Hashnode Post

No results found