PDF is een complex formaat, en de taak van een echte PDF editor wordt complexer gemaakt doordat verschillende PDF generators verschillende optimalisaties in de output stoppen. Vaak wordt de tekst gerenderd als Postscript strokes, en wordt het document doorzoekbaar gemaakt door de tekst er als onzichtbare laag zonder opmaak aan toe te voegen. Dat maakt het document erg lastig te bewerken, want de tekst die je makkelijk kan herkennen heeft geen opmaak, terwijl de strokes die je ziet niet meer gekoppeld zijn aan de onderliggende tekst. Ook tekst flow valt vaak weg: veel PDF's zijn niet van boven naar beneden en van links naar rechts opgebouwd.
Je kunt dat verschil altijd mooi zien als je pdftotext een keer zonder opties, en daarna nog een keer met de -layout optie draait. Bij sommige PDF documenten staat de tekst schots en scheef door elkaar zonder -layout, je ziet dan de tekst in de stream volgorde.
Er is heel veel opmaak waar libreOffice draw naar moet raden.
Naar mijn smaak de beste "echte" PDF editor is Master PDF Editor. Helaas nog niets als open source gezien wat ook maar in de buurt komt. De leercurve van Master PDF Editor is helaas steil, wat komt doordat Master PDF Editor echt heel veel kan: annoteren, tekst of afbeeldingen onzichtbaar maken of verwijderen (redigeren), tot en met complexe PDF objecten toevoegen. Bij dat redigeren doet Master PDF Editor het goed: de strokes en de onzichtbare tekst worden allebei verwijderd, zover ik kan zien. Er zijn ooit FBI documenten vrijgegeven waarin namen met Acrobat waren weggelakt, maar de laklaag kon met Acrobat weer worden verwijderd. Oeps.
[edit:typos]
[Reactie gewijzigd door d3burt op 22 juli 2024 15:14]