Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!
Zadejte Vaši e-mailovou adresu:
Kamarád fotí rád?
Přihlas ho k odběru fotomagazínu!
Zadejte e-mailovou adresu kamaráda:
-
5. září 2024
Matrixmedia - Obsluha a tisk na velkoformátových digitálních tiskárnách
-
30. září 2024
-
4. října 2024
skenerista, osvitář
PDF: obávaný formát?
4. listopadu 2005, 00.00 | Nedávno se na českém Internetu objevil názor, že PDF je zcela nevhodným formátem k
přenosu informací mezi uživateli. Je takovýto názor oprávněný? Proč vznikají problémy s
extrahováním textu z PDF dokumentů a jak jim lze předcházet? To se dočtete v našem
článku.
Před několika dny vyšel na serveru Lupa článek s působivým názvem "Obávaný formát? PDF!". Autor Karel Červený se v něm svěřuje s problémy, které měl při extrahování informací z PDF dokumentů a na základě těchto problémů dochází k velmi radikálnímu závěru: PDF je podle něj zcela nevhodným formátem k dokumentové výměně, při které je potřeba informace z dokumentů dále zpracovávat (prohledávání, přenos do jiných aplikací). (Upřímně řečeno, článek svým tónem možná vyznívá ještě radikálněji, v hodnocení jsme se nicméně drželi především faktů v článku sdělených.) Soudě nejen z článku, ale též některých reakcí, které zazněly v příslušné diskusi, existují dnes o možnostech a způsobech využití PDF daným způsobem značně zkreslené, zavádějící a často i zcela mylné představy. Podívejme se tedy, jak se věci mají doopravdy.
K samotnému článku
Autor označuje PDF za formát, který v něm "budí hrůzu a děs". A to proto, že se mu nedařilo a nedaří slušným způsobem extrahovat text z PDF dokumentů (problémy s pevnými konci řádků, export pouze určitého počtu stránek? aj.) a to při nasazení nejrůznějšího softwaru (Adobe Reader, Acrobat, nespecifikované freewarové prostředky). Vrcholem všeho pak byla kniha sázená původně v TeXu, pro kterou měl autor k dispozici jen PDF výstup, z něhož nebylo možno korektně přebírat slova s diakritikou, stejně tak nefungovalo prohledávání českých výrazů aj. Uvedené problémy vedou autora až ke krédu "soubor v PDF dostati - velké problémy míti". V závěru článku pak autor neopomene ještě vyjádřit názor, že schopnost vytvořit PDF výstup z OpenOffice a (výhledově) i z Microsoft Office povede jen k dalšímu zmnožení jim nastíněných "problémů".
Reagovat na "poselství" zmíněného článku lze ve dvou rovinách: první je daná přístupem autora k dané problematice, druhá problematikou samotnou. V prvním případě musíme konstatovat jen malou orientaci v dané problematice při značně omezených schopnostech problémy efektivně řešit. Příkladem ze všech nejlepší je nám autorův lament nad problémem s českými znaky v TeXovém výstupu: co bránilo požádat tvůrce podkladu o samotný zdrojový text sazby, z kterého české znaky samozřejmě dostat lze? Nebo třeba o výstup z TeXu do čistého textu, HTML či RTF, který lze (relativně snadno) zhotovit s pomocí odpovídajících převodníků? Možná že zde byly objektivní důvody, proč tak autor nemohl učinit, v článku o nich ale mlčí a vinu za své problémy apriori a zcela nesprávně svaluje na PDF. Rovněž výpad proti možnosti exportu do PDF v kancelářských balících je zcela zavádějící: uvedená funkce je určena především k tomu, aby uživatelé daného softwaru mohli vytvářet dokumenty zobrazitelné a tisknutelné nezávisle na platformě, což takto nemá nic společného s požadavkem informace z PDF extrahovat.
Kopírování textu v Adobe Readeru
Přesto, že téma je zpracováno poněkud neobjektivně a bez většího vhledu do problematiky (autor upřímně přiznává, že "s TeXem, PostScriptem ani Quarkem nepracuje", čímž chce asi naznačit, že v oblasti publikačních technologií není právě kovaný), má racionální jádro. Z PDF dokumentů se totiž text či obrázky k dalšímu zpracování často dostávají skutečně špatně. Pokusme se zamyslet nad tím, proč tomu tak je, a dále ukázat, jakými postupy lze daný typ problému alespoň z části eliminovat.
K čemu zde vlastně PDF je a k čemu ne?
Základním problémem daného článku (ale bohužel asi i těch uživatelů, kteří autorovi PDF k naznačenému účelu bez zpětné vazby zasílají) je nepochopení primárního účelu nasazení PDF v kancelářích či publikování: PDF má sloužit coby formát pro věrný přenos vizuálního podání dokumentu mezi uživateli, počítači a platformami. Odpovídající nástroje přitom dovolují PDF vytvořit z prostředí libovolné aplikace, takže příjemce PDF dokumentu může prohlížet a tisknout vizuálně věrně bez toho, že by disponoval aplikací, ve které byl původně dokument vytvořen - stačí příslušný PDF prohlížeč (Adobe Reader aj.). Uvedený účel dokáže PDF plnit velmi dobře, jedná se totiž o prostředek, který je postaven na stejném zobrazovacím modelu jako jazyk PostScript, a tudíž lze s jeho pomocí reprezentovat i tu nejsložitější typografii či grafiku. Prohlédnout si či vytisknout dokument připravený třeba i v té nejsofistikovanější sázecí aplikaci lze díky PDF kdykoli a kdekoli, bez toho, že by uživatel musel mít instalován daný program a vůbec musel do věci jakkoli investovat. Věrnost podání je pak obvykle skutečně zaručena, i když dlužno přiznat, že jsou situace, kdy nastanou problémy: například pokud není do dokumentu vloženo některé písmo, jež chybí na počítači příjemce, jsou použity složité pre-pressové charakteristiky aj. Tento problém je nicméně dán nepozorností či neschopností tvůrce dokumentu či použité aplikace, nikoli formátem samotným. Vyladit parametry dokumentu tak, aby byl skutečně bezproblémově zpracovatelný na zařízeních předtiskové přípravy (osvit) je pak, řekněme si na rovinu, tak trochu alchymií, discipliny jako preflight a formáty jako PDF/X nicméně dovolují stále více uvedený problém řešit snadno, bezbolestně a s dobrými výsledky.
Vraťme se ale k sekundárnímu využití PDF coby "kontejneru" pro přenosu textového obsahu (problematika obrázků představuje samostatnou kapitolu, kterou se v tomto článku zabývat nebudeme), kterého se vlastně inkriminovaný článek týká. Zde je třeba konstatovat, že vzhledem k množství způsobů, jakým lze PDF připravit (přes PostScript, GDI driver, PDF library, s pomocí zmíněného TeXu, skenováním aj.), stále ještě ne úplně dořešené podpoře národních znakových sad v příslušných nástrojích (zejména těch vyvíjených primárně pro angličtinu) a také problémům s některými ne právě vhodně lokalizovanými českými písmy lze snáze vytvořit dokument, z kterého se čeština bude extrahovat obtížně, než takový, jež bude zcela bezproblémový. Opomenuta by pak neměla být ani skutečnost, že tvůrce dokumentu z neznalosti či dokonce úmyslně (což ale asi není případ, kterým se zde zabýváme), může díky existenci odpovídajícího systému zabezpečení zakázat přenos obsahu z daného PDF dokumentu. Považovat PDF za primární platformu pro přenos textu mezi pracovišti tudíž rozhodně nejde, existují nicméně postupy, jak i tak daný úkol řešit uspokojivě.
Jak vyměňovat text v PDF?
Jsme-li postaveni skutečně před úkol připravit PDF dokument, z kterého bude druhá strana extrahovat text, musíme především sáhnout po vhodných nástrojích, a to na obou stranách. Jednoznačně nejlepší výsledky lze takto dosáhnout při nasazení Adobe Acrobatu, a to nejlépe v jeho nejvyšší, tj. sedmé verzi (nicméně i ta šestá již funguje dosti uspokojivě) - Adobe za poslední léta na možnostech přípravy dobře čitelného obsahu (mj. v souvislosti s tvorbou dokumentů pro čtecí zařízení zrakově postižených) poměrně zapracovala, a to i co se týká podpory národních abeced. Na straně příjemce by pak měl být alespoň Adobe Reader, zde už jsou ale možnosti extrahování omezeny, především co se týká zachování struktury dokumentu (tvrdé zalomení řádků) i komfortu převodu (uložení pouze do čistého textu, jinak přenos přes schránku). Částečně lze ale tento problém řešit, pokud dokument vytvoříme jako tagovaný (odpovídající úpravou v Acrobatu, s pomocí utility PDFMaker v Microsoft Office, přímým exportem z InDesignu aj.).
Co ale dělat, pokud není Acrobat k dispozici? Poměrně povrchně, ale přece, jsme vyzkoušeli převod dokumentů OpenOffice 2 s pomocí zabudované exportní funkce a zapnutou volbou pro tagované PDF, vytvořený dokument se pak v Readeru zobrazoval korektně a přes schránku jsme jeho obsah mohli přenášet i ve formátované podobě (zde se ovšem zachovala pouze kurziva a podtržení, tučný text se přenesl jako normální, důležitější bylo nicméně zachování struktury odstavců a kódování češtiny). V případě dalších aplikací pro tvorbu PDF, které lze bezplatně získat na Internetu, jsme odzkoušeli například PrimoPDF (korektní zobrazení i převod češtiny ovšem bez zachování struktury) a pdf995 (špatný přenos češtiny). PDF vytvořené v nejrozšířenější implementaci TeXu dneška na platformě Windows MikTeXu, pomocí české podoby LaTeXu, a to jak s pomocí převodníku dvipfm, tak pdfTeXu se zobrazovalo správně, ale přenos českých znaků správný nebyl - vycházeli jsme ovšem z výchozích nastavení a věc hlouběji nezkoumali (snad již existuje široce přijatý způsob, jak vytvořit český text bez použití virtuálních fontů). V tomto případě a také PDF, vytvořených v prostředí Mac OS X pomocí odpovídajícího driveru systému (redakční Mac nám nebyl v době psaní článku k dispozici), přivítáme jakékoli vyjádření čtenářů v diskusi.
Příprava PDF dokumentu v OpenOffice
A mimochodem, když všechny ostatní postupy selžou (tj. u PDF nelze ovlivnit způsob jeho vytvoření a extrahování je třeba), lze použít metodu hrubé síly. Ta spočívá v tom, že se dokument vytiskne a poté předá k rozpoznání odpovídajícímu OCR softwaru.
Jaký to má vlastně smysl?
Poněkud paradoxně, přihlédneme-li k dosavadnímu výkladu, se nyní chceme dotázat, zda má vlastně smysl používat PDF dokumenty jako prostředek výměny textového obsahu, určeného k dalšímu zpracování (čímž tak trochu dáváme zapravdu autorovi diskutovanému článku). Dle našeho názoru je zasílání pouhého PDF dokumentu k danému účelu nepříliš vhodné, zvlášť děje-li se tak "naslepo" (tj. bez znalosti podmínek pracoviště příjemce a nejsou-li přibaleny odpovídající instrukce, jak s pomocí bezplatných dostupných nástrojů informace extrahovat). PDF dokument by podle nás měl být vždy provázen i soubory v dalších formátech (DOC, RTF, HTML, TXT aj. - volba je dána konkrétními podmínkami, využít lze možnost přibalení takovýchto příloh přímo do daného PDF), které už nemusí mít úhledné formátování, dovolí ale příjemci s obsahem snadno dále pracovat. PDF pak poslouží jako dokument pro vytištění a kontrolní náhled, což je svým způsobem velmi užitečné i při daném typu výměny. A mimochodem, jde-li takto o celou skupinu PDF dokumentů, a tyto jsou připraveny dobře, lze nabídnout i možnost prohledávání na bázi indexů.
Závěrem
Nedomníváme se, že by se uživatelé měli PDF obávat, a to i v případě takového jeho nasazení "navíc", jakým je právě přenos textu v dokumentech tohoto formátu. Obávat se lze zde (jako v mnoha jiných případech) pouze neznalosti a také neschopnosti uživatelů, kterým ani ta nejlepší technologie nedovolí dobrat se uspokojivých výsledků. Vinit pak za neúspěch technologii je ovšem zcela jistě nesprávné.
V závěru článku bychom ještě rádi zdůraznili, že jsme se praktické stránky věci mohli v tomto článku dotknout jen okrajově. Zájemcům tedy doporučujeme jiné naše články na dané téma (viz odkazy výše a samozřejmě celou rubriku PDF našeho serveru), v diskusi pak přivítáme jakékoli připomínky, postřehy či podněty týkající se dané problematiky.
-
14. května 2014
Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
-
23. dubna 2014
Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
-
12. června 2012
-
9. dubna 2014
-
29. listopadu 2013
-
6. září 2004
OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
-
13. května 2004
-
19. ledna 2004
QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
-
6. února 2001
-
30. listopadu 2014
Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě
-
5. srpna 2024
Bubnový scanner na 4000dpi optické rozlišení + PC + software
-
8. září 2024
-
14. října 2024
-
5. listopadu 2024