PDF: obávaný formát?

PŘIHLÁŠENÍ - MŮJ ÚČET

„Jediná kniha, která vás krok pro kroku provede fotografováním s digitální zrcadlovkou a přesně popíše všechny její funkce.

Základy práce v programu AutoCAD

Úvod a základní nastavení - Tato série článků je určena převážně pro začátečníky nebo mírně pokročilé uživatele. To ale neznamená, že i ti, kteří se s AutoCADem setkávají denně, by se nemohly dozvědět něco nového.

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce

Připravili jsme pro vás "obrazového průvodce", který – pevně věříme – bude vítanou praktickou pomocí.

Kompenzace expozice: naučme se ji používat

Minule jsme si vysvětlili, co je to automatické měření expozice a jak u digitálních fotoaparátů funguje. Dnes na toto téma úzce navážeme a ukážeme si, jak takové měření expozice můžeme přímo ovlivnit – rychle, jednoduše a bez složitých výpočtů a vzorečků. Ano! Řeč není o ničem jiném, než o expoziční kompenzaci!

Pečení holubi a božská mana v jednom! zn. zdarma a hned

Tady bych pána i paní poprosil kapkou krve o stvrzenčičku. Čekáte podraz? Nečekejte, nekoná se. Naopak se koná představení a praktická demonstrace nejlepšího zdarma pluginu CINEMY 4D, na který můžete momentálně narazit. Pluginu, který je nejenom skvělý, ale který je ještě skvělejší.

Fotosoutěže

Fotogalerie

Bazar

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

Zadejte e-mailovou adresu kamaráda:

Nabídka práce

27. ledna 2025

GRAFIK/ Grafický design - kreativa a DTP
20. března 2025

Tiskař/ka sítotiskového stroje
21. března 2025

výuka grafických programů
25. března 2025

DTP grafik s přesahem do obchodu
1. dubna 2025

Technická i tvůrčí fotografie
4. dubna 2025

Nejspolehlivější zaměstnanec
14. dubna 2025

Hledáme obchodního zastupce
17. dubna 2025

Dokončovací práce při výrobě a instalaci reklamy
17. dubna 2025

Kolega k digitální tiskárně

Poptávka práce

19. března 2025

Grafik technické dokumentace
31. března 2025

Tiskař pro velkoformátový tisk do dvousměnného provozu

Seriály

Více seriálů

Navigace: » » » »

skenerista, osvitář

4. listopadu 2005, 00.00 | Nedávno se na českém Internetu objevil názor, že PDF je zcela nevhodným formátem k
přenosu informací mezi uživateli. Je takovýto názor oprávněný? Proč vznikají problémy s
extrahováním textu z PDF dokumentů a jak jim lze předcházet? To se dočtete v našem
článku.

Před několika dny vyšel na serveru Lupa článek s působivým názvem "Obávaný formát? PDF!". Autor Karel Červený se v něm svěřuje s problémy, které měl při extrahování informací z PDF dokumentů a na základě těchto problémů dochází k velmi radikálnímu závěru: PDF je podle něj zcela nevhodným formátem k dokumentové výměně, při které je potřeba informace z dokumentů dále zpracovávat (prohledávání, přenos do jiných aplikací). (Upřímně řečeno, článek svým tónem možná vyznívá ještě radikálněji, v hodnocení jsme se nicméně drželi především faktů v článku sdělených.) Soudě nejen z článku, ale též některých reakcí, které zazněly v příslušné diskusi, existují dnes o možnostech a způsobech využití PDF daným způsobem značně zkreslené, zavádějící a často i zcela mylné představy. Podívejme se tedy, jak se věci mají doopravdy.

K samotnému článku

Autor označuje PDF za formát, který v něm "budí hrůzu a děs". A to proto, že se mu nedařilo a nedaří slušným způsobem extrahovat text z PDF dokumentů (problémy s pevnými konci řádků, export pouze určitého počtu stránek? aj.) a to při nasazení nejrůznějšího softwaru (Adobe Reader, Acrobat, nespecifikované freewarové prostředky). Vrcholem všeho pak byla kniha sázená původně v TeXu, pro kterou měl autor k dispozici jen PDF výstup, z něhož nebylo možno korektně přebírat slova s diakritikou, stejně tak nefungovalo prohledávání českých výrazů aj. Uvedené problémy vedou autora až ke krédu "soubor v PDF dostati - velké problémy míti". V závěru článku pak autor neopomene ještě vyjádřit názor, že schopnost vytvořit PDF výstup z OpenOffice a (výhledově) i z Microsoft Office povede jen k dalšímu zmnožení jim nastíněných "problémů".

Reagovat na "poselství" zmíněného článku lze ve dvou rovinách: první je daná přístupem autora k dané problematice, druhá problematikou samotnou. V prvním případě musíme konstatovat jen malou orientaci v dané problematice při značně omezených schopnostech problémy efektivně řešit. Příkladem ze všech nejlepší je nám autorův lament nad problémem s českými znaky v TeXovém výstupu: co bránilo požádat tvůrce podkladu o samotný zdrojový text sazby, z kterého české znaky samozřejmě dostat lze? Nebo třeba o výstup z TeXu do čistého textu, HTML či RTF, který lze (relativně snadno) zhotovit s pomocí odpovídajících převodníků? Možná že zde byly objektivní důvody, proč tak autor nemohl učinit, v článku o nich ale mlčí a vinu za své problémy apriori a zcela nesprávně svaluje na PDF. Rovněž výpad proti možnosti exportu do PDF v kancelářských balících je zcela zavádějící: uvedená funkce je určena především k tomu, aby uživatelé daného softwaru mohli vytvářet dokumenty zobrazitelné a tisknutelné nezávisle na platformě, což takto nemá nic společného s požadavkem informace z PDF extrahovat.

Kopírování textu v Adobe Readeru

Přesto, že téma je zpracováno poněkud neobjektivně a bez většího vhledu do problematiky (autor upřímně přiznává, že "s TeXem, PostScriptem ani Quarkem nepracuje", čímž chce asi naznačit, že v oblasti publikačních technologií není právě kovaný), má racionální jádro. Z PDF dokumentů se totiž text či obrázky k dalšímu zpracování často dostávají skutečně špatně. Pokusme se zamyslet nad tím, proč tomu tak je, a dále ukázat, jakými postupy lze daný typ problému alespoň z části eliminovat.

K čemu zde vlastně PDF je a k čemu ne?

Základním problémem daného článku (ale bohužel asi i těch uživatelů, kteří autorovi PDF k naznačenému účelu bez zpětné vazby zasílají) je nepochopení primárního účelu nasazení PDF v kancelářích či publikování: PDF má sloužit coby formát pro věrný přenos vizuálního podání dokumentu mezi uživateli, počítači a platformami. Odpovídající nástroje přitom dovolují PDF vytvořit z prostředí libovolné aplikace, takže příjemce PDF dokumentu může prohlížet a tisknout vizuálně věrně bez toho, že by disponoval aplikací, ve které byl původně dokument vytvořen - stačí příslušný PDF prohlížeč (Adobe Reader aj.). Uvedený účel dokáže PDF plnit velmi dobře, jedná se totiž o prostředek, který je postaven na stejném zobrazovacím modelu jako jazyk PostScript, a tudíž lze s jeho pomocí reprezentovat i tu nejsložitější typografii či grafiku. Prohlédnout si či vytisknout dokument připravený třeba i v té nejsofistikovanější sázecí aplikaci lze díky PDF kdykoli a kdekoli, bez toho, že by uživatel musel mít instalován daný program a vůbec musel do věci jakkoli investovat. Věrnost podání je pak obvykle skutečně zaručena, i když dlužno přiznat, že jsou situace, kdy nastanou problémy: například pokud není do dokumentu vloženo některé písmo, jež chybí na počítači příjemce, jsou použity složité pre-pressové charakteristiky aj. Tento problém je nicméně dán nepozorností či neschopností tvůrce dokumentu či použité aplikace, nikoli formátem samotným. Vyladit parametry dokumentu tak, aby byl skutečně bezproblémově zpracovatelný na zařízeních předtiskové přípravy (osvit) je pak, řekněme si na rovinu, tak trochu alchymií, discipliny jako preflight a formáty jako PDF/X nicméně dovolují stále více uvedený problém řešit snadno, bezbolestně a s dobrými výsledky.

Vraťme se ale k sekundárnímu využití PDF coby "kontejneru" pro přenosu textového obsahu (problematika obrázků představuje samostatnou kapitolu, kterou se v tomto článku zabývat nebudeme), kterého se vlastně inkriminovaný článek týká. Zde je třeba konstatovat, že vzhledem k množství způsobů, jakým lze PDF připravit (přes PostScript, GDI driver, PDF library, s pomocí zmíněného TeXu, skenováním aj.), stále ještě ne úplně dořešené podpoře národních znakových sad v příslušných nástrojích (zejména těch vyvíjených primárně pro angličtinu) a také problémům s některými ne právě vhodně lokalizovanými českými písmy lze snáze vytvořit dokument, z kterého se čeština bude extrahovat obtížně, než takový, jež bude zcela bezproblémový. Opomenuta by pak neměla být ani skutečnost, že tvůrce dokumentu z neznalosti či dokonce úmyslně (což ale asi není případ, kterým se zde zabýváme), může díky existenci odpovídajícího systému zabezpečení zakázat přenos obsahu z daného PDF dokumentu. Považovat PDF za primární platformu pro přenos textu mezi pracovišti tudíž rozhodně nejde, existují nicméně postupy, jak i tak daný úkol řešit uspokojivě.

Jak vyměňovat text v PDF?

Jsme-li postaveni skutečně před úkol připravit PDF dokument, z kterého bude druhá strana extrahovat text, musíme především sáhnout po vhodných nástrojích, a to na obou stranách. Jednoznačně nejlepší výsledky lze takto dosáhnout při nasazení Adobe Acrobatu, a to nejlépe v jeho nejvyšší, tj. sedmé verzi (nicméně i ta šestá již funguje dosti uspokojivě) - Adobe za poslední léta na možnostech přípravy dobře čitelného obsahu (mj. v souvislosti s tvorbou dokumentů pro čtecí zařízení zrakově postižených) poměrně zapracovala, a to i co se týká podpory národních abeced. Na straně příjemce by pak měl být alespoň Adobe Reader, zde už jsou ale možnosti extrahování omezeny, především co se týká zachování struktury dokumentu (tvrdé zalomení řádků) i komfortu převodu (uložení pouze do čistého textu, jinak přenos přes schránku). Částečně lze ale tento problém řešit, pokud dokument vytvoříme jako tagovaný (odpovídající úpravou v Acrobatu, s pomocí utility PDFMaker v Microsoft Office, přímým exportem z InDesignu aj.).

Co ale dělat, pokud není Acrobat k dispozici? Poměrně povrchně, ale přece, jsme vyzkoušeli převod dokumentů OpenOffice 2 s pomocí zabudované exportní funkce a zapnutou volbou pro tagované PDF, vytvořený dokument se pak v Readeru zobrazoval korektně a přes schránku jsme jeho obsah mohli přenášet i ve formátované podobě (zde se ovšem zachovala pouze kurziva a podtržení, tučný text se přenesl jako normální, důležitější bylo nicméně zachování struktury odstavců a kódování češtiny). V případě dalších aplikací pro tvorbu PDF, které lze bezplatně získat na Internetu, jsme odzkoušeli například PrimoPDF (korektní zobrazení i převod češtiny ovšem bez zachování struktury) a pdf995 (špatný přenos češtiny). PDF vytvořené v nejrozšířenější implementaci TeXu dneška na platformě Windows MikTeXu, pomocí české podoby LaTeXu, a to jak s pomocí převodníku dvipfm, tak pdfTeXu se zobrazovalo správně, ale přenos českých znaků správný nebyl - vycházeli jsme ovšem z výchozích nastavení a věc hlouběji nezkoumali (snad již existuje široce přijatý způsob, jak vytvořit český text bez použití virtuálních fontů). V tomto případě a také PDF, vytvořených v prostředí Mac OS X pomocí odpovídajícího driveru systému (redakční Mac nám nebyl v době psaní článku k dispozici), přivítáme jakékoli vyjádření čtenářů v diskusi.

Příprava PDF dokumentu v OpenOffice

A mimochodem, když všechny ostatní postupy selžou (tj. u PDF nelze ovlivnit způsob jeho vytvoření a extrahování je třeba), lze použít metodu hrubé síly. Ta spočívá v tom, že se dokument vytiskne a poté předá k rozpoznání odpovídajícímu OCR softwaru.

Jaký to má vlastně smysl?

Poněkud paradoxně, přihlédneme-li k dosavadnímu výkladu, se nyní chceme dotázat, zda má vlastně smysl používat PDF dokumenty jako prostředek výměny textového obsahu, určeného k dalšímu zpracování (čímž tak trochu dáváme zapravdu autorovi diskutovanému článku). Dle našeho názoru je zasílání pouhého PDF dokumentu k danému účelu nepříliš vhodné, zvlášť děje-li se tak "naslepo" (tj. bez znalosti podmínek pracoviště příjemce a nejsou-li přibaleny odpovídající instrukce, jak s pomocí bezplatných dostupných nástrojů informace extrahovat). PDF dokument by podle nás měl být vždy provázen i soubory v dalších formátech (DOC, RTF, HTML, TXT aj. - volba je dána konkrétními podmínkami, využít lze možnost přibalení takovýchto příloh přímo do daného PDF), které už nemusí mít úhledné formátování, dovolí ale příjemci s obsahem snadno dále pracovat. PDF pak poslouží jako dokument pro vytištění a kontrolní náhled, což je svým způsobem velmi užitečné i při daném typu výměny. A mimochodem, jde-li takto o celou skupinu PDF dokumentů, a tyto jsou připraveny dobře, lze nabídnout i možnost prohledávání na bázi indexů.

Závěrem

Nedomníváme se, že by se uživatelé měli PDF obávat, a to i v případě takového jeho nasazení "navíc", jakým je právě přenos textu v dokumentech tohoto formátu. Obávat se lze zde (jako v mnoha jiných případech) pouze neznalosti a také neschopnosti uživatelů, kterým ani ta nejlepší technologie nedovolí dobrat se uspokojivých výsledků. Vinit pak za neúspěch technologii je ovšem zcela jistě nesprávné.

V závěru článku bychom ještě rádi zdůraznili, že jsme se praktické stránky věci mohli v tomto článku dotknout jen okrajově. Zájemcům tedy doporučujeme jiné naše články na dané téma (viz odkazy výše a samozřejmě celou rubriku PDF našeho serveru), v diskusi pak přivítáme jakékoli připomínky, postřehy či podněty týkající se dané problematiky.

Tématické zařazení:

» Rubriky » VSE

» Rubriky » Go verze

» Rubriky » Sazba

» Rubriky » Polygrafie

» Rubriky » PDF - Adobe Acrobat

» Rubriky » Software

Nejčtenější články

14. května 2014

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
23. dubna 2014

Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
12. června 2012

Adobe Photoshop III: Tipy a triky pro pokročilé
9. dubna 2014

Kompenzace expozice: naučme se ji používat
5. ledna 2017

První číslo internetového magazínu IDIF v roce 2017 1/2017

Nejlépe hodnocené články

6. září 2004

OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
13. května 2004

Sony představilo dva nové notebooky pro kreativce
19. ledna 2004

QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
6. února 2001

HighWater v Polygře Brno
30. listopadu 2014

Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě

Nabídka bazar

14. října 2024

Mycí linka INPRO
9. ledna 2025

Bubnový scanner na 4000dpi optické rozlišení + PC + software
9. ledna 2025

Profesionální scaner Scanner Heidelberg TOPAZ I. optické rozlišení bez interpolace 3800DPI
17. ledna 2025

Pozice Grafik/grafička DTP - Studio 66, Praha 9
4. února 2025

HP Latex 700W
23. února 2025

koupím skener na diapozitivy
25. února 2025

Zvětšovák Opemus III
1. dubna 2025

Konica Minolta Accurio Print C2060L
17. dubna 2025

Prodám vybavení pro velkoformátovou výrobu

grafika.cz	Vše o počítačové grafice
fotografovani.cz	Digitální fotografie v praxi
idif.cz	Institut digitální fotografie
printing.cz	Tisk a pre-press
mujipod.cz	Apple iPOD rady, tipy a triky
mujmac.cz	Apple MAC
builder.cz	Server o programování
3dscena.cz	3D grafika jako na dlani

Technické (ovládání fotoaparátu)
		34%

Umělecké (portrét, akt, příroda...)
		23%

Grafické (úprava fotografií grafickým programem)
		43%

Jméno:
E-mail:
Telefon:
Zpráva:
Kontrola:	Do spodního pole opište z obrázku 5 znaků:
	Odeslat

Uživatelské jméno:
Heslo:
	Získat zapomenuté heslo

PDF: obávaný formát? - Grafika.cz - vše o počítačové grafice

skenerista, osvitář