Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!
Zadejte Vaši e-mailovou adresu:
Kamarád fotí rád?
Přihlas ho k odběru fotomagazínu!
Zadejte e-mailovou adresu kamaráda:
-
30. září 2024
-
4. října 2024
-
14. listopadu 2024
-
11. prosince 2024
skenerista, osvitář
Tagované PDF v teorii a praxi: Teorie
3. února 2003, 00.00 | Co nabízí koncept tagovaného PDF? V tomto článku se pokusíme o
obecné nastínění výhod a principů této technologie.
Několik posledních let se v publikačním průmyslu ozývají stále více hlasy, volající po důslednějším strukturování zde zpracovávaných informací, respektive oddělení obsahu od jeho vizuální prezentace. Uvedeným způsobem by mělo být dosaženo především výrazného usnadnění publikování téhož obsahu na různých médiích (cross-media publishing) a automatizovanějších a pružnějších publikačních toků. Uvedená motivace se odrazila především ve vývoji standardu XML a jeho nejrozmanitějších aplikací, vedle toho se někteří výrobci pokusili uvedeným způsobem modifikovat i své stávající formáty. Konkrétně zde máme na mysli zejména společnost Adobe, která se snaží zmíněnou strukturaci zavést do svého Portable Document Formatu (PDF). V našem článku se pokusíme podívat na dosavadní výsledky snažení Adobe v uvedené oblasti, a to zejména s ohledem na praktickou využitelnost zmíněné technologie.
Nestrukturované PDF a jeho problémy
Základní, tedy nestrukturovaná podoba PDF dokumentu, vycházející z formátu PostScript, nabízí velmi kvalitní možnosti zobrazovaní textu a grafiky, ale trpí některými problémy, které se s postupným vývojem publikačních technologií začínají projevovat čím dál tím palčivěji. Konkrétně můžeme zmínit například tyto:
Rozdíl mezi vizuální a interní reprezentací textu
Textové informace obsažené v PDF dokumentu mohou být na interní
úrovni reprezentovány velmi rozmanitým způsobem. To znamená, že i
když je tentýž textový obsah vizuálně zcela v pořádku, může po
jeho přenesení do jiné aplikace (schránka, export) dojít k
špatnému interpretování některých znaků (znaky národních abeced,
dělítka atp.). Uvedený problém se dále odráží při zpracování PDF
dokumentů pomocí internetových indexovačů.
Nemožnost dynamického přeformátování (reflow) textu
Nestrukturovaný PDF dokument nedisponuje žádnými mechanismy,
vedoucími k jeho přeformátování při změně rozměrů stránky, ať už
zde hovoříme o pouhém prohlížení na obrazovce či tisku. Uvedené
omezení se projevuje různými způsoby: Při prohlížení dokumentů,
určených pro tiskovou produkci (zejména vícesloupcových) v
prohlížeči má uživatel značně ztíženou navigaci (nutnost rolování,
změn velikosti zobrazení ad.). Obdobný problém pak ještě výrazněji
pociťují uživatelé personálních digitálních asistentů (PDA).
Naopak dokumenty, původně optimalizované pro obrazovku, znamenají
při tisku značné plýtvání papírem.
Absence informací o logické struktuře
Zejména při skupinovém korigování podkladů v PDF formátech může
působit problém absence informací o postavení daného elementu ve
struktuře dokumentu. Korektor dokumentu se může mnohdy jen
dohadovat na základě vizuálních charakteristik daného textu, o
jakou úroveň nadpisu se jedná, zda daný text patří k záhlaví či
zápatí dokumentu nebo do hlavního textu atp.
Problematické zpracování zařízeními pro zrakově postižené
Na stále větší naléhavosti získává v posledních letech potřeba
zpřístupnit obsah PDF dokumentů i zrakově postiženým osobám
(zejména v souvislosti s aktivitou legislativy USA, označenou jako
Section 508 i dalšími obdobnými projekty, které si za své bere
stále více softwarových firem i jiných subjektů, a to jak v
zahraničí, tak v ČR). Nestrukturované PDF přitom představuje ve
stávajících čtecích zařízeních řadu komplikací. Zmínit můžeme
například již výše zmíněnou odlišnou interní interpretaci textu,
absenci informací o logické struktuře či prakticky nulovou možnost
informací o obrázcích a dalších grafických prvcích umístěných na
stránce (v podobě alternativních popisek, přibližujících obsah
daného grafického prvku).
Perfektní ukázkou tagovaného PDF je nápověda Adobe Acrobatu 5.
Tagované (strukturované) PDF a jeho výhody
Vzhledem k výše naznačeným problémům nabídla Adobe již v předchozí verzi PDF (1.3) a Adobe Acrobatu (4) koncept tzv. strukturovaného PDF. (Pomineme-li poměrně kuriózní skutečnost, že jeden ze zakladatelů Adobe, John Warnock, se již na začátku devadesátých let pokusil naznačeným způsobem zkombinovat PostScript a SGML.) Ten byl pak dále rozpracován a doplněn v PDF 1.4 (resp. Acrobatu 5), kde dostal označení tagované (tagged) PDF. Vzhledem k tomu, že strukturované PDF je v podstatě podformátem PDF tagovaného, zahrneme výklad o něm do našeho popisu tagovaného PDF.
Základní rysy tagovaného PDF dokumentu jsou následující:
Kódování v Unicode
Veškerý textový obsah tagovaného PDF dokumentu je jednoznačně
popsán pomocí standardu Unicode. To znamená, že u každého znaku je
zřejmý nejen jeho vzhled, ale i význam (například je zřejmý rozdíl
mezi měkkým a tvrdým dělítkem, znakem mínus a pomlčkou).
Strom logické struktury
Jednotlivé prvky PDF dokumentu (rastrová a vektorová grafika, text
a komentáře) jsou vyznačeny (označkovány) jako elementy, sdružené
do stromové struktury. K dispozici jsou elementy předdefinované
(pro nadpisy, seznamy, tabulky, obrázky apod.), dále pak lze
definovat elementy vlastní. K usnadnění výměny vlastních elementů
mezi různými dokumenty slouží tzv. mapa využití (RoleMap),
zajišťující převod uvedeného typu elementů na předdefinované.
Každý element může mít přiřazen jeden nebo více atributů, elementy
se stejnými atributy lze sdružovat do tzv. tříd. Logicky sdruženým
prvkům je možno přiřadit tzv. tagované záložky, jejichž pomocí pak
lze manipulovat s daným obsahem (členěným podle logické struktury
a nikoli fyzického pořadí) obdobně, jako je tomu v případě záložek
normálních.
Artefakty
V rámci tagovaného PDF je provedeno rozlišení mezi důležitým
(autorským) obsahem dokumentu a tzv. artefakty, což jsou prvky,
mající pomocnou roli při zpracování daného dokumentu. Konkrétně se
jedná například o ořezové značky, obsah záhlaví či zápatí nebo
dělící prvky (čáry mezi sloupci či nad poznámkami apod.). Při
různých úkonech prováděných s tagovaným PDF dokumentem (export,
zpracování čtecím zařízením apod.) lze tedy tyto prvky částečně či
zcela ignorovat.
Pořadí čtení textu
U tagovaného PDF dokumentu musí být jasně stanoveno pořadí čtení
textu. To má svůj význam zejména v případě složitějších dokumentů
s rámečky či sloupci. Využívá se zejména při zpracování textu
čtecími zařízeními či při exportu obsahu dokumentu.
Alternativní text
Jednotlivým prvkům struktury je možno přiřadit tzv. alternativní
text. Ten má svůj význam například při zpracování grafických prvků
či interpretování zkratek ve čtecích programech.
Naznačené vlastnosti tagovaného PDF přinášejí mimo jiné následující výhody:
Dynamické přeformátování textu
Odpovídající aplikace dokáží při zobrazení obsah tagovaného PDF
dokumentu přizpůsobit rozměrům obrazovky. Konkrétně je tato funkce
podporována Adobe Acrobatem i Readerem verze 5, a to i na
mobilních platformách. Podrobněji se k využití této funkce vrátíme
v další části tohoto článku.
Preciznější konverze
Při převodu tagovaného PDF do formátů typu RTF lze zohlednit
tagované prvky, jako jsou nadpisy, tabulky či výčty. Bezplatně
dostupný plug-in Acrobatu Save as XML (na který se blíže podíváme
někdy příště) pak umožňuje sofistikovaný převod do HTML nebo XML
souborů.
Dostupnost zrakově postiženým
Zavedení tagovaného PDF odstraňuje nebo přinejmenším alespoň
částečně řeší problémy, spojené se zpřístupněním obsahu PDF
dokumentů zrakově postiženým.
Závěrem
Jak jsme se pokusili ukázat, důvodů k zavedení strukturace do PDF je skutečně celá řada, a nasazení strukturovaného či tagovaného PDF je tudíž mnohdy víc jak žádoucí. V příští části tohoto článku se proto podíváme na to, jakými konkrétními prostředky lze v současnosti tagované PDF vytvářet a zpracovávat.
-
14. května 2014
Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
-
23. dubna 2014
Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
-
12. června 2012
-
9. dubna 2014
-
5. ledna 2017
-
6. září 2004
OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
-
13. května 2004
-
19. ledna 2004
QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
-
6. února 2001
-
30. listopadu 2014
Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě
-
14. října 2024
-
22. října 2024
-
14. listopadu 2024
-
10. prosince 2024