Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!
Zadejte Vaši e-mailovou adresu:
Kamarád fotí rád?
Přihlas ho k odběru fotomagazínu!
Zadejte e-mailovou adresu kamaráda:
-
5. září 2024
Matrixmedia - Obsluha a tisk na velkoformátových digitálních tiskárnách
-
30. září 2024
-
4. října 2024
Příslušenství
Zpracujte své PDF-dokumenty pomocí nástrojů z Xpdf
5. září 2001, 00.00 | Potřebujete z PDF dokumentu extrahovat text či obrázky a nestačí
vám Acrobat Reader? Chcete zkonvertovat PDF do PostScriptu? Pak se
vám možná bude hodit freewarová sada převodníků dodávaných s
prohlížečem Xpdf.
Čím více se PDF stává publikačním standardem dneška, tím více přibývá nároků na jeho zpracování. Jedním z logických požadavků je zde možnost zpětného extrahování textových či obrazových informací. Obvyklým důvodem tohoto převodu bývá nedostupnost původní předlohy daného dokumentu. K uvedenému účelu je dnes k dispozici celá řada nástrojů různé výkonnosti a pochopitelně i ceny. Základní možnosti poskytuje freewarový Adobe Acrobat Reader (Text a Graphics Select Tools), jeho funkce pak rozšiřuje samotný Acrobat a jeho pluginy i samostatné aplikace od dalších výrobců. My se dnes podíváme na překvapivě výkonnou sadu řádkových utilit, tvořící doplněk alternativního prohlížeče PDF-souborů Xpdf, která je dostupná zcela zdarma.
Download, instalace
Xpdf je prohlížeč PDF souborů,
vyvíjený k použití v systému X Windows na platformách Unix, VMS a
OS/2. Jeho největšími výhodami jsou rychlost, nenáročnost a volně
dostupný zdrojový kód, který jej umožnil přeportovat i na různé
další platformy (Acorn, Amiga , BeOS, Epoc). "Přidanou hodnotu"
tohoto prohlížeče pak zvyšuje několik utilit pro převod
a extrahování PDF-dokumentu. Vedle kompilovaných verzí pro různé klony Unixu
(Solaris, Linux ad.) jsou k dispozici i různé spustitelné podoby
uvedených utilit (bez samotného Xpdf a převodníku pdftobmp) pro
Windows, z kterých je k okamžitému používání určena
tato.
Instalace balíku je velmi snadná - v podstatě jej stačí rozbalit a pak
už je ihned možné začít jednotlivé nástroje používat. Ke každému nástroji je
přiložen textový soubor, popisující podrobně jeho funkci i jednotlivé
přepínače.
Autorem prohlížeče i přídavných utilit je Derek B. Noonburg.
Popis jednotlivých utilit
pdftotext
Umožňuje obsah PDF souboru převést do textového souboru.
Podporováno je několik typů kódování (sedmibitové ASCII, Latin 1,
Latin 2, Latin 5, EUC-JP - tedy japonština). Při převodu složitěji
strukturovaného textu (sloupce, tabulky) přijde vhod volba -raw,
která se pokusí obsah převáděného souboru "linearizovat", to jest
odstranit např. formátování do sloupců. Extrahování lze provést
pouze se zvolenými stránkami (od/do) a také u uzamčených souborů (je
potřeba zadat heslo).
pdfimages
Slouží k extrahování obrázků z PDF dokumentu. Implicitně jsou
obrázky převedeny do formátů PBM (Portable Bitmap - pro
monochromatické obrázky) a PPM (Portable Pixmap - pro ostatní
obrázky), přepínač -j zajistí, že se obrázky uložené do PDF
dokumentu ve formátu DCT převedou do JPEG. Možné je opět
extrahování pouze zvolených stránek a uzamčených souborů.
pdftops
Převede PDF-soubor do PostScriptu. Při
převodu je možno určit (v bodech) šířku a výšku stránky
vygenerovaného postscriptového dokumentu. Zajímavé možnosti jsou
při volbě formátu vytvořeného PostScriptu: implicitně je užit
PostScript Level 2. Dále lze zvolit Level 1 (kompatibilní se
zařízeními Level 1, ale generuje soubor, který je pouze černobílý a většího objemu než u Level
2), separovatelný Level 1 (obrázky
převedeny do CMYK) a EPS (lze převést vždy pouze jednu stránku).
Přepínač -opi extrahuje všechny vložené OPI komentáře. Při
generování se implicitně do postscriptového souboru kopírují
vložené Type 1 fonty, tuto možnost lze zakázat přepínačem -noemb.
(Převodník nepodporuje TrueType a Type 3.) Přepínač -form převede
dokument do formulářového postscriptového souboru (konvertuje se
pouze první strana). Obdobně jako u předchozích utilit lze
pracovat s určeným stránkovým rozsahem a uzamčenými soubory.
pdfinfo
Spíše doplňková utilita, vypisující pro daný PDF-soubor jeho Info
Dictionary (titul, subjekt, klíčová slova, autor, tvůrce atd.)
spolu s několika dalšími doplňkovými informacemi (počet stránek,
zabezpečení, ...).
pdftopbm
Převede PDF dokument do série černobílých obrázků ve formátu PBM
(každé stránce odpovídá jeden soubor). U převodu lze stanovit
výsledné rozlišení (implicitně 150 dpi) a stránkový rozsah. Ke
svému chodu požaduje X server a tak není v současnosti dostupný
pro Windows.
Závěrem
Při užívání sady pod Windows jsme zaznamenali různou úspěšnost
převodu. Hodně záleželo především na způsobu, jakým byl vytvořen
předlohový soubor. Svou cenovou a hardwarovou nenáročností i
značnou flexibilitou (možnost automatizovaného nasazení v dávkách
apod.) se každopádně všechny nástroje jeví jako dobře použitelné,
a to zejména u nepříliš složitě strukturovaných anglických
dokumentů. Pokud vám při extrahování informací z PDF-dokumentů
nestačí Acrobat Reader, a nechcete rovnou investovat do Acrobatu a
komerčních převodníků (jejichž úspěšnost také rozhodně není
stoprocentní), stojí vám popsaná sada určitě za vyzkoušení.
Tématické zařazení:
-
14. května 2014
Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
-
23. dubna 2014
Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
-
12. června 2012
-
9. dubna 2014
-
29. listopadu 2013
-
6. září 2004
OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
-
13. května 2004
-
19. ledna 2004
QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
-
6. února 2001
-
30. listopadu 2014
Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě
-
5. srpna 2024
Bubnový scanner na 4000dpi optické rozlišení + PC + software
-
8. září 2024
-
14. října 2024
-
5. listopadu 2024