Skriptujeme InDesign (17): Regulární výrazy

PŘIHLÁŠENÍ - MŮJ ÚČET

„Jediná kniha, která vás krok pro kroku provede fotografováním s digitální zrcadlovkou a přesně popíše všechny její funkce.

Základy práce v programu AutoCAD

Úvod a základní nastavení - Tato série článků je určena převážně pro začátečníky nebo mírně pokročilé uživatele. To ale neznamená, že i ti, kteří se s AutoCADem setkávají denně, by se nemohly dozvědět něco nového.

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce

Připravili jsme pro vás "obrazového průvodce", který – pevně věříme – bude vítanou praktickou pomocí.

Kompenzace expozice: naučme se ji používat

Minule jsme si vysvětlili, co je to automatické měření expozice a jak u digitálních fotoaparátů funguje. Dnes na toto téma úzce navážeme a ukážeme si, jak takové měření expozice můžeme přímo ovlivnit – rychle, jednoduše a bez složitých výpočtů a vzorečků. Ano! Řeč není o ničem jiném, než o expoziční kompenzaci!

Pečení holubi a božská mana v jednom! zn. zdarma a hned

Tady bych pána i paní poprosil kapkou krve o stvrzenčičku. Čekáte podraz? Nečekejte, nekoná se. Naopak se koná představení a praktická demonstrace nejlepšího zdarma pluginu CINEMY 4D, na který můžete momentálně narazit. Pluginu, který je nejenom skvělý, ale který je ještě skvělejší.

Fotosoutěže

Fotogalerie

Rubriky

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

Zadejte e-mailovou adresu kamaráda:

Nabídka práce

27. ledna 2025

GRAFIK/ Grafický design - kreativa a DTP
18. února 2025

Technik dokončovacích prací
20. března 2025

Tiskař/ka sítotiskového stroje
21. března 2025

výuka grafických programů
25. března 2025

DTP grafik s přesahem do obchodu

Poptávka práce

19. března 2025

Grafik technické dokumentace

Seriály

Více seriálů

Navigace: » » »

Sazba

Adobe InDesign sazba

23. června 2006, 00.00 | Velmi silný, ale ne zrovna snadno použitelný prostředek. Tak nějak bychom mohli popsat
použití regulárních výrazů při skriptování v InDesignu. Více už v našem článku.

Jak jsme již přislíbili, v této části našeho seriálu se budeme věnovat regulárním výrazům, prostředkům umožňující výrazně zefektivnit zpracování textového obsahu v InDesignu pomocí skriptů. Nicméně jak se z našeho výkladu záhy ukáže, nejedná se o nástroj, který by byl osvojitelný během chvilky.

Co jsou regulární výrazy?

Pod pojmem regulární výraz se rozumí výraz - vzor, dovolující popsat vlastnost určitého textového řetězce. Na základě tohoto popisu je možno regulární výraz použít jak při hledání, tak i nahrazování textového obsahu (a samozřejmě i dalších transformacích či jiném využití nalezeného obsahu, v případě InDesignu je to typicky formátování nalezených řetězců). Oproti funkci pro hledání a nahrazení v InDesignu, kterou jsme si popsali v minulých dílech našeho seriálu, jsou regulární výrazy podstatně univerzálnějším prostředkem a dovolují zapsat a následně tedy i zpracovat výrazy, pro jejichž vyjádření nemá daná vyhledávací funkce adekvátní prostředky. Daní placenou za tuto možnost je ovšem potřeba naučit se ne právě jednoduchá pravidla pro tvorbu regulárních výrazů a také použít určité skriptovací konstrukce, neboť přímočaré použití ve stylu výše popsané vyhledávací funkce InDesignu možné není - podpora regulárních výrazů je zde pro obecný JavaScript a její nasazení v rámci skriptování InDesignu je tak trochu navíc.

Základní pravidla pro tvorbu regulárních výrazů

V JavaScriptu existují dva způsoby, jak definovat regulární výraz. První je založen na použití výrazu - literáru ve tvaru:

/regulární_výraz/modifikátor

Syntaxi pro regulární_výraz probereme dále, nepovinné modifikátory mohou být g (zpracovávají se všechny výskyty výrazu), i (vyhledává se bez rozlišování malých a velkých písmen) či m (zpracování se týká víceřádkového režimu při použití značek ^ a $ - viz další popis). Je-li použito modifikátorů více, mohou se psát vedle sebe bez ohledu na pořadí.

Pokud tedy ve skriptu napíšeme:

var myRegVyr=/abc/gi;

definujeme tím proměnnou myRegVyr, která obsahuje regulární výraz abc a je určena k použití globálně a bez rozlišování malých a velkých písmen při hledání shody.

V druhém případě používáme konstruktoru RegExp, vytvoření nového regulárního výrazu vypadá následovně

new RegExp("regulární_výraz", "modifikátory")

přičemž význam proměnných regulární_výraz a modifikátory je stejný jako v předchozím případě. Příklad použití (odpovídá významem předchozímu příkladu):

var myRegVyr=("abc","gi");

Pravidla pro zápis regulárních výrazů jsou poměrně komplikovaná a jejich podrobnější výklad jednak překračuje rozsah tohoto článku a navíc by zde byl značně samoúčelný. Podívejme se tedy na tomto místě pouze na základní konstrukty, které postačí v mnoha běžných situacích.

Za nejjednodušší typ regulárního výrazu lze považovat takový, který se skládá z obvyklých znaků (písmena, čísla, oddělovače apod.). S takovýmto výrazem je shodný řetězec obsahující přesně danou posloupnost znaků (např. abc odpovídá řetězci abc). Použít lze nicméně i tzv. ESC sekvence, s jejichž pomocí se zapisují některé znaky speciální. Konkrétně to mohou být třeba \n (nový řádek) či \t (tabelátor). Dále lze pro zápis znaku použít sekvenci \xnn (znak, který má v ASCII pořadí nn, přičemž nn je šestnáctkové číslo) či \uxxxx (znak, který má v Unicode šestnáctkové pořadí xxxx, např. pevnou mezeru zapíšeme jako \u00A0, znak stupně jako \00B) atp.). Některé obvyklé znaky mohou mít při použití v regulárních výrazech speciální význam (hovoří se pak o nich jako o metaznacích - viz dále), k vypnutí tohoto speciálního významu jim předřadíme lomítko (tedy \\ značí znak lomítka, \* značí hvězdičku, \+ značí plus atp.).

Na síle dodává regulárním výrazům možnost definovat tzv. třídy znaků. Ty určují nikoli jen konkrétní znak, ale celou skupinu znaků splňující zadané kritérium. Konkrétně lze takto použít zápis [znaky], který v hranatých závorkách určuje skupinu znaků do které musí patřit znaky řetězce shodujícího se s daným regulárním výrazem. Skupinu znaků lze přitom zapsat například s pomocí výčtu (např. [abc9] znamená, že se řetězec může skládat pouze se znaků a, b, c a 9) nebo intervalu (zápis [a-z0-9] určuje, že se řetězec může skládat pouze ze znaků v intervalu a-z a číslic od 0 do 9). Zápisem [^znaky] pak naopak určujeme skupinu znaků, které se v řetězci vyskytovat nesmí (takže [^0-9] určuje, že se v řetězci nesmí vyskytovat čísla). Znak tečky . zastupuje libovolný jediný znak, vyjma konce řádku. Sekvence \w stanoví, že daná série znaků patří slovu (ekvivalent zápisu [a-zA-Z0-9_]), \W naopak stanovuje, že znaky nepatří do slova. Zápis \s určuje mezeru či jiný "bílý" znak (tedy třeba i tabulátor, konec řádku atp.), \S naopak libovolný znak, který není mezera v daném smyslu. Číslici určuje zápis \d (ekvivalent [0-9]), znak, který není číslicí pak znak \D.

Znaky opakování, jinak též kvantifikátory, pak určují, kolikrát se shoda může či musí opakovat. Metaznak ? takto určuje jedno nebo žádné opakování, + stanovuje, že se předchozí výraz vyskytuje minimálně jedenkrát, * pak, že předcházející výraz je nalezen v libovolném počtu výskytů, včetně žádného. S pomocí zápisu {n} lze určit, že se předchozí výraz vyskytuje právě n-krát, v případě zápisu {n,} právě n-krát nebo vícekrát a {n,m} pak nejméně n-krát a nejvíce m-krát.

U řetězců lze dále upřesnit jejich pozici, stanovující shodu. Znak ^ takto stanovuje, že se shoda musí vyskytovat na začátku řetězce nebo (byl-li použit u regulárního výrazu modifikátor m pro víceřádkový režim - viz výklad výše) řádku. Obdobně znak $ určuje shodu na konci řetězce či řádku. Výraz \b znamená, že se shoda týká rozhraní mezi slovy, v případě \B pak naopak jakékoli jiné pozice. Výraz (?=vzor) určuje, že následující znaky musí odpovídat výrazu vzor, ale do výsledků se nezahrnují, (?!vzor) naopak říká že následující znaky vzoru nesmí odpovídat.

Konečně je ještě třeba zmínit znaky pro seskupování. Výraz a|b říká, že shoda musí nastat buďto s výrazem a nebo s výrazem b (např. výraz abc|bcd stanovuje shodu s jedním z uvedených výrazů.). Uzavřením výrazu do závorek, tedy použitím vzoru (výraz), dojde k tomu, že je daný výraz zapamatován k pozdějšímu použití jako tzv. podvýraz, a to pod číslem, které odpovídá jeho pořadí ve výrazu. Dále je na něj možno odkazovat při vyhledávání s pomocí zápisu \n, kde n je číslo podvýrazu, či při nahrazování s pomocí zápisu $n, kde n je opět číslo skupiny. Takže například k vyhledání pětiznakového palindromu (řetězce, jež se čte stejně z obou stran) použijeme výraz (.)(.)(.)$2$1.

Tolik tedy v základu o syntaxi regulárních výrazů. Pro podrobnější výklad je zde k dispozici řada zdrojů, jmenujme takto alespoň referenční příručku JavaScriptu a seriál na serveru Interval. Je navíc vhodné zdůraznit, že pro mnoho situací se již někdo pokoušel regulární výraz vytvořit a i když nemusí být syntaxe takovéhoto výrazu stoprocentně spolehlivá a i když je pochopení či úprava regulárního výrazu mnohdy náročnější nežli vytvářet takovýto výraz zcela od základu, jmenujme několik zdrojů takovýchto výrazů. Konkrétně to tedy jsou třeba www.regularnivyrazy.info, Regexp.cz či RegExLib.

Nasazení regulárních výrazů v JavaScriptu

V rámci obecného JavaScriptu lze regulární výrazy použít v podstatě dvěma způsoby. První vychází z odpovídajících metod objektu String, a to především match, search a replace (dále je k dispozici i metoda split, ta pro nás v tuto chvíli nemá přílišný význam).

Match má syntaxi

match(regulární_výraz)

a vyhledává v daném řetězci úseky odpovídající zadanému regulárnímu výrazu, jako výsledek vrací pole s nalezenými výrazy. Pokud není nalezen ani jeden shodný úsek, je výsledkem porovnání hodnota null.

Metoda search má opět syntaxi

search(regulární_výraz)

a vrací index prvního znaku prvního výskytu podřetězce odpovídajícího danému regulárnímu výrazu. Využití dané metody je pro náš účel obvykle malé.

Metoda replace má syntaxi

replace(regulární_výraz,nahrazující_výraz)

Hodnota regulární_výraz zde přitom může být buďto regulárním výrazem nebo obyčejným řetězcem uvedeným v uvozovkách. Nahrazující_výraz je buďto obyčejný řetězec nebo řetězec, který může obsahovat některou z ESC sekvencí používaných v regulárních výrazech, typicky odkaz na skupinu ($1 apod.).

Příklad:

var a="Josef Jan Josef Honza"



b=a.match(/Josef/g);

alert(b);      
//vrací pole Josef,Josef



b=a.search(/Jan/);

alert(b);      
//vrací hodnotu 6



var a="Josef Novák"

b=a.replace(/(Josef) (Novák)/,"$2, $1");

alert(b);      
//vrací řetězec "Novák, Josef"

Druhý, pro naše použití obvykle méně důležitý případ, vychází z použití metod regulárních výrazů samotných. Konkrétně je takto k dispozici metoda test, která má zápis

test(řetězec)

a vrací hodnotu true, pokud řetězec obsahuje daný regulární výraz.

Příklad:

var a=/Honza/;

var string="Josef Jan Josef Honza"





b=a.test("Josef Jan Josef Honza");

alert(b)    //zobrazí "true"



b=a.test("Josef");

alert(b)    //zobrazí "false"



b=a.exec("Josef Jan Josef Honza");

alert(b)    //zobrazí "false"

Dále je zde k dispozici metoda exec, ve tvaru

exec(řetězec)

jež porovná zadaný řetězec s regulárním výrazem a vrátí pole s nalezenými výsledky nebo null, pokud nebylo nic nalezeno. Blíže se jí zde zabývat nebudeme.

Nasazení v InDesignu

V případě nasazení regulárních výrazů přímo při skriptování InDesignu se vyskytuje několik zádrhelů. Především se jedná o to, že jde o prostředek použitelný pro textový obsah, nikoli textové objekty. Změna v dokumentu (story, textovém rámečku atp.) není aplikovatelná přímo (existují možností jak to provést se změnami vlastnosti contents, ale to není vůbec elegantní řešení) a hlavně nedovoluje přímo měnit atributy textu. Obojí (tj. změny i formátování) dokáže měnit funkce hledání/nahrazování InDesignu, ta nicméně regulární výraz přímo jako svůj parametr neakceptuje. Existuje každopádně poměrně jednoduchý postup, jak obejít daný problém, který pro většinu aplikací regulárních výrazů v InDesignu postačí. Schématicky jej lze popsat následovně:

1. Zvolíme určitý textový objekt (story, textový rámeček, dokument, vývěr atp.), jenž chceme prohledávat a dále určíme jeho textový obsah (metoda contents).

2. Provedeme prohledání tohoto textového obsahu metodou match na výskyt daného regulárního výrazu. Získáme tím pole se všemi výskyty.

3. Pro jednotlivé výskyty regulárního výrazu spustíme funkci hledání a záměn InDesignu, kterou aplikujeme na daný textový objekt. To nám dovolí nejen provést náhrady, ale i využít podle libosti formátovací atributy. Při nahrazování přitom můžeme použít řetězce, které vzniknou náhradou v jednotlivých výskytech podle určitých regulárních výrazů.

Celý postup demonstruje následující skript:

//Skript, který v aktuálně vybrané story nalezne všechen
text

//ohraničený párovými tagy <b> a </b> (nebo
<B> a </B>),

//zformátuje jej znakovým stylem Tučný a tagy odstraní.



//Určíme textový objekt v kterém chceme provést náhradu

var myStory = app.selection[0].parentStory;



//Určíme text z tohoto objektu, který chceme prohledávat regulárním
výrazem

var myStoryText=myStory.contents;



//Do pole myFind vložíme všechny řetězce z prohledaného textu, které se
shodují se zadaným výrazem

var myFind =
myStory.contents.match(/<b>(.*?)<\/b>/gi);





//Bylo-li něco nalezeno, zpracováváme dále

if(myFind != null)

   {

   //Nulujeme preference vyhledávacího dialogu

   app.findPreferences = app.changePreferences = null

   //Cyklus pro všechny nalezené výskyty

   for(i = 0; i<myFind.length; i++){

   //Použijeme funkci pro hledání a záměny InDesignu,
provedeme zformátování stylem a náhradou odstraníme tagy

myStory.search(myFind[i],true,true,myFind[i].replace(/<b>(.*?)<\/b>/i,"$1"),{},{appliedCharacterStyle:
"Tučný"});

      }

   }



//Pokud se nic nenašlo, rovnou končíme s hlášením

else{alert("Nenalezen žádný řetězec k náhradě")};

Pokud bychom chtěli naznačený princip použít k sérii náhrad tagů a zformátování textu, který byl vytvořen v HTML editoru či exportem z nějaké aplikace (ale předpokládáme že korektně, tj. párové značky pracují dobře), můžeme přepsat algoritmus uvedený výše na funkci a pak jen použít sérii jejich volání s různými hodnotami:

//Funkce pro hledání a náhrady s pomocí regulárních výrazů

//Není univerzální!

//Parametry:

//myChSpace: objekt (prostor) ve kterém budeme hledat a zaměňovat -
dokument, story, textový výběr apod.

//myFSpace: text (prostor), který prohledáváme s pomocí regulárního
výrazu - obvykle získáme pomocí metody contents

//myFindString: regulární výraz, kterým prohledáváme myFSpace

//myChangeString: regulární výraz, kterým případně můžeme transformovat
myFindString

//myFindAt: atributy textu zpřesňující hledání v myChSpace, mají podobu
pole dvojic - viz předchozí díly tohoto seriálu

//myChangeAt: atributy textu zpřesňující náhrady v myChSpace, podoba
stejná jako u myFindAt

function
myRepRegEx(myChSpace,myFSpace,myFindString,myChangeString,myFindAt,myChangeAt)

{var myFind = myStoryText.match(myFindString);

alert(myFind)

if( myFind != null )

   {

   app.findPreferences = app.changePreferences = null

   for( i = 0; i < myFind.length; i++ ){

   //Dopracování vyžaduje nastavení druhého a třetého
parametru: zde necháváme rozlišovat malá/velká písmena a hranice slov

   //V nalezených výsledcích transformujeme výsledek
záměny podle potřeb nastavením proměnné myChangeString

   myChSpace.search(myFind[i], true, true,
myFind[i].replace(myFindString,myChangeString),myFindAt,myChangeAt);

                                       
}

   }

else{alert("Nenalezen žádný řetězec k náhradě")};

}



//Volání dané funkce pro jednotlivé tagy

myRepRegEx(myStory,myStoryText,/<b>(.*?)<\/b>/gi,"$1",{},{appliedCharacterStyle:
"Tučný"});

myRepRegEx(myStory,myStoryText,/<i>(.*?)<\/i>/gi,"$1",{},{appliedCharacterStyle:
"Kurzíva"});

myRepRegEx(myStory,myStoryText,/<code>(.*?)<\/code>/gi,"$1",{},{appliedCharacterStyle:
"Kód"});

myRepRegEx(myStory,myStoryText,/<h4>(.*?)<\/h4>/gi,"$1",{},{appliedParagraphStyle:
"Nadpis 4"});

//atd.

Aplikovat jej lze i na text připravený původně pro TeX:

//Všechny výskyty řetězce uzavřeného značkami \emph{ a }

//tedy třeba \emph{Josef Novák}

//zformátuje znakovým stylem Index a značky odstraní.

//Obdobně lze zpracovat i rozsáhlé konstrukty z Plain TeXu, LaTeXu apod.

myRepRegEx(myStory,myStoryText,/\\emph\{([^}]+)}/g,"$1",{},{appliedCharacterStyle:
"Index"});

Dále se nabízí možnost formátování e-mailové adresy:

//Nejjednodušší forma, dovoluje použít i různé nesprávné
adresy, ale validita je zde přece obvykle na tvůrci podkladu

myRepRegEx(myStory,myStoryText,/([a-zA-Z_.]+@[a-zA-Z_.]+)/g,"$1",{},{appliedCharacterStyle:
"E-mail"});





//Zde zpracujeme jen e-mailové adresy končící na .cz

myRepRegEx(myStory,myStoryText,/([a-zA-Z_.]+@[a-zA-Z_.]+\.cz)/g,"$1",{},{appliedCharacterStyle:
"E-mail"});

či třeba webového odkazu

//Zřejmě nejjednodušší tvar webového odkazu, existuje mnoho přesnějších způsobů zápisu

myRepRegEx(myStory,myStoryText,/(http:\/\/[a-zA-Z_.]+)/gi,"$1",{},{appliedCharacterStyle: "HTTP"});

Pokud máme dokument, ve kterém jsou pěticiferná čísla použita pro PSČ a chceme nesprávný zápis ve tvaru XXXXX nahradit zápisem ve tvaru XXXpevná_mezeraXX, můžeme tak učinit s pomocí následující náhrady:

myRepRegEx(myStory,myStoryText,/\b(\d{3})(\d{2})\b/gi,"$1\u00A0$2",{},{});

Možností, jak aplikovat regulární výrazy, je nepřeberné množství. Zde jsme si ukázali několik málo příkladů náhrad a formátování, ale mnoho aplikací může mít i prosté vyhledávání, jež nám dovolí rychle určit, zda se v dokumentu či jeho části vyskytuje určitý typ řetězce.

Jak si pak lze z našich příkladů i externích zdrojů povšimnout, vytvořit opravdu univerzální, "neprůstřelný" regulární výraz nemusí být vždy úplně snadné. Mnohdy je ale lepší pokusit se napsat něco jednoduššího, co bude fungovat ve většině případů, nežli strávit hledáním vhodného vyjádření více času, než kdybychom mezitím text upravili běžnými prostředky.

Otázkou pak zůstává, jak skriptu předat požadovaný textový rozsah k prohledávání. Mimo triviálních možností (použitých výše) bývá obvyklý požadavek na zjištění veškerého textu v dokumentu. Zde nám může pomoci třeba následující postup:

//Proměnnou myText naplníme obsahem všech story dokumentu

var myDoc=app.activeDocument;

var myText = '';

for(i = 0; myDoc.stories.length > i; i++ ){myText +=
myDoc.stories[i].contents + ''};

Obsah seriálu (více o seriálu):

Tématické zařazení:

» Rubriky » VSE

» Rubriky » Go verze

» Rubriky » Sazba

» Rubriky » Polygrafie

» Rubriky » Software

Nejčtenější články

14. května 2014

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
23. dubna 2014

Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
12. června 2012

Adobe Photoshop III: Tipy a triky pro pokročilé
9. dubna 2014

Kompenzace expozice: naučme se ji používat
5. ledna 2017

První číslo internetového magazínu IDIF v roce 2017 1/2017

Nejlépe hodnocené články

6. září 2004

OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
13. května 2004

Sony představilo dva nové notebooky pro kreativce
19. ledna 2004

QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
6. února 2001

HighWater v Polygře Brno
30. listopadu 2014

Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě

Nabídka bazar

14. října 2024

Mycí linka INPRO
9. ledna 2025

Bubnový scanner na 4000dpi optické rozlišení + PC + software
9. ledna 2025

Profesionální scaner Scanner Heidelberg TOPAZ I. optické rozlišení bez interpolace 3800DPI
17. ledna 2025

Pozice Grafik/grafička DTP - Studio 66, Praha 9
4. února 2025

HP Latex 700W
23. února 2025

koupím skener na diapozitivy
25. února 2025

Zvětšovák Opemus III
5. března 2025

Termolis 60x80cm

grafika.cz	Vše o počítačové grafice
fotografovani.cz	Digitální fotografie v praxi
idif.cz	Institut digitální fotografie
printing.cz	Tisk a pre-press
mujipod.cz	Apple iPOD rady, tipy a triky
mujmac.cz	Apple MAC
builder.cz	Server o programování
3dscena.cz	3D grafika jako na dlani

Technické (ovládání fotoaparátu)
		34%

Umělecké (portrét, akt, příroda...)
		23%

Grafické (úprava fotografií grafickým programem)
		43%

Jméno:
E-mail:
Telefon:
Zpráva:
Kontrola:	Do spodního pole opište z obrázku 5 znaků:
	Odeslat

Skriptujeme InDesign (17): Regulární výrazy - Grafika.cz - vše o počítačové grafice

Sazba