Readiris Pro 11, profesionální OCR aplikace v češtině - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



Software

Readiris Pro 11, profesionální OCR aplikace v češtině

17. srpna 2006, 00.00 | Kvalitních OCR programů starajících se o rozpoznávání naskenovaných textů existuje hned několik - dnes vám představíme aktuální jedenáctou verzi Readiris Pro 11.

Převod skenovaných textů do elektronické podoby je už delší dobu poměrně snadnou záležitostí. Kvalitních OCR programů starajících se o rozpoznávání naskenovaných textů existuje hned několik - dnes vám představíme aktuální jedenáctou verzi Readiris s podporou češtiny včetně lokalizace aplikace samotné.

Přepisování vytištěných dokumentů do elektronické podoby je nejen nepraktické, časově náročné, a tudíž z ekonomického hlediska i poměrně drahé. S většinou skenerů (včetně těch nejlevnějších) proto zpravidla dostanete OCR software pro rozpoznávání textů a jejich převod do elektronické editovatelné podoby. V našich zeměpisných končinách stačí připomenout například profesionální OCR balíky Abbyy FineReader, Recognita, OmniPage či dnes představený software Readiris společnosti I.R.I.S.

První OCR aplikací od I.R.I.S. byl před téměř dvaceti lety Texiris, tehdy revoluční komerční OCR systém pro IBM PC. Rozpoznávání znaků bylo dost primitivní a pomalé, učící se algoritmy minimální, ale fungovalo to, a o to všem zúčastněným přece šlo. Postupem času se z Texirisu stal Readiris a díky jeho kvalitám a cenové politice si program licencovala řada výrobců skenerů a dalších společností. Současná jedenáctá verze Readiris Pro je dostupná jak pro Windows, tak i pro Macintosh a existuje ve dvou základních variantách. Levnější z nich je Readiris Pro 11 s cenou 132 EUR, která je určena pro skenování grafických a textových předloh, jejich analýzu, rozpoznání a převod do elektronické podoby vhodné k archivaci dokumentů. Pro náročnější firemní klientelu pak nabízí společnost I.R.I.S. variantu Readiris Pro 11 Corporate Edition (cena cca 400 EUR). Na trhu jsou navíc ještě verze Readiris Pro 11 Asian/Corporate Asian a speciální verze Middle-East s podporou asijských jazyků, zpracování textů zprava doleva, rozpoznáváním hebrejštiny a více než 120 dalších jazyků.

Přesnost rozpoznávání textů a analýzy zdrojových naskenovaných dokumentů je u všech verzí shodná, stejně jako podpora vstupních a výstupních formátů a 126 jazykových modulů. Verze Readiris Pro 11 Corporate Edition navíc nabízí automatické dávkové zpracování libovolného množství dokumentů s neomezeným počtem stran (levnější verze Readiris Pro 11 zvládne maximálně 50 stran v jednom dokumentu), rozpoznávání a konverzi vizitek do elektronické podoby.


Readiris Pro 11 - testovací novinový článek je převedený bez jediné chyby za pár sekund

Mezi podporované jazyky samozřejmě patří mimo většiny evropských jazyků i čeština a slovenština, díky čemuž se Readiris stále častěji dostává do popředí zájmu uživatelů. České je i uživatelské prostředí programu - překlad sice není úplně stoprocentní a některé speciální volby jsou stále v angličtině, většina běžných ovládacích prvků a menu ale je lokalizovaná. Každý jazykový modul má vlastní slovník, který lze doplnit uživatelským slovníkem aktualizovaným především v rámci učení chybně nebo nedostatečně rozpoznaných znaků. Učení samozřejmě funguje pro různé druhy písem (patková i bezpatková písma v různých řezech), přesnost učení lze označit jako vynikající. Každý znak, symbol či skupina znaků, kterou Readiris Pro 11 nerozpozná s dostatečnou přesností, je (pokud je mód učení aktivní) zobrazena formou grafického náhledu s nabízenou variantou převodu. Podobně to funguje u všech OCR aplikací, takže vlastně není moc co popisovat - snad jen to, že Readiris má učení i celý proces rozpoznávání velmi přehledný a při převodu vás nic nezdržuje.


Readiris Pro 11 - i dokumenty se složitější strukturou umí program správně analyzovat


Readiris Pro 11 - učení nedostatečně rozpoznaných znaků

Rozpoznávání funguje i u PDF dokumentů, které mohou být zamčené proti úpravám či dokonce i proti kopírování jejich obsahu a OCR je pak jediným smysluplným řešením, jak z takových dokumentů dostat použitelný text. Readiris Pro 11 umí v rámci OCR procesu též optimalizovat PDF dokumenty respektive jejich vloženou grafiku. PDF dokumenty lze i vytvářet a ukládat bez nutnosti spouštět samotné rozpoznávání. Dražší firemní verze Readiris Pro 11 umí též rozpoznávat a převádět čárové kódy, podporováno je několik desítek typů čárových kódů, které se pak ukládají jako XML datové struktury pro další použití. Readiris Pro 11 Corporate Edition si navíc umí hlídat zvolený adresář a najde-li v něm vhodný soubor, analyzuje ho a převede na vybraný typ dokumentu - pochopitelně včetně rozpoznání textů a grafických objektů. Samozřejmostí je podpora XML formátu nových verzí Microsoft Office 2003 a novějších, ukládat dokumenty včetně jejich struktury ale lze i v mnoha jiných formátech.

Součástí Readiris Pro 11 jsou ovladače mnoha desítek (no spíše mnoha set) modelů plochých i dalších typů skenerů, použít samozřejmě lze i TWAIN importní modul. Po naskenování či importu grafické předlohy (v mnoha různých formátech) provede program analýzu obsahu předlohy. Analýza se týká především rozvržení objektů s textem a grafikou na stránce či stránkách dokumentu. Rozpoznání struktury obsahu dokumentu je zpravidla velmi přesné - Readiris pozná sloupce textu, obtékanou grafiku, tabulky, samostatné nadpisy a další grafické či textové objekty. Před spuštěním OCR procesu si samozřejmě můžete rozvržení rozpoznávaných textů v rámečcích upravit ještě ručně. Slouží k tomu nástrojová lišta s ikonkami pro definování pozice tabulek (které se pak rozpoznávají zvlášť), obrázkových objektů apod.

Za cca 130 EUR nebo ekvivalent v USD je Readiris Pro 11 výborný nástroj pro každodenní převod skenovaných dokumentů do elektronické podoby včetně rozpoznání textů. Algoritmy pro učení tvarů atp. znaků jsou navenek krásně jednoduché a nijak neobtěžují uživatele nesmyslnými nastaveními. Přesnost převodu písem i detekce rozvržení stránek jsou na velmi vysoké úrovni a jen malý počet dokumentů je občas nutné doladit ručně. Cena programu v České republice se pohybuje pod 4 000 Kč bez DPH, zkušební verze je na webu Readiris ke stažení zdarma.


Readiris Pro 11 - některé z podporovaných importních a exportních formátů dokumentů


Readiris Pro 11 - základní možnosti nastavení skenování dokumentů týkající se grafiky


Readiris Pro 11 - program má podobně jako všechny jeho konkurenti také integrovaného průvodce, který může pomoci s celým procesorem převodu a rozpoznávání znaků


Readiris Pro 11 - nastavení tiskových funkcí pro obrázky a fotografie


Readiris Pro 11 - uživatelský slovník je v programu samozřejmostí


Readiris Pro 11 - nastavení pro automatické rozpoznávání čárových kódů


Readiris Pro 11 - program umí v rámci analýzy dokumentů případně vynechat prázdné stránky


Readiris Pro 11 - seznam podporovaných skenerů je hodně rozsáhlý


Readiris Pro 11 - základní volby pro skenování dokumentů


Readiris Pro 11 - nastavení jazyka pro OCR proces


Readiris Pro 11 - hlavní volby pro uložení převedených dokumentů

Tématické zařazení:

 » Rubriky  » VSE  

 » Rubriky  » Go verze  

 » Rubriky  » Skenery  

 » Rubriky  » Software  

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: