SVETUJEMO VAM !

Kako izbrati programsko opremo za optično prepoznavo besedil?

Programska oprema za optično prepoznavo besedila se je razvila iz potrebe, saj je večina dokumentov v tiskani obliki. Mnogokrat nam originalni dokument niti ni na voljo, ali pa so tiskani dokumenti starejšega izvora in so bili tipkani na pisalnem stroju. Tovrstnih dokumentov ni možno spraviti v digitalno obliko drugače kot, da jih pretipkamo. Opravilo je zamudno in podvrženo ogromnemu številu napak. V takih primerih nam je v nenadomestljivo pomoč ravno programska oprema za optično čitanje, ki slike tekstovnih dokumentov pretvori v elektronsko besedilo, ki ga lahko nato poljubno popravljamo. Zamenjamo lahko tudi obliko črk. Dokumente v elektronski obliki lahko lažje (preko elektronske pošte) pošiljamo na okoli, distribuiramo po intranetu, vključimo v razne prezentacije ali objavimo na spletnih straneh. V precej podjetjih, kjer uporabljajo elektronski podpis, pa vse dokumente, ki pridejo tako ali drugače v pisni obliki v podjetje na začetku skenirajo in ti dokumenti nato v elektronski obliki potujejo skozi podjetje. Dokumenti se tako ne izgubljajo, pa še njihova sledljivost je zagotovljena.

Programska oprema za optično prepoznavo besedil ali na kratko OCR, je tesno povezana z optičnimi čitalci, kljub temu, da lahko izvedemo optično prepoznavo na drugem računalniku kot optično čitanje.

Kako deluje?

OCR programi pregledujejo točke, ki so združene v določeno obliko. Te oblike nato primerjajo z že znanimi oziroma naučenimi vzorci in na osnovi zapletenih algoritmov ugotavljajo za kateri simbol gre. Ti algoritmi v današnjem času slonijo na tehnologiji nevronskih mrež.

 

Postopek

V optični čitalec najprej vstavimo dokument, ki ga želimo optično prepoznati. Iz čitalca dobimo digitalno sliko, običajno JPG. Od tu dalje imamo dve možnosti. Sliko shranimo za kasnejšo obdelavo ali pa jo uvozimo v OCR program. Novejši OCR programi imajo že zelo uporabniško prijazen vmesnik tako, da skeniramo kar iz OCR programa, kar nam olajša delo, še posebej, če skeniramo veliko strani na enkrat. To pomeni, da zna program komunicirati s skenerjem. Ko je dokument skeniran nastopi faza prepoznave besedila in slik. Program na strani smiselno izbere področja po katerih nato poteka prepoznava. Več področij je potrebno, če je besedilo zelo raznoliko in vsebuje tudi slike. V tem primeru se slike prepoznajo kot slike, besedilo pa se pretvori in uvozi neposredno v Word dokument. Tako besedilo lahko potem poljubno popravljamo in spreminjamo, kar je bil tudi naš cilj. Za tiste manj vešče postopka je vedno na voljo in dobrodošel čarovnik, ki nam pomaga skozi posamezne korake in nam predlaga nastavitve, ki so nekako najbolj optimalne v dani situaciji.

Konkurenca

V svetu je kar precej (okoli 30) različnih OCR programov. V Sloveniji pa sta poznana predvsem dva proizvajalca. ScanSoft s programom OmniPage, in Abby s programom FineReader. Pred časom pa se je pojavljala tudi Recognita, ki je kot produkt zamrla, ko jo je kupil ScanSoft.
Produkta sta si zelo podobna in je skoraj vseeno katerega izberemo. FineReader je nekoliko natančnejši, predvsem se izkaže pri zahtevnejših opravilih (prečrtan tekst, nenatančno vložen ali zmečkan papir). Poleg tega zmogljivejša različica podpira tudi izdelavo povsem svojih obrazcev. Njegova največja pomanjkljivost, ki je hkrati tudi prednost OmniPagea, pa je slovenski pregledovalnik besedila. Zavedati se namreč moramo, da se pri razpoznavi pojavljajo napake, ki jih največkrat pregledovalnik besedila zazna in nas na to opomni. Take napake moramo nato ročno odpraviti, kar pa je seveda precej zamudno in duhamorno opravilo.

Natančnost

Ravno v natančnosti se ločijo dobri OCR programi od povprečnih. Čim natančnejša je razpoznava tem manj časa bomo potrebovali kasneje s popravljanjem besedila. Natančnost je izredno težko absolutno izmeriti, zato ne moremo z gotovostjo trditi, da je določen program boljši od drugega. Oba sta tako dobra, da so razlike v malenkostih. V določenih situacijah se eden izkaže boljši v drugih situacijah pa je slika obrnjena.

Pretvorba dokumentov

V zadnjem času, ko je XML v vzponu OCR programi podpirajo pretvorbo dokumentov tudi v ta standard, ki nam še posebej pride prav, ko dokumente združujemo v bazo po kateri želimo nato še brskati po različnih ključih.
Poleg pretvorbe v PDF dokumente imajo boljši programi tudi zmožnost pretvorbe recimo tabel v Excel format. Naj omenim, da lahko kot rezultat dobimo dokument tudi v HTML obliki (za na spletno stran) ali pa v zapisu eBook (XML) in je neposredno primeren tudi za dlančnike.

Vir: Gambit trade d.o.o.