Kako izbrati programsko opremo za
optično prepoznavo besedil?
Programska oprema za optično prepoznavo besedila se je
razvila iz potrebe, saj je večina dokumentov v tiskani obliki.
Mnogokrat nam originalni dokument niti ni na voljo, ali pa so tiskani
dokumenti starejšega izvora in so bili tipkani na pisalnem stroju.
Tovrstnih dokumentov ni možno spraviti v digitalno obliko drugače kot,
da jih pretipkamo. Opravilo je zamudno in podvrženo ogromnemu številu
napak. V takih primerih nam je v nenadomestljivo pomoč ravno programska
oprema za optično čitanje, ki slike tekstovnih dokumentov pretvori v
elektronsko besedilo, ki ga lahko nato poljubno popravljamo. Zamenjamo
lahko tudi obliko črk. Dokumente v elektronski obliki lahko lažje
(preko elektronske pošte) pošiljamo na okoli, distribuiramo po
intranetu, vključimo v razne prezentacije ali objavimo na spletnih
straneh. V precej podjetjih, kjer uporabljajo elektronski podpis, pa
vse dokumente, ki pridejo tako ali drugače v pisni obliki v podjetje na
začetku skenirajo in ti dokumenti nato v elektronski obliki potujejo
skozi podjetje. Dokumenti se tako ne izgubljajo, pa še njihova
sledljivost je zagotovljena.
Programska oprema za optično prepoznavo besedil ali na kratko
OCR, je tesno povezana z optičnimi čitalci, kljub temu, da lahko
izvedemo optično prepoznavo na drugem računalniku kot optično čitanje.
Kako deluje?
OCR programi pregledujejo točke, ki so združene v določeno
obliko. Te oblike nato primerjajo z že znanimi oziroma naučenimi vzorci
in na osnovi zapletenih algoritmov ugotavljajo za kateri simbol gre. Ti
algoritmi v današnjem času slonijo na tehnologiji nevronskih mrež.
Postopek
V optični čitalec najprej vstavimo dokument, ki ga želimo
optično prepoznati. Iz čitalca dobimo digitalno sliko, običajno JPG. Od
tu dalje imamo dve možnosti. Sliko shranimo za kasnejšo obdelavo ali pa
jo uvozimo v OCR program. Novejši OCR programi imajo že zelo
uporabniško prijazen vmesnik tako, da skeniramo kar iz OCR programa,
kar nam olajša delo, še posebej, če skeniramo veliko strani na enkrat.
To pomeni, da zna program komunicirati s skenerjem. Ko je dokument
skeniran nastopi faza prepoznave besedila in slik. Program na strani
smiselno izbere področja po katerih nato poteka prepoznava. Več
področij je potrebno, če je besedilo zelo raznoliko in vsebuje tudi
slike. V tem primeru se slike prepoznajo kot slike, besedilo pa se
pretvori in uvozi neposredno v Word dokument. Tako besedilo lahko potem
poljubno popravljamo in spreminjamo, kar je bil tudi naš cilj. Za tiste
manj vešče postopka je vedno na voljo in dobrodošel čarovnik, ki nam
pomaga skozi posamezne korake in nam predlaga nastavitve, ki so nekako
najbolj optimalne v dani situaciji.
Konkurenca
V svetu je kar precej (okoli 30) različnih OCR programov. V
Sloveniji pa sta poznana predvsem dva proizvajalca. ScanSoft s
programom OmniPage, in Abby s programom FineReader. Pred časom pa se je
pojavljala tudi Recognita, ki je kot produkt zamrla, ko jo je kupil
ScanSoft.
Produkta sta si zelo podobna in je skoraj vseeno katerega izberemo.
FineReader je nekoliko natančnejši, predvsem se izkaže pri zahtevnejših
opravilih (prečrtan tekst, nenatančno vložen ali zmečkan papir). Poleg
tega zmogljivejša različica podpira tudi izdelavo povsem svojih
obrazcev. Njegova največja pomanjkljivost, ki je hkrati tudi prednost
OmniPagea, pa je slovenski pregledovalnik besedila. Zavedati se namreč
moramo, da se pri razpoznavi pojavljajo napake, ki jih največkrat
pregledovalnik besedila zazna in nas na to opomni. Take napake moramo
nato ročno odpraviti, kar pa je seveda precej zamudno in duhamorno
opravilo.
Natančnost
Ravno v natančnosti se ločijo dobri OCR programi od
povprečnih. Čim natančnejša je razpoznava tem manj časa bomo
potrebovali kasneje s popravljanjem besedila. Natančnost je izredno
težko absolutno izmeriti, zato ne moremo z gotovostjo trditi, da je
določen program boljši od drugega. Oba sta tako dobra, da so razlike v
malenkostih. V določenih situacijah se eden izkaže boljši v drugih
situacijah pa je slika obrnjena.
Pretvorba dokumentov
V zadnjem času, ko je XML v vzponu OCR programi podpirajo
pretvorbo dokumentov tudi v ta standard, ki nam še posebej pride prav,
ko dokumente združujemo v bazo po kateri želimo nato še brskati po
različnih ključih.
Poleg pretvorbe v PDF dokumente imajo boljši programi tudi zmožnost
pretvorbe recimo tabel v Excel format. Naj omenim, da lahko kot
rezultat dobimo dokument tudi v HTML obliki (za na spletno stran) ali
pa v zapisu eBook (XML) in je neposredno primeren tudi za dlančnike.
Vir:
Gambit trade d.o.o.
|