Opsætning og indscanning med Omnipage

Fra PGwiki

Skift til: Navigation, Søgning

OmniPage Professional 15 OCR Tutorial

DEL 1: Installation og Setup

I denne tutorial skal vi lære lidt om hvordan vi sætter Omnipage Pro 15 op!

http://www.scansoft.com/omnipage/

1. Installer Omnipage.

2. Efter Omnipage er installeret, kør programmet og gå direkte til OPTIONS under TOOLS. Det er vigtigt at du sætter din scanner op. Jeg anbefaler følgende settings (men du er selvfølgelig velkommen til at rode med dem):

OptionsOCR.gif

OCR: Under Languages in Document anbefaler jeg kun at have et sprog kørende -> nemlig det sprog, som bliver brugt i det eller de dokumenter, som du skal scanne ind. Hvis der er mere end et, vælg selvfølgelig flere, men sæt det op således at det passer til den individuelle opgave. Ellers er alt som det skal være.

OptionsSCANNER.gif

SCANNER: Det er her du sætter din scanner op. Det hele forgår ved at trykke på SETUP i øverste højre hjørne. Omnipage vil så anbefale at du tester din scanner! Jeg anbefaler at du kører denne test igennem. Efter testen er overstået burde du meget gerne stå med overstående. Måske er det et lidt anderledes setup end mit, pointen er dog at Omnipage skal være konfigureret til netop DIN scanner. Under FLATBED kan du ændre den til automatisk at scanne sidder ind mellem de og de sekunder. Nogengange så er man bare ikke så fiks på fingrene, især ikke hvis det drejer sig om en stor bog, derfor har jeg valgt at sætte den på PROMPT FOR MORE PAGES. Det er op til dig selvfølgelig.

OptionsDOCR.gif

DIRECT OCR: Meget simpelt setup. Sæt et flueben i ENABLE DIRECT OCR, hvis du vil have Omnipage til at læse tekst automatisk. Sæt et flueben i DRAW ZONES AUTOMATICALLY - hvis du vil have Omnipage til selv at tegne zonerne. Læs disse to argumenter før du beslutter dig for førnævnte: Det kan i nogle situationer anbefales at du fjerner fluebenet her, da du vil opdage at du selv bruger tid på at tegne zonerne op. Omnipage tegner af og til forkerte zoner, eksempelvis har den det med at forveksle TABLES (blå zoner) med TEXT (orange zoner). Et stort plus ved at sætte Omnipage til selv at finde ud af zonerne er dog at når man så endelig skal i gang med at rette på noget, så er smadderlet at ændre zone-konfigurationen, eksempelvis fra TABLE til TEXT. Eller hvis Omnipage har fat i for meget af en side, at tilpasse zonerne ved at ændre på størrelsen af dem. PROOFREAD OCR er nyttig, hvis du holder meget af stavekontrol. I Omnipages tilfælde behøves du ikke at frygte noget. Den arbejder med en dynamisk ordbog og det gør det lettere at rette i teksten, så sæt endelig et flueben ud for den. Som du kan se nederst kan man registrerer en række applikationer i Omnipage, eksempelvis Wordpad eller Photoshop. Afhængigt af den type arbejde du skal udfører kan det gøre det lettere at arbejde med Omnipage. Det finder du nok ud af undervejs.

OptionsPROCESS.gif

PROCESS: Process er lige til. Jeg anbefaler du lader alt blive som det er.

OptionsPROOFING.gif

PROOFING: Her er det anbefalet at have to flueben sat ud for henholdsvis AUTOMATICALLY PROOFREAD RESULTS AFTER OCR og ud for ENABLE INTELLITRAIN. Den første siger sig selv. Den anden - INTELLITRAIN - er Omnipages dynamiske ordbog, som virkelig kan anbefales. Den kigger på de manuelle rettelser du har foretaget dig og "adopterer" dem og prøver derefter at tage ved lære. Det bliver derfor meget lettere både at proofreade og scanne. Du skal sætte et flueben i PROMPT TO SAVE TRAINING DATA WHEN... hvis du ønsker at gemme dine INTELLITRAIN rettelser. Hvis du ikke gør det, vil rettelserne kun blive brugt på det dokument du har gang i. Det er selvfølgelig op til dig om du ønsker dette.

OptionsGENERAL.gif

GENERAL: General er rimelig lige til.

OptionsTEXTEDITOR.gif

TEXT EDITOR: Også rimelig basic. Hvis ikke allerede Omnipage er sat til at measure i centimeters, kryds den af.

HUSK AT GEMME DINE INDSTILLINGER !

DEL 2: Hvordan virker det (Også en scanner-tutorial)

Efter vi nu har sat Omnipage op skal vi til at scanne. Bogen jeg har valgt er skrevet på gammel dansk (dobbel-a eksempelvis).

1) Tag en bog af almindelig størrelse og læg den ene side pænt op på scanneren. Hvis der er plads til bogens anden side, læg den sådan på plads at begge sider bliver skannet. Det er sjældent at man i dag finder en lærebog, hvor begge af dens sider passer på en A4 side. I dette eksempel er størrelsen ikke vigtig. Vi skal alligevel kun scanne en side ind. Et større eksempel vil være at finde i næste del af denne tutorial.

2) Bogens ene side er nu pænt lagt op så den passer til kanterne af scanneren. Læg eventuelt noget tungt på bogen for at holde siderne så tæt ind på overfladen af scanneren som muligt. Jo tættere, jo bedre resultat.

3) Tryk på GET PAGES knappen, som er nummer 2 fra venstre. SCAN skal være valgt. Som du kan se går Omnipage straks i gang med at scanne. Ikke noget med at bruge din scanners software, alt bliver klaret hurtigt. I mit tilfælde lidt under 10 sekunder.

del2_1.gif

4) Yderst i venstrehjørne vises BATCHET. Hvis du scanner en side ind til, vil der være to sider ude i venstre hjørne. Som default er SELECT ZONE valgt. Det er den blå pil ude i venstre søjle af skærmen. Med den kan du vælge hvad der skal læses som tekst og hvad der skal læses som billede, tabel osv.

Prøv, uden at klikke, med musen at sætte den over på noget tekst. Straks du gør det vil du se at Omnipage allerede har en god ide om hvad du ønsker skal læses som tekst og hvad der skal læses som billede (har du scannet en side ind med billede). Det eneste du behøver at gøre er at dobbelt-klikke med venstre museknap, HVIS Omnipage har afmærket korrekt:

del2_2.gif

Her gætter Omnipage på at det som du "rører" med din museknap er tekst. Dobbelt-klik hvis den har ret.

del2_3.gif

5) Her er der blevet dobbelt-klikket. Som du kan se kan du også ændre størrelsen på zonen. Er tilfældet at den ikke automatisk har valgt alt den tekst, som du ønsker Omnipage skal læse, kan du manipulerer zonen ved at trække i de "sorte firkanter". Hvis nu det var meningen at det i stedet skulle have været et billede, gør følgende:

del2_4.gif

Højre-klik, marker ZONE TYPE og vælg hvad enten er korrekt.

del2_5.gif

6) Når alle zoner er korrekt markeret, tryk på PERFORM OCR (eller nummer 2).

del2_6.gif

Som du kan se går Omnipage straks i gang med at proofreade teksten. I dette tilfælde har Omnipage et problem med ordet ’politisk’. Teksten er markeret med gult i TEXT EDITOR området, og betyder at Omnipage ikke er sikker på at den har aflæst den korrekt, men også at den ikke kan finde den i stavekontrollen. Trykker du på IGNORE ALL i dette tilfælde vil ’politisk’ blive tilføjet til INTELLITRAIN. Har du valgt at gemme resultater til INTELLITRAIN i en fil, vil den i fremtiden blive brugt, ellers vil den kun blive brugt i denne ene omgang.

Efter du har rettet resultatet igennem kan du gemme eller kopierer resultatet direkte. Vil du gemme resultatet har du en lang række valgmuligheder:

del2_7.gif

Tryk på Export Results (nummer 3).

Som du kan se er der en lang række muligheder:

del2_8.gif

Du kan også markerer teksten og med et let CTRL-C kopierer teksten til CLIPBOARD, ex.:

del2_9.gif

DEL 3: FineReader Pro 7 Vs Omnipage Pro 15

Lad os prøve at se hvorledes FineReader Pro 7 klarer sig mod Omnipage Pro 15. Er der nogen forskel? Hvorledes er kvaliteten? Hvad er hurtigest?

Følgende settings bruges:

FineReader Pro 7: Image Resolution (300x300dpi), Picture Scanning Mode (Gray Pictures). Omnipage Pro 15: Image Resolution (150x150dpi), Image Type (Gray/Palette).

Læg mærke til at Omnipage kan scanne på 150dpi.

Samme side vil blive scannet. Det er en svær opgave de to kommer ud på: Gyldendals Fremmed Ordbog. Samme side vil blive scannet.

FineReader Pro 7:

Tid (brugt på at scanne): 13s

Tid (brugt på at læse): 28s

Tid (i alt): 41s

Skrivefejl per linje: 10 (første linje)

del3_1.gif

Omnipage Pro 15:

Tid (brugt på at scanne): 11s *

Tid (brugt på at læse): 26s *

Tid (i alt): 37s *

Skrivefejl per linje: 1 (første linje)

del3_2.gif

Konklusion: Omnipage bruger ikke længere tid på at scanne sidden ej heller på at læse den og resultatet så meget bedre end FineReaders. Det skal også lige påpeges at Omnipage ikke var sat til at læse teksten, men HELE det scannede område - så tid brugt på at læse, vil have været kortere havde vi selv markeret eller rettet zonerne til.

FineReader Pro vandt hverken tidsmæssigt eller resultatmæssigt. Resultatet er mildt sagt temmelig svagt. Lad os prøve FineReader Pro med de stærkeste settings, og i Omnipage lad os fortælle den hvilken tekst den skal læse. Næste forsøg bliver også svært, det gælder nemlig sidste inderste søjle:

FineReader Pro 7:

Image Resolution (600x600dpi), Picture Scanning Mode (Color).

Tid-1 (brugt på at scanne): 13s

Tid-2 (brugt på at læse): 40s

Tid-3 (speciel): 20s

Tid-4 (tid-1 + tid-3): 33s

Skrivefejl per linje: 11 (første linje)

SPECIEL: Den tid brugt på at dreje image, så den vender korrekt, samt markerer i programmet den del der skal læses.

del3_3.gif

Omnipage Pro 15:

Image Resolution (150x150dpi), Image Type (Gray/Palette).

Tid (brugt på at scanne): 11s

Tid (brugt på at læse): 26s

Tid-3 (speciel): 7

Tid (tid-1 + tid-3): 18s

Skrivefejl per linje: 2 (første linje)

SPECIEL: Den tid brugt på at dreje image, så den vender korrekt, samt markerer i programmet den del der skal læses. (Da Omnipage automatisk drejer billede så det vender korrekt er dette ikke et problem).

del3_4.gif

Konklusionen er klar; Omnipage Pro 15 klarer sig bedst både resultat-mæssigt og tids-mæssigt. Nu er der også tale om en svær opgave. Især i sidste del af testen, hvor den inderste del skal scannes igennem og det er lige der hvor ryggen af bogen som bekendt deler sig. Det er selvfølgelig altid op til den enkelte hvilket software man ønsker at bruge. FineReader Pro er fra 2003 og Omnipage Pro 15 er lige kommet ud her i år 2005, så det er vel ikke overraskende at se den vinde både på tid og resultatmæssigt.

Der er mange flere features indbygget i Omnipage Pro, som man vil kunne drage nytte af og der er mange ting der gøre det til et let program at arbejde med.

God fornøjelse.

Forfatter: Packed Maniac

Andet