Digitaliser bøger

Fra PGwiki

Skift til: Navigation, Søgning

Kunsten at digitaliseré bøger

I denne guide forventes det at du har en computer, en scanner og programmet FineReader 5.0 OCR Software. Men du kan sagtens læse guiden uden at have alt dette - det egentligt mål er at vise hvor let det er at digitalisere en bog.

Start med at installér din scanner og åben FineReader.

digitaliserboger1.jpg

Her er et skærmdump af hvordan FineReader ser ud når du har startet det. Det kan klart anbefales at sørge for at maximere det.

Tanken bag denne guide er at vise hvordan du ind-scanner en bog så hurtigt som muligt. Hastigheden beror på hvilken scanner du har. Vi anvender i guiden en Epson Perfection 1200U, med den tager det ca. en time at scanne en 400-siders bog ind. Her lærer du at indstille FineReader på den bedste måde, resten er op til dig og din scanner.

digitaliserboger2.jpg

Fra menuen Tools —> Options vælger du Scan/Open Image. Det er vigtigt at du sætter hak i Use FineReader inteface, du bør også vælge Display options dialog before scanning.

Når vi nu er der, kan du lige klikke på Scanner Settings.. og sørge for at nogle flere ting er i orden. Samme vindue kommer frem ved at vælge Tools i menuen og derefter Scanner Settings...

digitaliserboger3.jpg

Alt efter hvordan du ligger bogen i scanneren, vælger du Portrait eller Landscape, og hvis scanneren er længere end bogen er det vigtigt at indstille højden. I dette eksempel har vi anvendt en bog som er 6.5 inches (16.5 cm) lang og har således også valgt samme længde til Height. Under Paper Sixe har vi valgt Custom på grund af den specielle højde. Grå billeder med 300 dpi har sig at fungere rigtig godt, men desværre kan man ikke indstille lysstyrken "Brightness" udoveri det sort-hvide felt. Det er noget der kan være værd at eksperimentere med hvis man får mange OCR-fejl.

I vinduet "Pause between pages" har vi valgt at scanneren skal vente 4 sekunder mellem hver scanning, en tid du måske vil sætte lidt højere i starten indtil du har vendet dig til at vende siderne i bogen. Vi synes også det er rart at dette vindue op inden den automatiske scanning starter, så derfor har vi valgt at sætte hak i boksen "Show this dialog before scanning"

En klage der jævnligt kommer er der er et linefeed (ny linie) efter hver linie istedet for efter hvert afsnit hvor de hører hjemme. For at sørge for at det ikke sker vælger vi i menuen Tool —> Format Settings og derefter TXT.

digitaliserboger4.jpg

Her skal du være meget nøje med at klikke i både Keep line breaks og "Use blank line as paragraph separator". Hvis du gør det modsatte kommer der et linefeed efter hver linie, og så ville vi slet ikke ane hvor næste afsnit skulle begynde.

digitaliserboger5.jpg

Og så til nogle indstillinger. Vi skal tilbage til Tools —> Options.. og derefter Recognition. Kopier de indstillinger der vises på billedet. Det vigtigste er egentligt Autodetect layout, som bevirker at du kan scanne to sider på samme tid uden at de bliver blandet sammen.

Inden vi begynder at lege med scanneren skal du vælge "Start Background Recognition" fra menuen Process. Denne indstilling gemmes ikke (det gør alle de andre vi har lavet indtil nu) så du skal indstille det hver gang du kører programmet. Den gør at teksten læses mens du scanner, hvilket sparer dig en del tid.

digitaliserboger6.jpg

Så skal vi til at starte med selve scanningen. Find en bog der passer til scanneren, ligesom på ovenstående billede.

digitaliserboger7.jpg

Det første vi skal gøre er at måle højden på bogen. Klik på "1 Scan" knappen med venstre museknap og hold den inde. Der kommer en menu frem hvor du vælger Scan Image. Vinduet Scanner Settings kommer nu frem. Her klikker du OK samtidig med at du trykker bogens ryg så hårdt ned at den ligger plant mod scannerens glas.

Indstil højden så du får et billede der ser ud som nedenstående. Det er ideelt af to årsager, for det første sparer du tid ved ikke at lade scanneren arbejde på de områder du ikke skal bruge, og for det andet så slipper du for at blive blændet af det skarpe lys.

digitaliserboger8.jpg

Hvis din scanning blev god så markerer du den ved at klikke en gang på det lille billede af den til venstre på skærmen. Hvis du scannede flere billeder er det den nederste der er den nyeste. Klik derefter på knappen "2 Read" og vælg "Read" fra menuen der kommer frem (ca som med ikonet 1 Scan) Nu åbnes siden. Når det er klart bliver den færdige tekst vist i en kolonne på den højre del af skærmen. Du kan bare ignorere den markerede tekst og kigge den igennem. Formentlig er der kun en eller to fejl, og hvis det det er første gang du prøver er du sikkert overrasket over hvor let det er gået.

Nu har du set hvor enkelt det er, kan du gøre det igen, bare uden alt det kedelige arbejde. Klikke på et af ikonerne til venstre og vælg Select All i Edit menuen. Klik på delete på dit tastatur og derefter på OK i vinduet der kommer frem.

digitaliserboger9.jpg

Først tjekker vi at alle indstillinger er som de skal være. Vælg Start Background Recognition i Process-menuen. Vælg Scan Multiple Images under 1 Scan-knappen. Vinduet Scanner Settings åbner og når vi klikker OK påbegyndes scanningen. Boksen "Pause between pages" bør være afkrydset og udfyld med en for dig passende tid, fx 4 sekunder (Formentligt længere tid de første par gange du prøver).

Husk at bogen skal ligge så højt oppe på scanneren som muligt og at du skal trykke bogryggen mod glasset og holde den der. Scan derefter ca 10 sider og lad som om at det er en hel bog. Du kan altid starte hvor du sluttede. Når så har scannet ca 10 sider venter du til scanneren begynder med den næste scanning og klikker på knappen Stop Scanning (det er den samme som 1 Scan-knappen).

Gennemse nogle af siderne du har læst tidligere, det går du ved klikke på ikonerne til venstre så hovedvinduet udfyldes af det scannede billede og den behandlede tekst. Og luk så FineReader og åben det igen. Alt ser ud præcis som du stoppede. (Det var bare for at vise hvor let du kan slutte hvis du skulle finde på noget sjovere at lave).

digitaliserboger10.jpg

Dine 10 sider er scannet og teksten er behandlet. Nu skal du gemme det som tekst-fil. Læg den hvor du vil og kald den hvad du vil, bare sørg for at indstillingerne er som på billedet. Når du har gemt den, så åbn den og jævnfør den med original-teksten og kør en stavekontrol. Det er ikke sværere.

Afdelinger
Andet