reCAPTCHA: millioner af mennesker redder gamle bøger

Hør udsendelsen

Computere er i de sidste 50 års tid blevet enormt kraftfulde, men der er stadigvæk nogle tilsyneladende ganske enkle ting computere ikke kan.

En af de ganske enkle ting, det er at se hvad et billede forestiller – hvadenten det nu er et træ, en sofa, eller en håndfuld af de små krøllede bogstaver man ofte ser på nettet hvis man fx skal skrive et indlæg i et debatforum.

Billederne af de krøllede bogstaver kaldes CAPTCHA’er. CAPTCHA står for “Completely Automated PublicTuring test to tell Computers and Humans Apart.”

De fleste har sikkert set de små krøllede bogstaver på nettet, når man har oprettet en email-konto, har bedt om et nyt password til Facebook eller gerne vil skrive et indlæg på et forum.

Udover sit brugernavn og emailadresse bliver man typisk bedt om at afkode CAPTCHA’en og indtaste de bogstaver man ser i et felt, før websiden godkender éns konto eller sender én et nyt password.

Krøllede bogstaver redder gamle bøger

De bliver brugt til at skelne mellem mennesker og computere, men de gemmer på en skjult funktion – de bliver nemlig også brugt til at redde verdens kulturarv.

– Det er ikke mange der ved det, men ved at afkode de krøllede bogstaver er man faktisk med til at digitalisere bøger fra hele verden, siger manden bag, professor Luis von Ahn fra Carnegie-Mellon University i USA.

Rundt omkring i verden arbejder masser af forskellige projekter med at digitalisere bøger og tidsskrifter. Der er for eksempel Internet Archive, Google Books, webbutikken Amazon og såmænd også det Kongelige Bibliotek herhjemme.

Digitaliseringen foregår i to trin.

Først bliver bøgerne scannet og derefter bliver billedernes sendt gennem software der kan genkende bogstaver, såkaldt Optical Character Recognition.

– Problemet er bare, at OCR ikke er perfekt, og når det gælder ældre bøger med falmet blæk eller krøllede sider, så kan helt op til 30% af bogstaverne være fejllæst i softwarens, siger Luis von Ahn.

Men det fik ham til at tænke…

På den ene siden har vi et system hvor folk over hele verden skal læse og genkende forvredne bogstaver, på den anden side en række projekter der har problemer med at få maskiner til at genkende…nemlig! – forvredne bogstaver!

Menneske og maskine arbejder sammen

Så istedet for at få et computerprogram til at lave millioner af små billeder af forvredne bogstaver, så tager man da bare allerede eksisterende billeder af “rigtig” tekst og får på den måde tusinder og atter tusinder af netbrugere til at hjælpe med at tyde de gamle bøger. Og på den måde udnytter man computere og webbrugere til det, de hver især er gode til!

I praksis bruger reCAPTCHA så en masse snedige mekanismer til at tjekke og dobbelttjekke de bogstavgenkendelser brugerne bidrager med, så man kan være næsten 100 procent sikker på at have fundet den oprindelige tekst i de digitaliserede værker.

reCAPTCHA blev introduceret for snart 3 år siden, og er siden blevet brugt af over 750 mio mennesker. Det er idag et af de mest udbredte eksempler på crowdsourcing, altså at man via nettet får tusinder af mennesker til at bidrage med løsningen på et problem eller en opgave.

LINKS:
Luis von Ahn’s hjemmeside
reCAPTCHA

Reklamer

Skriv et svar

Udfyld dine oplysninger nedenfor eller klik på et ikon for at logge ind:

WordPress.com Logo

Du kommenterer med din WordPress.com konto. Log Out / Skift )

Twitter picture

Du kommenterer med din Twitter konto. Log Out / Skift )

Facebook photo

Du kommenterer med din Facebook konto. Log Out / Skift )

Google+ photo

Du kommenterer med din Google+ konto. Log Out / Skift )

Connecting to %s

%d bloggers like this: