17-09-09 11:17
Als je inlogt op een website moet je vaak naast je username en password ook een zogenaamde captcha invullen, een moeilijk leesbare code die bedoeld is om misbruik door spammers te voorkomen. Het bedrijf reCaptcha maakt creatief gebruik van de functie en laat slecht leesbare woorden uit gescande boeken overtypen door nietsvermoedende gebruikers, die derhalve bijdragen aan het digitaliseren van boeken. Google heeft nu het bedrijf overgenomen.
Captcha staat voor ‘Completely Automated Public Turing test to tell Computers and Humans Apart’ en het fundament voor de test werd bedacht door de wiskundige Alan Turing. De captcha test werd later ontwikkeld door een team van Carnegie Mellon University.
Na de eeuwwisseling nam het misbruik van allerlei webformulieren door spammers namelijk sterk toe, en men zocht naar een manier om spamsoftware (die automatisch allerlei formulieren invult en dan bijvoorbeeld ongewenste email verstuurt) te weren. Een succesvolle manier is om een lastig leesbare combinatie van cijfers en letters te laten invullen door de gebruiker; mensen zijn hier nog altijd beter in dan computers.
Dat bracht de oprichters van reCaptcha op een idee; bij het scannen van boeken zijn er vaak woorden die door de OCR software niet goed gelezen kunnen worden, doordat er gebruik gemaakt wordt van een afwijkend lettertype of doordat de originele pagina een vouw of scheur bevat. Waarom zou je die woorden dan niet gebruiken als input voor een captcha?

Voorbeeld van een reCaptcha
Afbeeldingen van de moeilijk leesbare woorden worden door reCaptcha automatisch verspreid onder een netwerk van aangesloten websites en getoond aan mensen, die de woorden vervolgens intypen. Na verloop van tijd wordt er gekeken welke combinatie het vaakst wordt ingetypt en waarschijnlijk is dat dan de juiste interpretatie van de tekst. Op die manier heeft reCaptcha al miljoenen woorden gedigitaliseerd.
Het succes van reCaptcha bleef niet onopgemerkt en daarom heeft Google het bedrijf nu overgenomen. Google scant immers dagelijks duizenden oude boeken voor haar Book Search project, maar de OCR software kan lang niet alle boeken correct interpreteren. Met reCaptcha hoopt Google nu de boeken nog beter te kunnen digitaliseren.