Uitgeverij Eburon
Uitgever 2.0
Uitgever 2.0: uitgeverij blog van Wiebe de Jager'Uitgever 2.0' is het bedrijfsblog van Eburon-uitgever Wiebe de Jager, over de ontwikkelingen in uitgeefland en de toekomst van het boek.
Bekijk recente berichten

Uitgever 2.0 blog rss feed  

Boeken die ik geschreven heb:
Affiliate marketing
Bevorder je boekverkoop
Publiceren op de iPad
Zelf ebooks uitgeven

Mijn volgende boek:
CERN (science fiction thriller)

Zoeken
Doorzoek onze site op auteur, titel, trefwoord of isbn (isbn zonder streepjes of spaties invoeren):
Gratis email service

Nieuwe berichten van dit weblog automatisch in uw inbox ontvangen? Voer daartoe hieronder uw emailadres in. Aanmelden is gratis!

Google schakelt gebruikers in bij digitalisering van boeken

Wiebe de Jager
Google schakelt gebruikers in bij digitalisering van boeken Als je inlogt op een website moet je vaak naast je username en password ook een zogenaamde captcha invullen, een moeilijk leesbare code die bedoeld is om misbruik door spammers te voorkomen. Het bedrijf reCaptcha maakt creatief gebruik van de functie en laat slecht leesbare woorden uit gescande boeken overtypen door nietsvermoedende gebruikers, die derhalve bijdragen aan het digitaliseren van boeken. Google heeft nu het bedrijf overgenomen.

Captcha staat voor ‘Completely Automated Public Turing test to tell Computers and Humans Apart’ en het fundament voor de test werd bedacht door de wiskundige Alan Turing. De captcha test werd later ontwikkeld door een team van Carnegie Mellon University.

Na de eeuwwisseling nam het misbruik van allerlei webformulieren door spammers namelijk sterk toe, en men zocht naar een manier om spamsoftware (die automatisch allerlei formulieren invult en dan bijvoorbeeld ongewenste email verstuurt) te weren. Een succesvolle manier is om een lastig leesbare combinatie van cijfers en letters te laten invullen door de gebruiker; mensen zijn hier nog altijd beter in dan computers.

Dat bracht de oprichters van reCaptcha op een idee; bij het scannen van boeken zijn er vaak woorden die door de OCR software niet goed gelezen kunnen worden, doordat er gebruik gemaakt wordt van een afwijkend lettertype of doordat de originele pagina een vouw of scheur bevat. Waarom zou je die woorden dan niet gebruiken als input voor een captcha?


Voorbeeld van een reCaptcha

Afbeeldingen van de moeilijk leesbare woorden worden door reCaptcha automatisch verspreid onder een netwerk van aangesloten websites en getoond aan mensen, die de woorden vervolgens intypen. Na verloop van tijd wordt er gekeken welke combinatie het vaakst wordt ingetypt en waarschijnlijk is dat dan de juiste interpretatie van de tekst. Op die manier heeft reCaptcha al miljoenen woorden gedigitaliseerd.

Het succes van reCaptcha bleef niet onopgemerkt en daarom heeft Google het bedrijf nu overgenomen. Google scant immers dagelijks duizenden oude boeken voor haar Book Search project, maar de OCR software kan lang niet alle boeken correct interpreteren. Met reCaptcha hoopt Google nu de boeken nog beter te kunnen digitaliseren.



   



De ebooks van Eburon. Nu ook verkrijgbaar in de iBookstore.

Uitgever 2.0   
Al tijdens het schrijven mijn serie van tien ebook ergernissen wist ik dat ik aan tien blogposts niet genoeg zou hebben. Ik was dan ook niet verbaasd toen ik een email kreeg van Geert Bonte, een lezer van mijn blog, met maar liefst zeven aanvullende ergernissen, uitgeschreven en al. Ik geef ze in deze gastblog ongewijzigd weer.  Lees meer...Lees meer...
Mijn serie van 10 ebook ergernissen komt helaas tot een einde. Met als afsluiter de Ergernis der Ergernissen: Digital Rights Management (DRM). De kopieerbeveiliging zorgt er nog altijd voor dat goedwillende lezers veel problemen ondervinden met het openen van hun ebooks, terwijl mensen die illegale kopieën downloaden nergens last van hebben.  Lees meer...Lees meer...
Een ePub ebook bestaat voornamelijk uit html en css. De mogelijkheden om figuren en tabellen in te voegen zijn dan ook redelijk beperkt. Die worden daarom meestal als bitmap afbeeldingen ingevoegd. Maar als de resolutie te laag is, dan worden ze onleesbaar.  Lees meer...Lees meer...
Vooral bij oudere uitgaven die digitaal worden aangeboden kom je nog wel eens zeer vreemd gespelde woorden en overbodige of juist ontbrekende leestekens tegen. Grote kans dat het om OCR-fouten gaat, die in het ebook zijn geslopen nadat een fysiek boek is gescand omdat er geen digitale bestanden voorhanden waren.  Lees meer...Lees meer...