01-02-12 14:59
Vooral bij oudere uitgaven die digitaal worden aangeboden kom je nog wel eens zeer vreemd gespelde woorden en overbodige of juist ontbrekende leestekens tegen. Grote kans dat het om OCR-fouten gaat, die in het ebook zijn geslopen nadat een fysiek boek is gescand omdat er geen digitale bestanden voorhanden waren.
Een mooi opgemaakt en technisch correct ebook maken is moeilijker dan menigeen denkt. Veel ebooks van zowel doe-het-zelvende auteurs als professionele uitgevers bevatten dan ook storende fouten. Maar ook andere factoren kunnen het digitale leesplezier negatief beïnvloeden. In de reeks ‘ebook ergernissen’ zet ik de 10 meest voorkomende ongemakken op een rij. Ergernis nummer acht zijn OCR-fouten in ebooks.
Door middel van Optical Character Recognition (OCR) kun je pagina’s met gescande tekst omzetten naar door computers leesbare karakters. De techniek wordt mede gebruikt om oudere boeken nieuw leven in te blazen, als ebook. Helaas is OCR verre van perfect en een tekst moet dan ook altijd goed nagekeken worden, nadat deze is herkend.
Vooral bij Google Books zijn er veel digitale boeken te vinden die wemelen van de OCR-fouten. Veelal zijn dit boeken waarvan het auteursrecht verlopen is en die in het kader van het bibliotheekproject gescand zijn en vervolgens als ebook beschikbaar gemaakt worden via books.google.com.
Op zich is het prijzenswaardig dat het bedrijf zich inzet om oude kennis digitaal beschikbaar te maken. Maar als deze in de praktijk zo goed als onleesbaar blijken te zijn doordat de automatische herkenning van teksten niet feilloos verloopt, dan kun je je afvragen of de inspanningen opwegen tegen de resultaten.
Ook in commercieel verkrijgbare ebooks zie je soms OCR-fouten staan. Bij de gedachte aan het digitaal ontsluiten van de backlist gaat menig uitgevershart sneller kloppen, maar vergeet niet dat ook hier een kwaliteitscontrole wenselijk is.
Volgende ergernis: onleesbare afbeeldingen
Vorige ergernis: windowing