Artikel Wenn Maschinen lesen lernen
Mit welchen Tricks Google Bücher einliest und wie wir dabei unbemerkt helfen.

Millionen von Büchern digital zu erfassen ist eine Herausforderung und Meisterleistung. Ohne technischen Rafinessen und kleine Helferlein wäre das nicht zu meistern. Google ist trickreich und der Konkurrenz mal wieder eine Stück voraus.

30.11.2009 - 17:18
Von Julia Wagner

Jeder Student kennt es, jede Sekretärin, jeder der schon aus einem Buch kopiert hat: egal wie fest man die Seiten auf die Glasplatte des Kopierers presst:  in der Mitte, dort wo die Seiten am Buchrücken befestigt sind, entstehen auf der Kopie Verzerrungen, weil die Seiten nicht flach aufliegen.

Google erfasst die Krümmung des Papiers der gescannten Seiten und entzerrt das Bild so digital (Quelle: US Patent # 7508978)

Das Problem plagt nicht nur die studentische Hilfskraft am Kopierer, sondern auch den milliardenschweren Internetriesen Google. Für seine Buchsuche scannt der Millionen von Büchern. Dafür muss Seite für Seite zunächst digital erfasst werden, ein Vorgang vergleichbar mit dem Abfotografieren eines aufgeschlagenes Buches. Das Foto wird dann in einem zweiten Schritt per Software analysiert, die aus dem Bild den richtigen Text herausliest - oder es zumindest versucht.

Digital geradegebogen

Programme können heute den Text in Bildern ganz gut erkennen, allerdings nur wenn die Vorlage in Ordnung ist. Google's Trick: Beim Scannen jeder Seite wird das aufgeschlagene Buch aus zwei Perspektiven mit Infrarotkameras aufgenommen. Der Computer kann so ein dreidimensionales Modell der gekrümmten Buchseiten berechnen: Wie der Mensch, kann auch ein Computer anhand zweiwer versetzt aufgenommener Bildern dreidimensional sehen. Mit diesen Daten entzerrt die Software das gescannte Bild. Für das digitale Glattziehen hat Google ein Patent angemeldet, dass dem Suchprimus neben dem enormen zeitlichen Vorsprung auch noch einen technischen Vorteil beim Wettlauf um die Digitalisierung der Buchwelt verschafft.

Es gibt zwar Alternativen zu Google's Lösung, die sind aber weniger elegant. Bei einer Variante werden etwa die Buchseiten vom Rücken getrennt und dann einzeln eingelesen. Google's Partner-Bibliotheken wären mit diesem Vorgehen wohl kaum einverstanden, die hätten ausgeliehene Bücher gerne als Ganzes zurück. 

reCaptcha: Zwei Probleme, eine Lösung

Weitere Herausforderung des Bücher-Scans: Einzelne Wörter kann die Texterkennungssoftware nicht entziffern, zum Beispiel wenn Buchstaben unsauber gedruckt sind, aneinander kleben oder der Computer alte Schriften nicht versteht.

reCaptcha löst zwei Probleme auf einen Streich: von Computer nicht erkennbarer Text wird erfasst und Formularspam verhindert.

Die Firma reCaptcha hat hierfür eine Lösung entwickelt, die nicht nur das Erkennungsproblem löst, sondern gleich noch ein zweites mit: um die Netzwelt mit Werbung zu überschütten benutzen Spammer Programme, die auf Webseiten Werbe-Nachrichten hinterlassen oder automatisiert E-Mail Konten anlegen, von denen unerwünschte Werbemails verschickt werden. Seitenbetreiber versuchen dies zu verhindern, indem sie Besucher ihrer Seiten Bilder mit Buchstaben- oder Zahlenkombinationen anzeigen und abtippen lassen. Die kleine Denkaufgabe soll verhindern, dass Formulare von einer Maschine ausgefüllt werden.

Bei reCaptcha werden den Nutzern Wörter präsentiert, die eine Texterkennungssoftware nicht verstanden hat. Der Nutzer muss das Wort entziffern und erledigt so das, was der Rechner nicht geschafft hat. Aber wo bleibt da der Spamschutz? reCaptcha weiß zunächst selbst nicht, ob die Eingabe des Nutzer korrekt ist. reCaptcha präsentiert deshalb dem Besucher immer zwei Bilder: Das Wort im dem einen Bild ist unbekannt und soll vom Nutzer erkannt werden, das andere Bild wurde vorher von anderen schon entziffert und dient als eigentliche Kontrolle, ob ein Mensch am Werke ist oder eine böse Maschine.

reCaptcha wird von über 100.000 Webseiten genutzt. Es ist kostenlos und schützt gut vor Spam. Laut Angabe des Unternehmens bräuchte man über 2000 Menschen, die 40 Stunden pro Woche arbeiten, um die Leistung von reCaptcha durch feste Mitarbeiter zu ersetzen.

Wenig verwunderlich, dass Google im September 2009 die Firma gekauft hat. Preis: unbekannt. Laut Google-Blog will der Suchmaschinenbetreiber den Dienst für den Bücherscan nutzen und die eigenen Dienste, z.B. googlemail, damit vor Spammern schützen.

Dieser Artikel wurde von 4 Mitgliedern geschrieben und dabei 3 mal überarbeitet. 4 Mitglieder sind der redaktionsinternen Arbeitsgruppe zu diesem Artikel beigetreten. Dort wurden Gruppenbeiträge verfasst. Die Endfassung haben abschließend 2 Mitglieder geprüft und bewertet. Mehr über netzpublik.

Weitere Beiträge zu diesem Schwerpunkt

Google Buchsuche
Gutenbergs Erbe per Mausklick: Tücken eines digitalen Geniestreichs

Google macht Wissen aus Millionen Büchern verfügbar: kostenlos und per Mausklick. Die Welt ist entrüstet. Was die US-Klage gegen den Internetriesen bedeutet und mit welchen Kinderkrankheiten die Buchsuche noch kämpft. weiterlesen 131 Punkte

Ver.Sucht
Warum Google's Buchsuche gespickt ist mit Millionen von Fehlern

Google hat sich zum Ziel gesetzt, dass Wissen der Welt zu organisieren und verfügbar zu machen. Bei seiner Buchsuche (Google Book Search) ist das mitunter auf amüsante Weise fehlgeschlagen. Woran es liegt und wer Schuld daran ist. weiterlesen 127 Punkte

Unsere Autorin

Bild von Julia Wagner

Julia Wagner

Studium der „Visuellen Kommunikation” im Bereich
Grafik mit Schwerpunkt Illustration. Freie Mitarbeit in Verlagen und Werbeagenturen. Big Fan von "Google"!

Leserbriefe

Leserbrief schreiben

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.
Inhalt abgleichen Leserbriefe als RSS-Feed