Artikel Wenn Maschinen lesen lernen
Mit welchen Tricks Google Bücher einliest und wie wir dabei unbemerkt helfen.
Jeder Student kennt es, jede Sekretärin, jeder der schon aus einem Buch kopiert hat: egal wie fest man die Seiten auf die Glasplatte des Kopierers presst: in der Mitte, dort wo die Seiten am Buchrücken befestigt sind, entstehen auf der Kopie Verzerrungen, weil die Seiten nicht flach aufliegen.
Google erfasst die Krümmung des Papiers der gescannten Seiten und entzerrt das Bild so digital (Quelle: US Patent # 7508978)
Das Problem plagt nicht nur die studentische Hilfskraft am Kopierer, sondern auch den milliardenschweren Internetriesen Google. Für seine Buchsuche scannt der Millionen von Büchern. Dafür muss Seite für Seite zunächst digital erfasst werden, ein Vorgang vergleichbar mit dem Abfotografieren eines aufgeschlagenes Buches. Das Foto wird dann in einem zweiten Schritt per Software analysiert, die aus dem Bild den richtigen Text herausliest - oder es zumindest versucht.
Digital geradegebogen
Programme können heute den Text in Bildern ganz gut erkennen, allerdings nur wenn die Vorlage in Ordnung ist. Google's Trick: Beim Scannen jeder Seite wird das aufgeschlagene Buch aus zwei Perspektiven mit Infrarotkameras aufgenommen. Der Computer kann so ein dreidimensionales Modell der gekrümmten Buchseiten berechnen: Wie der Mensch, kann auch ein Computer anhand zweiwer versetzt aufgenommener Bildern dreidimensional sehen. Mit diesen Daten entzerrt die Software das gescannte Bild. Für das digitale Glattziehen hat Google ein Patent angemeldet, dass dem Suchprimus neben dem enormen zeitlichen Vorsprung auch noch einen technischen Vorteil beim Wettlauf um die Digitalisierung der Buchwelt verschafft.
Es gibt zwar Alternativen zu Google's Lösung, die sind aber weniger elegant. Bei einer Variante werden etwa die Buchseiten vom Rücken getrennt und dann einzeln eingelesen. Google's Partner-Bibliotheken wären mit diesem Vorgehen wohl kaum einverstanden, die hätten ausgeliehene Bücher gerne als Ganzes zurück.
reCaptcha: Zwei Probleme, eine Lösung
Weitere Herausforderung des Bücher-Scans: Einzelne Wörter kann die Texterkennungssoftware nicht entziffern, zum Beispiel wenn Buchstaben unsauber gedruckt sind, aneinander kleben oder der Computer alte Schriften nicht versteht.
reCaptcha löst zwei Probleme auf einen Streich: von Computer nicht erkennbarer Text wird erfasst und Formularspam verhindert.
Die Firma reCaptcha hat hierfür eine Lösung entwickelt, die nicht nur das Erkennungsproblem löst, sondern gleich noch ein zweites mit: um die Netzwelt mit Werbung zu überschütten benutzen Spammer Programme, die auf Webseiten Werbe-Nachrichten hinterlassen oder automatisiert E-Mail Konten anlegen, von denen unerwünschte Werbemails verschickt werden. Seitenbetreiber versuchen dies zu verhindern, indem sie Besucher ihrer Seiten Bilder mit Buchstaben- oder Zahlenkombinationen anzeigen und abtippen lassen. Die kleine Denkaufgabe soll verhindern, dass Formulare von einer Maschine ausgefüllt werden.
Bei reCaptcha werden den Nutzern Wörter präsentiert, die eine Texterkennungssoftware nicht verstanden hat. Der Nutzer muss das Wort entziffern und erledigt so das, was der Rechner nicht geschafft hat. Aber wo bleibt da der Spamschutz? reCaptcha weiß zunächst selbst nicht, ob die Eingabe des Nutzer korrekt ist. reCaptcha präsentiert deshalb dem Besucher immer zwei Bilder: Das Wort im dem einen Bild ist unbekannt und soll vom Nutzer erkannt werden, das andere Bild wurde vorher von anderen schon entziffert und dient als eigentliche Kontrolle, ob ein Mensch am Werke ist oder eine böse Maschine.
reCaptcha wird von über 100.000 Webseiten genutzt. Es ist kostenlos und schützt gut vor Spam. Laut Angabe des Unternehmens bräuchte man über 2000 Menschen, die 40 Stunden pro Woche arbeiten, um die Leistung von reCaptcha durch feste Mitarbeiter zu ersetzen.
Wenig verwunderlich, dass Google im September 2009 die Firma gekauft hat. Preis: unbekannt. Laut Google-Blog will der Suchmaschinenbetreiber den Dienst für den Bücherscan nutzen und die eigenen Dienste, z.B. googlemail, damit vor Spammern schützen.


Leserbrief schreiben