Artikel Ver.Sucht
Warum Google's Buchsuche gespickt ist mit Millionen von Fehlern

Google hat sich zum Ziel gesetzt, dass Wissen der Welt zu organisieren und verfügbar zu machen. Bei seiner Buchsuche (Google Book Search) ist das mitunter auf amüsante Weise fehlgeschlagen. Woran es liegt und wer Schuld daran ist.

30.11.2009 - 18:18
Von Rudolph Lohstein in Zusammenarbeit mit Mirjam Neller

Das Jahr 1899 war zukunftsweisend, zumindest wenn man Google glaubt: Laut dessen Buchsuche sind in diesem Jahr zum Beispiel Stephen King's Roman "Christine" erschienen oder eine Bibliographie von Bob Dylan. Manche Autoren wie Peter F. Ducker haben laut Google fünf Jahre vor ihrer Geburt, bereits die ersten Bücher veröffentlicht - pränatal. Auch das Internet selbst ist älter als vermutet: Das Stichwort liefert über 500 Ergebnisse von Büchern die bereits vor 1950 über das weltweite Netz berichtet haben sollen. Bei Suchbegriffen wie "Woody Allen" und "Barack Obama" findet die Suche dutzende Werke, die auf die Zeit vor 1812 datiert sind. Die Weihnachtsgeschichte von Charles Dickens ("A Christmas Carol") wurde sogar schon vor der Erfindung des Buchdrucks in Europa (durch Johannes Gutenberg 1400 bis 1468) veröffentlicht, nämlich 1135. Aber nicht nur mit Jahreszahlen hapert es: Moby Dick finden wir etwa in der Kategorie "Software".

Die Fehler in der Buchsuche sind Google bekannt und unbestritten und letztlich kein Wunder: Google hat Metadaten zu allen existierenden Büchern gesammelt, um zu entscheiden, welche Bücher gescannt werden können und sollen. Zuletzt waren es Informationen zu mehr als 168 Millionen Werken. Stapelte man diese übereinander wäre der Bücherberg so hoch wie seine Brüder aus Stein: knapp 6000 km, das entspricht der Höhe des Kilimanjaro oder Mont Blanc. Zu den Büchern gehören eine Trillionen einzelne Metadaten. Hört sich imposant an, und sieht auch beeindruckend aus: 1.000.000.000.000.000.000. Eine Millionen mal eine Millionen.

Hierfür mussten Daten von den unterschiedlichsten Quellen auf der ganzen Welt eingekauft werden. Und was sich im Rechenzentrum von Google ansammelte widersprach sich teilweise oder enthielt bereits Fehler. So hatte laut Google ein brasilianischer Anbieter Informationen geliefert, in denen unbekannte Erscheinungsjahre immer mit 1899 angegeben waren. Eine viertel Millionen falsch datierter Bücher haben so den Datenpool von Google vergiftet. Das Beispiel ist ein Extremfall. Aber: Bei einer Trillionen Daten genügt es schon, wenn nur jeder millionste Werte fehlerhaft ist, um den Gesamtbestand mit einer satten Millionen Fehler zu spicken.

Google versucht, per Software aus dem Wust an Metadaten einen Gesamtkatalog zu erstellen und bei widersprüchlichen Daten die richtigen herauszufischen. Quell des Übels sollen die andere sein: Einen Fehler durch Google beim Einscannen und Erkennen der Jahreszahlen schließt der Suchriese aus: Metadaten wurden angeblich nicht auf diese Weise erfasst, sondern nur aus den Informationen von Bibliotheken und anderen Lieferanten entnommen. Doch Zweifel sind angebracht: Für die Klassifikation der Bücher etwa hat Google Systematiken verwendet, die von Bibliotheken oder Verlegern teilweise nicht oder noch nicht genutzt wurden. Die Einordnung ist also zumindest teilweise bei Google selbst erfolgt.

Die Probleme, mit denen Google bei seinem ehrgeizigen Projekt zu kämpfen hat, mögen den Kritikern des Suchelefanten schadenfreudiges Lächeln auf das Gesicht zaubern. Doch das vergeht bei dem Gedanken, dass Google der Konkurrenz bei der Lösung dieser Probleme um Jahre voraus. Jeder Schritt nach vorne festigt Google's Stellung auf dem Markt der Informationssuche und hängt die Konkurrenz ein Stück weiter ab.  

Dieser Artikel wurde von 2 Mitgliedern geschrieben und dabei überarbeitet. 4 Mitglieder sind der redaktionsinternen Arbeitsgruppe zu diesem Artikel beigetreten. Dort wurden Gruppenbeiträge verfasst. Die Endfassung haben abschließend 2 Mitglieder geprüft und bewertet. Mehr über netzpublik.

Weitere Beiträge zu diesem Schwerpunkt

Google Buchsuche
Gutenbergs Erbe per Mausklick: Tücken eines digitalen Geniestreichs

Google macht Wissen aus Millionen Büchern verfügbar: kostenlos und per Mausklick. Die Welt ist entrüstet. Was die US-Klage gegen den Internetriesen bedeutet und mit welchen Kinderkrankheiten die Buchsuche noch kämpft. weiterlesen 131 Punkte

Wenn Maschinen lesen lernen
Mit welchen Tricks Google Bücher einliest und wie wir dabei unbemerkt helfen.

Millionen von Büchern digital zu erfassen ist eine Herausforderung und Meisterleistung. Ohne technischen Rafinessen und kleine Helferlein wäre das nicht zu meistern. Google ist trickreich und der Konkurrenz mal wieder eine Stück voraus. weiterlesen 128 Punkte

Unser Autor

Bild von Rudolph Lohstein

Rudolph Lohstein

Herr Lohstein, Magister Artium Kommunikationswissenschaft , war lange Zeit im Bereich Kommunikation nebenberuflich als Lehrkraft tätig und ist heute als Coach und Berater aktiv.

Leserbriefe

Leserbriefe

Fehlerteufel

"(...) knapp 6000 km, das entspricht der Höhe des Kilimanjaro oder Mont Blanc."

Sie meinen sicher 6000 Meter und nicht Kilometer(!) :D

Leserbrief schreiben

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.
Inhalt abgleichen Leserbriefe als RSS-Feed