Artikel Ver.Sucht
Warum Google's Buchsuche gespickt ist mit Millionen von Fehlern
Das Jahr 1899 war zukunftsweisend, zumindest wenn man Google glaubt: Laut dessen Buchsuche sind in diesem Jahr zum Beispiel Stephen King's Roman "Christine" erschienen oder eine Bibliographie von Bob Dylan. Manche Autoren wie Peter F. Ducker haben laut Google fünf Jahre vor ihrer Geburt, bereits die ersten Bücher veröffentlicht - pränatal. Auch das Internet selbst ist älter als vermutet: Das Stichwort liefert über 500 Ergebnisse von Büchern die bereits vor 1950 über das weltweite Netz berichtet haben sollen. Bei Suchbegriffen wie "Woody Allen" und "Barack Obama" findet die Suche dutzende Werke, die auf die Zeit vor 1812 datiert sind. Die Weihnachtsgeschichte von Charles Dickens ("A Christmas Carol") wurde sogar schon vor der Erfindung des Buchdrucks in Europa (durch Johannes Gutenberg 1400 bis 1468) veröffentlicht, nämlich 1135. Aber nicht nur mit Jahreszahlen hapert es: Moby Dick finden wir etwa in der Kategorie "Software".
Die Fehler in der Buchsuche sind Google bekannt und unbestritten und letztlich kein Wunder: Google hat Metadaten zu allen existierenden Büchern gesammelt, um zu entscheiden, welche Bücher gescannt werden können und sollen. Zuletzt waren es Informationen zu mehr als 168 Millionen Werken. Stapelte man diese übereinander wäre der Bücherberg so hoch wie seine Brüder aus Stein: knapp 6000 km, das entspricht der Höhe des Kilimanjaro oder Mont Blanc. Zu den Büchern gehören eine Trillionen einzelne Metadaten. Hört sich imposant an, und sieht auch beeindruckend aus: 1.000.000.000.000.000.000. Eine Millionen mal eine Millionen.
Hierfür mussten Daten von den unterschiedlichsten Quellen auf der ganzen Welt eingekauft werden. Und was sich im Rechenzentrum von Google ansammelte widersprach sich teilweise oder enthielt bereits Fehler. So hatte laut Google ein brasilianischer Anbieter Informationen geliefert, in denen unbekannte Erscheinungsjahre immer mit 1899 angegeben waren. Eine viertel Millionen falsch datierter Bücher haben so den Datenpool von Google vergiftet. Das Beispiel ist ein Extremfall. Aber: Bei einer Trillionen Daten genügt es schon, wenn nur jeder millionste Werte fehlerhaft ist, um den Gesamtbestand mit einer satten Millionen Fehler zu spicken.
Google versucht, per Software aus dem Wust an Metadaten einen Gesamtkatalog zu erstellen und bei widersprüchlichen Daten die richtigen herauszufischen. Quell des Übels sollen die andere sein: Einen Fehler durch Google beim Einscannen und Erkennen der Jahreszahlen schließt der Suchriese aus: Metadaten wurden angeblich nicht auf diese Weise erfasst, sondern nur aus den Informationen von Bibliotheken und anderen Lieferanten entnommen. Doch Zweifel sind angebracht: Für die Klassifikation der Bücher etwa hat Google Systematiken verwendet, die von Bibliotheken oder Verlegern teilweise nicht oder noch nicht genutzt wurden. Die Einordnung ist also zumindest teilweise bei Google selbst erfolgt.
Die Probleme, mit denen Google bei seinem ehrgeizigen Projekt zu kämpfen hat, mögen den Kritikern des Suchelefanten schadenfreudiges Lächeln auf das Gesicht zaubern. Doch das vergeht bei dem Gedanken, dass Google der Konkurrenz bei der Lösung dieser Probleme um Jahre voraus. Jeder Schritt nach vorne festigt Google's Stellung auf dem Markt der Informationssuche und hängt die Konkurrenz ein Stück weiter ab.

Leserbriefe
Fehlerteufel
"(...) knapp 6000 km, das entspricht der Höhe des Kilimanjaro oder Mont Blanc."
Sie meinen sicher 6000 Meter und nicht Kilometer(!) :D
Leserbrief schreiben