Während sich Google von der Suchmaschine zum Werbekonzern entwickelt, sind viele mit den Suchergebnissen des Marktführers nicht zufrieden. Die Konkurrenz setzt auf semantische Verfahren. Googles Marktmacht wird das kaum bedrohen, aber vielleicht eine Monopolisierung im World Wide Web verhindern. 

 

Wer bei der Suchmaschine Google den Begriff Google eingibt, erhält in 0,5 Sekunden 1.920.000.000 Treffer. Das Ergebnis ist ebenso beeindruckend wie unübersichtlich und fast unbrauchbar. Die Trefferliste wird zwar nach Relevanz sortiert. Was aber ist relevant, und woran lässt sich das messen? Die Google-Erfinder haben dafür vor etwa zehn Jahren eine ganz eigene Methode entwickelt. Ihr so genannter linktopologischer Ansatz geht davon aus, dass die Relevanz von Online-Angeboten mit dem Grad steigt, in dem sie mit anderen verlinkt sind. 

Der Suchalgorithmus namens PageRank ermittelt den Stellenwert eines Dokuments auf der Basis von Online-Verweisen auf dieses Dokument. Je mehr Verweise existieren und je höher der PageRank der darauf verweisenden Dokumente ist, desto höher wird die Relevanz dieser Website eingeschätzt. Für das rein quantitative Verfahren setzt Google weltweit Hunderte Server in Dutzenden von Rechenzentren ein. Diese dezentrale Architektur lässt das World Wide Web pausenlos nach neuen Inhalten durchforsten, die dann von der PageRank-Technik klassifiziert werden.

PageRank arbeitet nur quantitativ

Die Nachteile von Google haben Online- Suchende zu fürchten gelernt: Mal erscheint völlig Irrelevantes auf vorderen Plätzen der Trefferliste, mal scheint das Suchtool eine andere Sprache zu sprechen oder semantische Unterschiede auszublenden. Neben dem PageRank-System werden zwar auch qualitative Faktoren wie die Nennung von Suchbegriffen im Dokumententitel oder in Überschriften zur Sortierung herangezogen. Doch auch dies reicht kaum, um zu garantieren, dass sich Unternehmen nicht mit geschickt ausgeklügelten Methoden unter die Top Ten von Ergebnislisten schummeln. Erst wurden verdeckt ganze Link-Farmen angelegt, um sich linktopologische Vorteile zu ergattern. Inzwischen haben sich Firmen darauf spezialisiert, den Google-Algorithmus gezielt auszutricksen, um das Page-Ranking bestimmter Angebote künstlich nach oben zu schrauben und so die Bedeutung von Online-Auftritten im Internet zu steigern. 

Im „Hidden Web“ verborgen 

Viele der wirklich relevanten, aber wenig frequentierten und verlinkten Inhalte des World Wide Web verschwinden häufig in der Masse. Wertvolle Inhalte des „Deep Web“ oder „Hidden Web“ bleiben Google-Nutzern also verborgen, weil sie von den Suchrobotern nicht gefunden werden. Manche Informationen werden verschlüsselt oder mit Passwörtern geschützt. Andere Angebote bestehen aus Fotos, Grafiken, Schaubildern oder Flash-Animationen. Sie alle sind aus der Google-Perspektive nicht vorhanden. Experten schätzen, dass auf diese Weise mehr als neunzig Prozent der Online-Inhalte für Google-Anwender unsichtbar bleiben. 

„Warum versteht mich Google einfach nicht?“, mag sich mancher Suchende fragen, dessen Ergebnisliste wie ein Sammelsurium aus Datenmüll wirkt. Aber genau das mit dem Verstehen ist in der Welt von Bits und Bytes, von Computer und Internet eine äußerst komplizierte, wenn nicht gar unmögliche Angelegenheit. Verstehen setzt nämlich voraus, dass Zeichen in einer bestimmten Zusammensetzung konkreten Inhalten zugeordnet werden, um einen „Sinn“ zu ergeben. Sprachwissenschaftler bezeichnen das als Semantik. Dabei handelt es sich um die Bedeutungslehre als ein Teilgebiet der Sprachwissenschaft, das sich mit der Bedeutung sprachlicher Zeichen befasst. 

Könnte Google den Inhalt als eine Art Sinn von Online-Seiten deuten und nicht nur die Dichte von Hyperlinks und Schlagwörtern als Kriterium von Relevanz messen, wären die Suchergebnisse besser. Dies aber würde menschliches Verstehen voraussetzen oder aber zumindest eine Klassifizierung von Begriffen, die in den Online-Texten zu finden sind. Das Unternehmen Google weiß um diese Schwäche und hat bereits einige kleine Software-Firmen übernommen, die sich auf semantische Suchverfahren spezialisiert haben. Noch aber fehlt den Tüftlern auf diesem Gebiet der große Durchbruch, und Google vertraut weiterhin allein auf quantitative Verfahren.

Pioniere suchen neue Lösungen

Zu denen, die bereits seit Jahren versuchen, die Grundlage für ein semantisches Internet zu schaffen, gehört Tim Berners- Lee, der Erfinder des World Wide Web. Der Online-Pionier hat eine Vision von Internet- Inhalten, die von Computern interpretiert und weiterverarbeitet werden können. Webseiten benötigen dazu semantische Annotationen, die zusätzliche Informationen über die Bedeutung der dargebotenen Inhalte geben. Mit Hilfe spezieller Metadaten- Sprachen sollen Inhalte, die sonst nur von Menschen verstanden werden, auch für Maschinen interpretierbar gemacht werden. Dieses System funktioniert zurzeit aber nur bei einfachen Inhalten. Auch das Problem einer Berücksichtigung unterschiedlicher Sprachen ist noch nicht gelöst.

Der britische Linguist David Crystal ist einen anderen Weg gegangen. Der Herausgeber der ‚Cambridge Encyclopedia of the English Language’ schuf eine Klassifikation mit 2.000 Kategorien, die Begriffe bestimmten Sinnfeldern zuordnet. Vor acht Jahren gründete der renommierte Sprachwissenschaftler die Firma Crystal Reference und verkaufte sie vor zwei Jahren an den internationalen Werbevermarkter Ad Pepper. Seitdem stellt Crystals Programm iSense sicher, dass Werbung im Internet immer nur in einem passenden Umfeld erscheint. „Ich hoffe aber immer noch, dass eines Tages, wenn das iSense-Produkt läuft und gutes Geld verdient, Ad Pepper auch die Suchmaschinenfunktion nutzt“, sagte Crystal in einem Interview mit der Frankfurter Allgemeinen Zeitung. 

Starthilfe von Yahoo und Theseus 

Als erstes großes Unternehmen hat im März Yahoo angekündigt, demnächst semantische Kriterien bei der Darstellung von Suchergebnissen zu berücksichtigen. Dabei soll auf Metadaten zurückgegriffen werden, die von Nutzern und Homepage-Eigentümern erstellt werden. Yahoos Search Open Ecosystem wird dann Merkmale des semantischen Webs berücksichtigen, wo sie schon heute vorhanden sind. So hofft Yahoo, die Verbreitung der formalen Sprache zur Erstellung von Metadaten (Resource Description Framework, RDF) und semantischen Kategorien (Mikroformaten) durch deren Nutzung zu fördern. 

Auch das deutsche Forschungsprogramm Theseus soll die semantische Suche im Internet voranbringen. Für das Projekt wurden vom Bundesministerium für Wirtschaft und Technologie für fünf Jahre neunzig Millionen Euro bereitgestellt. Die gleiche Summe soll noch einmal von der deutschen Wirtschaft kommen. Partner des von der Bertelsmann-Tochtergesellschaft Empolis koordinierten Projektes sind unter anderen SAP, Siemens, die Fraunhofer- Gesellschaft und das Deutsche Forschungszentrum für Künstliche Intelligenz in Kaiserslautern. 

Unterstützung vom Web 2.0

Im Mittelpunkt des Theseus-Forschungsprogramms stehen semantische Technologien, die Inhalte (Wörter, Bilder, Töne) aufgrund ihrer Bedeutung erkennen und einordnen können. „Dabei werden die Nutzer mit Hilfe der von Theseus erarbeiteten Standards und Basistechnologien („semantischer Werkzeugkasten“) im Internet auch selbst Inhalte, Regeln und Ordnungen erstellen und bearbeiten sowie multimediale Inhalte intelligent aufbereiten, sammeln und verknüpfen können“, heißt auf der Theseus-Homepage. Auf diese Weise soll das Web 2.0 mit seiner offenen, interaktiven und sozialen Vernetzungsphilosophie durch die Verknüpfung mit semantischen Methoden zum Internet der nächsten Generation werden. 

Auf die Hilfe zahlreicher Online-Idealisten setzt auch Wikipedia-Gründer Jimmy Wales mit seinem aktuellen Anti-Google-Projekt: Das im Januar gestartete Angebot Wikia Search könnte die Suchqualität im Internet verbessern. Dabei sollen Nutzer der Suchmaschine zum Beispiel die Qualität der gefundenen Ergebnisse bewerten, um so ein besseres Ranking als bei etablierten Suchmaschinen- Anbietern zu erreichen. Dabei werden Anwender zu ehrenamtlichen Archivaren einer virtuellen Bibliothek. 

Wales setzt auf Distributed Computing 

Millionen von Nutzern, so lautet die Philosophie von Wales, können einfach nicht schlechter sein als ein Suchalgorithmus, zumindest aber sind sie nicht so leicht manipulierbar. Im Gegensatz zu Google und anderen klassischen Suchmaschinen lässt sich bei Wikia Search nachvollziehen, wie die Ergebnisse zustande kommen.

Im vergangenen Jahr übernahm Wales’ Firma den Web-Crawler-Pionier Grub vom Online-Werbeunternehmen LookSmart. Grub setzt beim Durchsuchen des Internet auf das so genannte Distributed Computing. Zum Erstellen des Web-Indexes wird dabei die nicht genutzte Rechenleistung von Computern aller Anwender eingesetzt, die den Grub-Client installiert haben. Noch aber ist der Umfang der Wikia-Bibliothek spärlich. Wales hofft auf „bis zu fünf Prozent Marktanteil“.

Renaissance der Semantik 

Während bei den Online-Suchmaschinen der ersten Generation zur Indexierung von Inhalten noch vieles von Menschenhand eingegeben werden musste oder auf den Meta- Tags von HTML-Seiten basierte, hatten die Pioniere von AltaVista & Co. bald gegen Google keine Chance mehr. Die PageRank- Technologie war einfach schneller im Erfassen und Auswerten der Daten. Mit dem semantischen Web scheint jetzt wieder die Sehnsucht nach einer von Menschen gewichteten Strukturierung von Internet-Inhalten zu steigen. Google hingegen wächst in eine andere Richtung: in die einer crossmedialen und sehr kommerziellen Werbeplattform (siehe Info-Kasten „Googles globale Geschäfte“, S. 30). Haben Berners-Lee, Crystal oder Theseus Erfolg, könnten semantische Suchmaschinen dazu beitragen, dass im Internet Informationen nicht weiter kommerzialisiert und monopolisiert werden. 

Dr. Matthias Kurp

Hintergrundinfo // Systematik der Suchmaschinen

Indexbasierte Suchmaschinen wie Google, Yahoo oder MSN Search spiegeln Internet-Inhalte auf eigenen Servern und indexieren sie anhand bestimmter Daten.

Metasuchmaschinen wie Metager schicken Suchanfragen zeitgleich an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse anhand bestimmter Kriterien.

Semantische Suchmaschinen sollen Netz-Inhalte aufgrund von Bedeutungskategorien strukturieren.

Spezialsuchmaschinen kombinieren meist die oben beschriebenen Verfahren für einen begrenzten Bereich. Spezialsuchmaschinen existieren vor allem für verschiedene Berufsgruppen, Branchen, Preis-Vergleiche, Auktionen etc.

Hintergrundinfo // Googles globale Geschäfte

Fast zwei Drittel aller Online-Suchanfragen landen weltweit bei Google. Das Unternehmen beherrscht den Bereich der kontextbasierten Online-Anzeigen bereits zu mindestens siebzig Prozent. Zusätzlich entstehen immer neue Dienste, um für die Vermarktung von Werbung neue Märkte zu erschließen. Hier die wichtigsten Google-Geschäfte:

AdWords bietet Werbekunden die Möglichkeit, Anzeigen zu bestimmten Schlüsselbegriffen neben der Google-Ergebnisliste zu präsentieren. Gezahlt werden muss nur, wenn ein Nutzer auf eine Anzeige klickt. Der Preis resultiert jeweils aus der Zugriffszahl.

AdSense weitet das AdWords-Angebot auch auf Werbeangebote außerhalb der Google-Websites aus. Google platziert Werbung auf fremden Online-Seiten und beteiligt deren Anbieter am jeweiligen Werbeumsatz. Zurzeit wird das Geschäftsmodell auf die Bereiche Hörfunk, Zeitungen, Mobilfunk und Online-Video ausgedehnt. Die Werbeplätze werden in der Regel versteigert.

YouTube gilt als das erfolgreichste Online- Videoportal weltweit und wurde 2006 von Google übernommen. 

DoubleClick wurde 2007 zum Preis von 3,1 Milliarden US-Dollar erworben und ist Spezialist für grafische Online- Werbung.

Google TV Ads forciert die Vermarktung von TV-Werbespots. 

Google News sucht aktuelle Nachrichten.

Froogle dient zum Finden kommerzieller Güter und Produktinformationen.

Google Maps und Google Earth sind Geoinformationsdienste. 

Google Talk ist ein Instant-Messenger-Dienst im Internet, der um Videotelefonie und Voice over IP ergänzt wird. 

Google Checkout ermöglicht Online-Bezahlung.

Google Apps bietet Büro-Software (Textverarbeitung, Tabellenkalkulation, Präsentationen etc.). 

Android soll gemeinsam mit Partnern zum Open-Source-Betriebssystem für Mobilfunk entwickelt werden. 

31.03.2008 | Beitrag erstellt von redaktion in digital
Kommentar erstellen | Trackback-Link
Tags: google Views: 1222

  •  
  • 0 Kommentar(e)
  •  

Mein Kommentar

Zurück

Kategorien

Medienforum Magazin

  • [+]2011
  • [+]2010
  • [+]2009
  • [+]2008
  • [+]2007

Letzte Kommentare

Archiv

Archiv

ARCHIV MEDIENFORUM.MAGAZIN

Das medienforum.magazin berichtet zweimal jährlich über aktuelle Themen der Medienbranche. Alle Texte finden Sie hier zum Download.