31.03.2008 | Beitrag erstellt von in digital
Während sich Google von der Suchmaschine zum Werbekonzern entwickelt, sind viele mit den Suchergebnissen des Marktführers nicht zufrieden. Die Konkurrenz setzt auf semantische Verfahren. Googles Marktmacht wird das kaum bedrohen, aber vielleicht eine Monopolisierung im World Wide Web verhindern.
Wer bei der Suchmaschine Google den Begriff Google eingibt, erhält in 0,5 Sekunden 1.920.000.000 Treffer. Das Ergebnis ist ebenso beeindruckend wie unübersichtlich und fast unbrauchbar. Die Trefferliste wird zwar nach Relevanz sortiert. Was aber ist relevant, und woran lässt sich das messen? Die Google-Erfinder haben dafür vor etwa zehn Jahren eine ganz eigene Methode entwickelt. Ihr so genannter linktopologischer Ansatz geht davon aus, dass die Relevanz von Online-Angeboten mit dem Grad steigt, in dem sie mit anderen verlinkt sind.
Der Suchalgorithmus namens PageRank ermittelt den Stellenwert eines Dokuments auf der Basis von Online-Verweisen auf dieses Dokument. Je mehr Verweise existieren und je höher der PageRank der darauf verweisenden Dokumente ist, desto höher wird die Relevanz dieser Website eingeschätzt. Für das rein quantitative Verfahren setzt Google weltweit Hunderte Server in Dutzenden von Rechenzentren ein. Diese dezentrale Architektur lässt das World Wide Web pausenlos nach neuen Inhalten durchforsten, die dann von der PageRank-Technik klassifiziert werden.
PageRank arbeitet nur quantitativ
Die Nachteile von Google haben Online- Suchende zu fürchten gelernt: Mal erscheint völlig Irrelevantes auf vorderen Plätzen der Trefferliste, mal scheint das Suchtool eine andere Sprache zu sprechen oder semantische Unterschiede auszublenden. Neben dem PageRank-System werden zwar auch qualitative Faktoren wie die Nennung von Suchbegriffen im Dokumententitel oder in Überschriften zur Sortierung herangezogen. Doch auch dies reicht kaum, um zu garantieren, dass sich Unternehmen nicht mit geschickt ausgeklügelten Methoden unter die Top Ten von Ergebnislisten schummeln. Erst wurden verdeckt ganze Link-Farmen angelegt, um sich linktopologische Vorteile zu ergattern. Inzwischen haben sich Firmen darauf spezialisiert, den Google-Algorithmus gezielt auszutricksen, um das Page-Ranking bestimmter Angebote künstlich nach oben zu schrauben und so die Bedeutung von Online-Auftritten im Internet zu steigern.
Im „Hidden Web“ verborgen
Viele der wirklich relevanten, aber wenig frequentierten und verlinkten Inhalte des World Wide Web verschwinden häufig in der Masse. Wertvolle Inhalte des „Deep Web“ oder „Hidden Web“ bleiben Google-Nutzern also verborgen, weil sie von den Suchrobotern nicht gefunden werden. Manche Informationen werden verschlüsselt oder mit Passwörtern geschützt. Andere Angebote bestehen aus Fotos, Grafiken, Schaubildern oder Flash-Animationen. Sie alle sind aus der Google-Perspektive nicht vorhanden. Experten schätzen, dass auf diese Weise mehr als neunzig Prozent der Online-Inhalte für Google-Anwender unsichtbar bleiben.
„Warum versteht mich Google einfach nicht?“, mag sich mancher Suchende fragen, dessen Ergebnisliste wie ein Sammelsurium aus Datenmüll wirkt. Aber genau das mit dem Verstehen ist in der Welt von Bits und Bytes, von Computer und Internet eine äußerst komplizierte, wenn nicht gar unmögliche Angelegenheit. Verstehen setzt nämlich voraus, dass Zeichen in einer bestimmten Zusammensetzung konkreten Inhalten zugeordnet werden, um einen „Sinn“ zu ergeben. Sprachwissenschaftler bezeichnen das als Semantik. Dabei handelt es sich um die Bedeutungslehre als ein Teilgebiet der Sprachwissenschaft, das sich mit der Bedeutung sprachlicher Zeichen befasst.
Könnte Google den Inhalt als eine Art Sinn von Online-Seiten deuten und nicht nur die Dichte von Hyperlinks und Schlagwörtern als Kriterium von Relevanz messen, wären die Suchergebnisse besser. Dies aber würde menschliches Verstehen voraussetzen oder aber zumindest eine Klassifizierung von Begriffen, die in den Online-Texten zu finden sind. Das Unternehmen Google weiß um diese Schwäche und hat bereits einige kleine Software-Firmen übernommen, die sich auf semantische Suchverfahren spezialisiert haben. Noch aber fehlt den Tüftlern auf diesem Gebiet der große Durchbruch, und Google vertraut weiterhin allein auf quantitative Verfahren.
Pioniere suchen neue Lösungen
Zu denen, die bereits seit Jahren versuchen, die Grundlage für ein semantisches Internet zu schaffen, gehört Tim Berners- Lee, der Erfinder des World Wide Web. Der Online-Pionier hat eine Vision von Internet- Inhalten, die von Computern interpretiert und weiterverarbeitet werden können. Webseiten benötigen dazu semantische Annotationen, die zusätzliche Informationen über die Bedeutung der dargebotenen Inhalte geben. Mit Hilfe spezieller Metadaten- Sprachen sollen Inhalte, die sonst nur von Menschen verstanden werden, auch für Maschinen interpretierbar gemacht werden. Dieses System funktioniert zurzeit aber nur bei einfachen Inhalten. Auch das Problem einer Berücksichtigung unterschiedlicher Sprachen ist noch nicht gelöst.
Der britische Linguist David Crystal ist einen anderen Weg gegangen. Der Herausgeber der ‚Cambridge Encyclopedia of the English Language’ schuf eine Klassifikation mit 2.000 Kategorien, die Begriffe bestimmten Sinnfeldern zuordnet. Vor acht Jahren gründete der renommierte Sprachwissenschaftler die Firma Crystal Reference und verkaufte sie vor zwei Jahren an den internationalen Werbevermarkter Ad Pepper. Seitdem stellt Crystals Programm iSense sicher, dass Werbung im Internet immer nur in einem passenden Umfeld erscheint. „Ich hoffe aber immer noch, dass eines Tages, wenn das iSense-Produkt läuft und gutes Geld verdient, Ad Pepper auch die Suchmaschinenfunktion nutzt“, sagte Crystal in einem Interview mit der Frankfurter Allgemeinen Zeitung.
Starthilfe von Yahoo und Theseus
Als erstes großes Unternehmen hat im März Yahoo angekündigt, demnächst semantische Kriterien bei der Darstellung von Suchergebnissen zu berücksichtigen. Dabei soll auf Metadaten zurückgegriffen werden, die von Nutzern und Homepage-Eigentümern erstellt werden. Yahoos Search Open Ecosystem wird dann Merkmale des semantischen Webs berücksichtigen, wo sie schon heute vorhanden sind. So hofft Yahoo, die Verbreitung der formalen Sprache zur Erstellung von Metadaten (Resource Description Framework, RDF) und semantischen Kategorien (Mikroformaten) durch deren Nutzung zu fördern.
Auch das deutsche Forschungsprogramm Theseus soll die semantische Suche im Internet voranbringen. Für das Projekt wurden vom Bundesministerium für Wirtschaft und Technologie für fünf Jahre neunzig Millionen Euro bereitgestellt. Die gleiche Summe soll noch einmal von der deutschen Wirtschaft kommen. Partner des von der Bertelsmann-Tochtergesellschaft Empolis koordinierten Projektes sind unter anderen SAP, Siemens, die Fraunhofer- Gesellschaft und das Deutsche Forschungszentrum für Künstliche Intelligenz in Kaiserslautern.
Unterstützung vom Web 2.0
Im Mittelpunkt des Theseus-Forschungsprogramms stehen semantische Technologien, die Inhalte (Wörter, Bilder, Töne) aufgrund ihrer Bedeutung erkennen und einordnen können. „Dabei werden die Nutzer mit Hilfe der von Theseus erarbeiteten Standards und Basistechnologien („semantischer Werkzeugkasten“) im Internet auch selbst Inhalte, Regeln und Ordnungen erstellen und bearbeiten sowie multimediale Inhalte intelligent aufbereiten, sammeln und verknüpfen können“, heißt auf der Theseus-Homepage. Auf diese Weise soll das Web 2.0 mit seiner offenen, interaktiven und sozialen Vernetzungsphilosophie durch die Verknüpfung mit semantischen Methoden zum Internet der nächsten Generation werden.
Auf die Hilfe zahlreicher Online-Idealisten setzt auch Wikipedia-Gründer Jimmy Wales mit seinem aktuellen Anti-Google-Projekt: Das im Januar gestartete Angebot Wikia Search könnte die Suchqualität im Internet verbessern. Dabei sollen Nutzer der Suchmaschine zum Beispiel die Qualität der gefundenen Ergebnisse bewerten, um so ein besseres Ranking als bei etablierten Suchmaschinen- Anbietern zu erreichen. Dabei werden Anwender zu ehrenamtlichen Archivaren einer virtuellen Bibliothek.
Wales setzt auf Distributed Computing
Millionen von Nutzern, so lautet die Philosophie von Wales, können einfach nicht schlechter sein als ein Suchalgorithmus, zumindest aber sind sie nicht so leicht manipulierbar. Im Gegensatz zu Google und anderen klassischen Suchmaschinen lässt sich bei Wikia Search nachvollziehen, wie die Ergebnisse zustande kommen.
Im vergangenen Jahr übernahm Wales’ Firma den Web-Crawler-Pionier Grub vom Online-Werbeunternehmen LookSmart. Grub setzt beim Durchsuchen des Internet auf das so genannte Distributed Computing. Zum Erstellen des Web-Indexes wird dabei die nicht genutzte Rechenleistung von Computern aller Anwender eingesetzt, die den Grub-Client installiert haben. Noch aber ist der Umfang der Wikia-Bibliothek spärlich. Wales hofft auf „bis zu fünf Prozent Marktanteil“.
Renaissance der Semantik
Während bei den Online-Suchmaschinen der ersten Generation zur Indexierung von Inhalten noch vieles von Menschenhand eingegeben werden musste oder auf den Meta- Tags von HTML-Seiten basierte, hatten die Pioniere von AltaVista & Co. bald gegen Google keine Chance mehr. Die PageRank- Technologie war einfach schneller im Erfassen und Auswerten der Daten. Mit dem semantischen Web scheint jetzt wieder die Sehnsucht nach einer von Menschen gewichteten Strukturierung von Internet-Inhalten zu steigen. Google hingegen wächst in eine andere Richtung: in die einer crossmedialen und sehr kommerziellen Werbeplattform (siehe Info-Kasten „Googles globale Geschäfte“, S. 30). Haben Berners-Lee, Crystal oder Theseus Erfolg, könnten semantische Suchmaschinen dazu beitragen, dass im Internet Informationen nicht weiter kommerzialisiert und monopolisiert werden.
31.03.2008 | Beitrag erstellt von in digital
Kommentar erstellen | Trackback-Link
Views: 1222
- 0 Kommentar(e)




