D.1 Funktionsweise gängiger Suchmaschinen

Es gibt zahlreiche Anbieter von Suchmaschinen. Die wohl bekannteste dürfte Google sein, die nich zuletzt deshalb lt. verschiedenen Untersuchungen (z.B. hier) auch den größten Zuspruch (aktuell 83,6 % Marktanteil) findet. Da ich mit Google bislang überwiegend positive Erfahrungen gemacht habe, werde ich die folgenden Erklärungen deshalb auf Google aufbauen.

Suchmaschinen suchen nicht erst in dem Moment, wo der Benutzer eine Suchanfrage startet. Vielmehr haben sie schon vorher das Internet durchforstet und katalogisiert. Das kann man sich folgendermaßen vorstellen: eine gerade fertig programmierte Suchmaschine muss erstmalig mit Inhalten "gefüttert" werden. Dazu gibt man ihr einen Anfangsbestand an Internetseiten, die sie besuchen und katalogisieren soll. Sie ruft nun die erste Internetseite auf und versucht, deren Inhalt zu analysieren. Die kann z.B. aufgrund von sogenannten Meta-Daten wie z.B. den "Header-Informationen", die in den HTML-Seiten enthalten sind, vom Browser jedoch nicht dargestellt werden, oder aufgrund des sichtbaren Inhalts der Seite selbst geschehen. Stellen wir uns vor, dass in dem Seitentext der Begriff "Martin" vorkommt. Die Suchmaschine prüft nun, ob es bereits einen Indexeintrag für "Martin" gibt. Ist dies nicht der Fall, wird ein entsprechender Indexeintrag erstellt und ein Verweis auf die Adresse der aktuellen Seite gesetzt. Ansonsten würde zu dem schon bestehenden Indexeintrag der Verweis zugefügt. Stellen wir uns weiter vor, dass der Begriff "Bruns" vorkommt. Auch hier wird wieder geprüft, ob der Begriff der Suchmaschine schon bekannt ist. So geht der Suchmaschinenroboter die Seite Stück für Stück durch. Stösst er auf Links zu anderen Seiten, fügt er diese zur Liste der abzuarbeitenden Adressen hinzu, um diese später abzuarbeiten. Bildlich gesehen krabbelt der Suchmaschinenroboter durch das Internet und hangelt sich über Links von Seite zu Seite, wie eine Spinne in ihrem Netz. Daher werden diese Suchmaschinenroboter auch "Spider" oder "Crawler" genannt. Den Begriff "Robots" oder kurz "Bots" findet man auch.

Stellt der Benutzer nun eine Suchanfrage, prüft die Suchmaschine zunächst, ob bereits ein entsprechender Indexeintrag vorhanden ist, und gibt die zugehörigen Adressverweise aus. Dabei erfolgt die Ausgabe nicht bloß nach der zeitlichen Reihenfolge des Findens, sondern es erfolgt zunächst eine Filterung aufgrund der Herkunft des Benutzers, und anschließend eine Bewertung durch die Suchmaschine, welche der Treffer relevanter als andere sind.
Die Filterung erfolgt zum Teil aufgrund von rechtlichen Vorgaben. Z.B. ist aufgrund § 86 des Strafgesetzbuchs die Verbreitung von Propagandamitteln verfassungswidriger Organisationen unter Strafe gestellt. Entsprechende Inhalte würden also gefiltert. Ebenso kann eine Filterung aufgrund einer "freiwilligen" Selbstbeschränkung erfolgen: Google war z.B. von China aufgefordert worden, keine Informationen über das Massaker auf dem Platz des himmlischen Friedens an chinesische Benutzer auszuliefern.
Die Algorithmen zur Generierung der Ausgabereihenfolge sind wohl die bestgehütetsten Geschäftsgeheimnisse der Suchmaschinenbetreiber, weil sie damit entscheidend über ihren geschäftlichen Erfolg entscheiden. Die Suchmaschinenbetreiber erhalten nämlich vom Benutzer kein Entgelt für Suchanfragen, sondern müssen sich überwiegend durch Werbung finanzieren. Dafür benötigen sie zahlreiche Besucher auf ihren Seiten, was wiederum bedingt, dass sie qualitativ hochwertige Suchergebnisse liefern. Bei der Berechnung der Relevanz einer Internetseite sind nicht nur die Seiteninformationen an sich von Interesse, sondern auch die Einbindung der Seite in das Umfeld. So stieg früher die Relevanz einer Seite, wenn von zahlreichen anderen Seiten auf sie verlinkt wurde. Das hatten sich zum Beispiel politische Gegner von George W. Bush zunutze gemacht, die zahlreiche Internetseiten schufen und mit den Worten "miserable failure" auf die Seite des damaligen US-Präsidenten verlinkten. Nachdem ihre Seiten von Google indiziert worden waren, wies Google der Seite des Präsidenten auch die Worte "miserable failure" zu, was in der Folge dazu führte, dass seine Seite die Trefferliste anführte, wenn man nach diesen Begriffen suchte. Dies Phänomen nennt sich "Google Bombe".

Hat der Benutzer mehrere Suchbegriffe eingegeben, werden diese typischerweise mit einem UND verknüpft, d.h. die Suchmaschine sucht nach allen Seiten, mit denen die Suchbegriffe in Verbindung gebracht werden. Diese müssen nicht notwendigerweise alle im Text vorkommen (siehe der Hinweis auf das Vorhandensein in einem externen Link). Die Suchbegriffe müssen auch nicht alle in einem engen örtlichen Zusammenhang auf der gefundenen Seite auftauchen, d.h. es kann vorkommen, dass ein Suchbegriff z.B. in den Meta-Daten einer Seite und der andere im Text erst am Ende vorkommt. Auf weitere Details zu Filterungsmöglichkeiten bei der Suche wird insbesondere im Kapitel zur Namenssuche eingegangen werden.

Inzwischen hat sich ein komplett neues Berufsbild begründet, die sogenannten Suchmaschinenoptimierer oder auch kurz SEO für Search Engine Optimization. Es gibt nämlich Untersuchungen, bei denen festgestellt wurde, dass Benutzer maximal 2 oder 3 Seiten weit die Suchergebnisse durchgeblättert und dann geklickt haben. Dies bedeutet z.B. für Online-Shops, dass man möglichst weit vorne in den Trefferlisten auftauchen sollte, um geschäftlichen Erfolg zu haben.

Die Relevanz einer Internetseite ist bei Google übrigens nicht nur Sortierkriterium für die Ausgabereihefolge, sondern entscheidet auch über den Zeitraum nachdem die Seite erneut besucht und verschlagwortet wird.

Suchmaschinenroboter funktionieren nur dann, wenn sie sich von Seite zu Seite hangeln können. Möchte man dies unterbinden, kann man mittels einer Datei robots.txt Suchmaschinen anweisen, wie sie mit der Seite umgehen sollen, u.a. auch, ob Links weiterverfolgt werden dürfen.

Es gibt Schätzungen, wonach das sogenannte "visible web", d.h. der Teilbereich des Internet, der für die Suchmaschinen sichtbar ist, weniger als 1 % ausmacht. Dies liegt zum einen daran, dass man nicht zwingendermaßen auf seine Webinhalte aufmerksam machen muss und es somit "Inseln" geben könnte, die zwar für sich miteinander in Verbindung stehen, jedoch nicht zur "Außenwelt". Außerdem muss man Webserver nicht zwingend über einen Domainnamen aufrufen. Die Internetdomain http://www.google.de kann man auch direkt über deren IP-Adresse http://173.194.70.94 aufrufen, so dass es nicht einmal einen Eintrag im Domain Name System geben müsste. Und zum Dritten sind viele Inhalte in Datenbanken gespeichert. Bei der Automobil-Handelsseite http://www.mobile.de müsste man zum Beispiel sämtliche über die Suche möglichen Kombinationen nach Hersteller, Typ etc. durchführen, an die mobile.de-Datenbank schicken und die Antwort gezielt auslesen, um diese Seite zu indizieren. Da aber das Angebot extrem volatil ist, macht eine solche Indizierung keinen Sinn.