Startseite Information Retrieval Tutorium

Suchmschinen sind vollautomatische Suchdienste im Internet, in den Bereichen WWW und FTP.
Agentenprogramme, die Robots/ Spiders, durchforsten selbstständig non-stop das Internet nach Links und indexieren die dazugehörigen Seiten.
Ein Robot hangelt sich dabei von Link zu Link. Eine nicht verlinkte Seite kann daher kaum in die Datenbank einer Suchmaschine gelangen.
Bei diesem Vorgehen der Agenten ist zwischen Tiefen- und Breitensuche zu unterscheiden. Breitensuche bedeutet, dass sämtliche Links auf einer Webpage verfolgt werden. Der Agent verfolgt die Links dabei allerdings nur wenige Ebenen tief, meist nicht weiter als acht Ebenen unter die Hauptseite. Tiefensuche ist analog dazu jene Strategie, bei der nur eine begrenzte Anzahl Links auf einer Webpage verfolgt werden, dies jedoch wesentlich tiefergehend. So können z.B. bei Universitäten auch Arbeitsmaterialien erfasst werden, die 20 Ebenen unter der URL (Hauptseite) liegen.
Der Nachteil der Tiefensuche ist, dass auf den einzelnen Seiten jeweils nur ein Teil der Links verfolgt wird, dadurch aber auch eventuell gute externe Links verlorengehen, und vielleicht nur lokalen Verweisen gefolgt wird. Da sich Robots von Link zu Link durchs Netz bewegen, ist es wichtig, möglichst viele externe Links zu erfassen, um im Internet eine möglichst grosse Netzabdeckung zu erreichen. Eine Breitensuche mit eingeschränkter Tiefensuche ist also hierfür am besten geeignet. Beide Strategien voll auszuschöpfen, ist aufgrund der endlichen Rechner- und Netzkapazitäten nicht meöglich. Robots stellen eine wesentliche Netzbelastung dar und können sogar einzelne Server durch zu massierte Anfragen überlasten.
Die so gewonnenen Links werden in einem Index abgelegt. Danach werden mittels des Harvesters die einzelnen Links angegangen und die Seiten im Volltext indexiert. Die so gewonnenen Daten werden unstrukturiert und unreflektiert, nur dem Link zugeordnet, in einer grossen Datenbank abgelegt.
Zur Pflege und Aktualisierung werden die gespeicherten Links in regelmäßigen Abständen erneut abgefragt.
Auf eine Suchanfrage eines Nutzers hin, wird zuerst die natürlichsprachige Suchanfrage in eine Datenbanksprache wie SQL überführt, damit dann die aufgebaute Datenbank durchsucht.
Das Ranking (Gewichtung) erfolgt meist nach der Trefferhäufigkeit, also wie oft der gefragte Suchbegriff in einem Dokument vorkommt. Andere Möglichkeiten des Rankings sind nach Erstelldatum der ausgewiesenen Seiten.
Auf eine Suchanfrage bei einer Suchmaschine wird also nicht das Internet durchsucht, sondern nur die Datenbank der Suchmaschine, die durch vollautomatische Agentenprogramme erstellt wurde und ständig erweitert wird.

Vorteile:
Eine Suchmaschine wie Altavista, Google oder Northernlight kann zwar nicht alle Dokumente des Internets erfassen, aber dennoch einen großen Teil. Auf diese Weise ist auch der Fundus der Suchmaschinen sehr groß und garantiert meist brauchbare Trefer.
Suchmaschinen können auch als demokratisch bezeichnet werden, da sie die gewonnenen Daten völlig unbearbeitet und unkritisch in einer Datenbank ablegen. Es findet also keine Vorbewertung statt. Allerdings werden die Suchanfragen in einigen Ländern, wie China, auf bestimmte Reizwörter überprüft.

Nachteile:
Suchmaschinen decken nur einen Teil des Internets ab, bestenfalls etwa ein Drittel, da dieses zu schnell wächst und andererseits auch die Vorgehensweise der Agnetenprogramme (von Link zu Link) einer vollständigen Erfassung entgegensteht.
Aufgrund der automatischen Indexerstellung ist eine gezielte Suche schwierig. Da für die sogenannten Meta-Tags die existierenden Standards (wie Dublin-Core) kaum beachtet werden und Autoren zudem viel Unsinn damit treiben, indem z.B. falsche Schlagwörter vergeben werden oder ein Begriff-Spamming fabriziert wird (wenige oft abgefragte Wörter werden dutzende Male in die auf einer Siete nicht sichtbaren Metatags gesetzt, oder in der Hintergrundfarbe mitten in die Seiten), kann das Ranking auch nie wirklich zuverlässig sein. Da die Bearbeitung maschinell erfolgt und keine Schlagwörter von der Suchmaschine, sondern nur vom Autor des Textes, vergeben werden, können Suchanfragen in der Verzweiflung enden.
Aufgrund der Größe der Datenbanken werden einfache Suchanfragen mittels einer Trefferflut beantwortet, eigentlich relevante Seiten aber wegen eines falschen Suchbegriffes nicht ausgewiesen.


Version 4.0 beta (Update: 22.10.2005)	Verfasser: Sebastian Böll und Martin Lapp