Google Page-Rank was ist
das? Ranglisten über Links
|
Die Google-Entwickler Brin und Page setzten nicht auf Schlüsselwörter oder persönliches Ranking, sondern auf Links. Sie schufen Karten, die die Vernetzung über Hyperlinks wiedergaben. Denn von den Linkstrukturen versprachen sie sich mehr relevante Informationen. Auf diese Weise konnten sie ein Page-Ranking erzielen. Das Vorgehen ähnelt dem, wie man den Ruf eines Wissenschaftlers ermittelt: Je häufiger seine Artikel und Werke zitiert werden, umso angesehener wird er. Die Zitate sind auch ein Hinweis auf die Qualität dieser Werke. Auf das Web bezogen geben sie wieder, wie gut oder wie angesehen eine Website tatsächlich ist.
Das Page-Ranking von Google entspricht aber auch dem Surfverhalten: Ein Zufallssurfer, der bei einer Webseite anfängt und sich über Links weiterklickt, langweilt sich irgendwann und beginnt schließlich wieder mit einer neuen Zufallsseite. Die Wahrscheinlichkeit dafür, dass dieser Zufallssurfer eine Seite besucht, bestimmt ihren Rang.
Eine andere Methode des Page-Rankings von Google besteht darin
festzuellen, welche Seiten zu einer anderen Seite verweisen. Dabei bestimmt die Ranghöhe dieser Seiten wiederum die Ranghöhe der anderen Seiten. Wenn eine Seite nur einen einzigen Link von einer Site wie Yahoo erhält, wird sie dadurch im Ranking etwas höher gehoben. Über das Page-Ranking werden die Ranghöhen der Seiten immer wieder untereinander angeglichen.
Dieselbe Vorgehensweise gilt auch für die so genannten Ankertexte: Ankertexte sind die standardmäßig blau unterstrichenen Texte, mit denen ein Link auf eine andere Webseite verweist. Diese Ankertexte liefern oft eine exaktere Beschreibung der Webseite als die Webseite selbst. Zudem gibt es manche Links, die auf Dokumente verweisen, die nicht über eine textbasierte Suchmaschine indexiert werden können: Bilder, Programme und Datenbanken. Über Ankertexte können Webpages gefunden werden, die nicht durch Crawler erfaßt werden können. Bei der Erfassung von Ankertexten müssen jedoch wesentlich größere Datenmengen verarbeitet werden: Von 24 Millionen Seiten ihres Prototypen mussten Brin und Page über 259 Milllionen Ankertexte indexieren.
Google verfügt noch über weitere Features. Es merkt sich die Hits und generiert darüber Suchwahrscheinlichkeiten. Zudem gewichtet es auch visuelle Darstellungen: Wörter, die fett oder größer dargestellt sind, werden höher gewichtet als andere Wörter. |
Page-Rank - wie
funktioniert es ?
|
Die Grundidee ist folgende: Seite A setzt einen Hyperlink zu Seite B, das heißt, dass Seite A die Seite B als "gut" definiert. Dieser Hyperlink erhöht also die Wichtigkeit von Seite B.
Wer liefert den Hyperlink?
Die Erhöhung des Ranks der Seite B ist von der Wichtigkeit der Seite A abhängig. Kurz gesagt: es ist besser, wenn Google oder Yahoo einen Hyperlink zu Ihnen hat, als wenn eine beliebige, unwichtige Seite einen Link zu Ihrer Site setzt.
Die Erhöhung des Ranks für Seite B ist auch von der Anzahl der Hyperlinks auf Seite A abhängig. Also, je weniger Hyperlinks auf Seite A zu finden sind, desto besser für Seite B.
|
Die Page Rank Berechnung
|
Hier finden Sie die mathematische Formel zur
Berechnung des PageRank.
Diese Formel basiert auf einem Artikel, den die Google Gründer geschrieben hatten. Es ist anzunehmen, dass die Formel im Laufe der Zeit optimiert wurde, aber wir gehen davon aus, dass das Grundprinzip gleich geblieben ist.
A1, A2, ..., Diese Seiten die einen Hyperlink zu Seite B enthalten.
PR(Ak) ist der PageRank der Seite Ak.
N(Ak) ist der Anzahl der ausgehende Links von der Seite Ak.
d ist ein Koeffizient zwischen 0 und 1 (im Allgemeinen 0,85).
So könnte man das PageRank von B definieren, gemessen an dem PageRank von allen Ak Seiten:
PR(B) = (1-d)+d.(PR(A1)/N(A1)+...+PR(An)/N(An))
Diese Formel ist gleichzeitig einfach und kompliziert. Einfach, weil sie wenig Variablen enthält. Kompli-
ziert, weil man die PageRanks von allen Seiten die zur Seite B verweisen braucht, um den PageRank der Seite B zu berechnen.
Wo soll man also anfangen?
Man sollte einfach mit willkürlichen PageRank-Werten anfangen (z.B. 1). Die Wahl des Wertes hat keinen Einfluss auf das Endergebnis, wenn alle Seiten mit dem gleichen Wert starten.
Eine Benutzung der Formel erlaubt es, für jede Seite einen neuen PageRank zu berechnen, der Realitätsnäher ist als der Anfangswert.
Danach berechnen wir den PageRank von allen Seiten, indem wir wieder die Formel benutzen, aber diesmal mit den Werten, die wir vorhin berechnet hatten. Nach einigen Wiederholungen funktioniert das System: die Page Ranks ändern sich nicht mehr durch Neuberechnungen.
Dieser Stand wird normalerweise nach etwa 10 Berechnung erreicht (Abhängig von der Anzahl der Seiten). |
|