PageRank

PageRank is een algoritme gebruikt door Google Search naar websites in hun zoekmachine resultaten te rangschikken. PageRank is vernoemd naar Larry Page, [1] een van de oprichters van Google. PageRank is een manier van het meten van het belang van de website pagina’s. Volgens Google:

PageRank werken door het tellen van het aantal en de kwaliteit van de links naar een pagina met een ruwe schatting van hoe belangrijk de website is te bepalen. De onderliggende aanname is dat er meer belangrijke websites zijn waarschijnlijk meer links van andere websites te ontvangen. [2]

Het is niet het enige algoritme dat wordt gebruikt door Google om de resultaten van zoekmachines bestellen, maar het is de eerste algoritme dat werd gebruikt door het bedrijf, en het is de meest bekende. [3] [4]

Inhoud

  • 1 Beschrijving
  • Geschiedenis 2
  • 3 Algoritme
    • 3.1 Vereenvoudigde algoritme
    • 3.2 Dempingsfactor
    • 3.3 Computation
      • 3.3.1 Iteratieve
      • 3.3.2 Algebraïsch
      • 3.3.3 Vermogen Methode
  • 4 Variaties
    • 4.1 PageRank van een ongerichte graaf
    • 4.2 Distributed algoritme PageRank berekening
    • 4.3 Google Toolbar
    • 4.4 SERP rang
    • 4.5 Google directory PageRank
    • 4.6 valse of vervalste PageRank
    • 4.7 Manipuleren PageRank
    • 4.8 De opzettelijke surfer model
  • 5 Andere toepassingen
  • 6 nofollow
  • 7 deprecation
  • 8 Zie ook
  • 9 Opmerkingen
  • 10 Referenties
  • 11 relevante octrooien
  • 12 Externe links

Omschrijving

Cartoon illustratie van het basisprincipe van PageRank. De grootte van elk vlak is evenredig met de totale omvang van de overige vlakken die wijzen.

PageRank is een koppeling analyse-algoritme en het kent een numerieke gewicht aan elk element van een hyperlink set van documenten, zoals het World Wide Web, met het doel van “meten” het relatieve belang binnen de set. Het algoritme kan worden toegepast op een collectie van entiteiten met wederzijdse citaten en verwijzingen. De numerieke gewicht dat het toekent aan elk element E wordt aangeduid als de PageRank van E en aangeduid met PR (E). Andere factoren zoals auteur rangschikking kan bijdragen tot het belang van een entiteit.

Een PageRank resultaten van een mathematisch algoritme op basis van de webgraph, door alle internetpagina’s als knopen en hyperlinks zoals randen, rekening houdend instantie hubs zoals cnn.com of usa.gov. De rang waarde geeft een belang van een bepaalde pagina. Een hyperlink naar een pagina telt als een motie van steun. De PageRank van een pagina wordt gedefinieerd recursief en is afhankelijk van het aantal en de PageRank metric van alle pagina’s die verwijzen naar deze (“inkomende links”). Een pagina die is gekoppeld aan door veel pagina’s met een hoge PageRank krijgt een hoge rang zich.

Tal van academische papers met betrekking tot PageRank zijn gepubliceerd sinds Pagina en originele papieren Brin’s. [5] In de praktijk kan de PageRank-concept kwetsbaar voor manipulatie. Er is onderzoek gedaan naar het identificeren van ten onrechte beïnvloed PageRank rankings. Het doel is om een effectief middel van het negeren van links van documenten met een vals beïnvloed PageRank vinden. [6]

Andere-verbinding op basis van ranking algoritmen voor webpagina’s zijn de HITS algoritme uitgevonden door Jon Kleinberg (gebruikt door Teoma en nu Ask.com), [nodig citaat] de IBM CLEVER project, de TrustRank algoritme en de kolibrie algoritme.

Geschiedenis

Het idee van het formuleren van een link analyse probleem als eigenwaarde probleem in 1976 werd voorgesteld door Gabriel Pinski en Francis Narin, die op werkte scientometrie ranking wetenschappelijke tijdschriften [7] en in 1977 door Thomas Saaty in zijn concept van Analytic Hierarchy Process welke alternatieve keuzes gewogen . [8]

PageRank werd ontwikkeld aan de Universiteit van Stanford door Larry Page en Sergey Brin in 1996 [9], als onderdeel van een onderzoeksproject over een nieuw soort zoekmachine. [10] Sergey Brin hadden het idee dat informatie op het web in een hiërarchie kan worden besteld door “linkpopulariteit”: een pagina is gerangschikt hoger naarmate er meer links naar het. [11] Het werd mede-auteur van Rajeev Motwani en Terry Winograd. De eerste paper over het project, een beschrijving van PageRank en het eerste prototype van de Google search engine, werd gepubliceerd in 1998: [5] kort na Page en Brin opgericht Google Inc., het bedrijf achter de zoekmachine van Google. Terwijl slechts een van de vele factoren die de ranking van de zoekresultaten van Google te bepalen, PageRank nog steeds de basis voor alle Google’s web zoekfuncties. [12]

De naam “PageRank” speelt off van de naam van de ontwikkelaar Larry Page, evenals het concept van een webpagina. [13] Het woord is een handelsmerk van Google, en de PageRank proces is gepatenteerd (US Patent 6.285.999). Echter, is het octrooi toegekend aan de Stanford University en niet aan Google. Google heeft de exclusieve licentierechten op het octrooi van de Stanford University. De universiteit ontving 1,8 miljoen aandelen van Google in ruil voor het gebruik van het octrooi; de aandelen werden in 2005 verkocht voor $ 336 miljoen euro. [14] [15]

PageRank werd beïnvloed door de citatie-analyse, vroeg ontwikkeld door Eugene Garfield in de jaren 1950 aan de Universiteit van Pennsylvania, en Hyper Search, ontwikkeld door Massimo Marchiori aan de Universiteit van Padua. In hetzelfde jaar PageRank werd geïntroduceerd (1998), Jon Kleinberg publiceerde zijn belangrijke werk op HITS. Google oprichters citeren Garfield, Marchiori en Kleinberg in hun oorspronkelijke papieren. [5] [16]

Een kleine zoekmachine genaamd “RankDex” van IDD Information Services ontworpen door Robin Li was sinds 1996 al een soortgelijke strategie voor website-scoring en page ranking te verkennen. [17] De technologie in RankDex zou worden geoctrooieerd door 1999 [18] en later gebruikt wanneer Li opgericht Baidu in China. [19] [20] Li’s werk zou worden verwezen door een aantal van Larry Page’s octrooien in de VS voor zijn Google zoekmethoden. [21]

Algoritme

Het PageRank-algoritme voert een kansverdeling gebruikt om de kans dat een willekeurig persoon te klikken op links zullen aankomen op een bepaalde pagina te vertegenwoordigen. PageRank kan worden berekend voor verzamelingen van documenten van elke omvang. Aangenomen wordt in verscheidene wetenschappelijke publicaties die de verdeling gelijkmatig verdeeld over alle documenten in de collectie van het begin van het rekenproces. De PageRank berekeningen vereisen verschillende passes, genaamd “herhalingen”, door middel van de collectie benadering PageRank waarden aanpassen om beter weerspiegelen de theoretische werkelijke waarde.

Een kans is uitgedrukt als een numerieke waarde tussen 0 en 1. Een 0,5 waarschijnlijkheid wordt gewoonlijk uitgedrukt als “50% kans” iets gebeurt. Vandaar dat een PageRank van 0,5 betekent dat er 50% kans dat een persoon te klikken op een willekeurige link wordt doorverwezen naar het document met de 0,5 PageRank.

Vereenvoudigde algoritme

Ga uit van een klein universum van vier pagina’s: A, B, C en D. Links vanuit een pagina naar zichzelf, of meerdere uitgaande links vanaf één pagina naar een andere één pagina, worden genegeerd. PageRank is geïnitialiseerd op dezelfde waarde voor alle pagina’s. In de oorspronkelijke vorm van PageRank, de som van de PageRank over alle pagina’s was het totaal aantal pagina’s op het web op dat moment, dus elke pagina in dit voorbeeld zou een initiële waarde van 1. Echter hebben, latere versies van de PageRank en de vervolg van deze paragraaf, wordt uitgegaan van een kansverdeling tussen 0 en 1. Vandaar de initiële waarde voor elke pagina is 0,25.

De overgedragen van een bepaalde pagina om de doelstellingen van de uitgaande links op de volgende iteratie PageRank wordt gelijk verdeeld over alle uitgaande links.

Als de enige schakels in het systeem was op pagina’s B, C en D naar A zou elke schakel 0,25 PageRank overbrengen naar A op de volgende iteratie, in totaal 0,75.

PR (A) = PR (B) + PR (C) + PR (D).  ,

Veronderstel plaats die pagina B had een link naar pagina C en A, pagina C had een link naar pagina A en pagina D hadden links naar alle drie pagina’s. Zo blijven bij de eerste iteratie, pagina B zou de helft van de bestaande waarde, of 0,125 dragen, pagina A en de andere helft, of 0,125 tot bladzijde C. Pagina C zou al haar bestaande waarde, 0,25 overdragen, de enige pagina verbindt om, A. Sinds D had drie uitgaande links, het zou een derde van de bestaande waarde, of ongeveer 0,083, transfer naar A. Bij de voltooiing van deze iteratie, zal pagina A een PageRank van 0,458 hebben.

PR (A) =  frac {PR (B)} {2} +  frac {PR (C)} {1} +  frac {PR (D)} {3}.  ,

Met andere woorden, de PageRank van een uitgaande link verleend is gelijk aan het document eigen PageRank score gedeeld door het aantal uitgaande links L ().

PR (A) =  frac {PR (B)} {L (B)} +  frac {PR (C)} {L (C)} +  frac {PR (D)} {L (D)}.  ,

In het algemene geval kan de PageRank waarde voor alle pagina’s u worden uitgedrukt als:

PR (u) =  sum_ {v  in B_u}  frac {PR (v)} {L (v)} ,

dat wil zeggen de PageRank waarde voor een pagina u is afhankelijk van de PageRank-waarden voor elke pagina v in de set B u (de set met alle pagina’s die linken naar pagina u), gedeeld door het aantal L (v) van links op pagina v.

Dempingsfactor

De PageRank theorie stelt dat een denkbeeldige surfer die willekeurig te klikken op koppelingen uiteindelijk zal stoppen te klikken. De kans op elk stap dat de persoon blijft een dempingsfactor d. Verschillende studies hebben verschillende demping factoren getest, maar algemeen wordt aangenomen dat de dempingsfactor ongeveer 0,85 ingesteld. [5]

De dempingsfactor wordt afgetrokken van 1 (en in sommige variaties van het algoritme, is het resultaat gedeeld door het aantal stukken (N) in de collectie) en deze term wordt vervolgens toegevoegd aan het product van de dempingsfactor en de som van de inkomende PageRank scores. Dat is,

PR (A) = {1 - d  dan N} + d  koppelingen ( frac {PR (B)} {L (B)} +  frac {PR (C)} {L (C)} +  frac {PR (D)} {L (D)} + ,   cdots Rechts).

Dus elke pagina’s PageRank is afgeleid voor een groot deel van de PageRanks van andere pagina’s. De dempingsfactor past de afgeleide waarde beneden. De originele document echter gaf de volgende formule, die heeft geleid tot verwarring:

PR (A) = 1 - d + d  koppelingen ( frac {PR (B)} {L (B)} +  frac {PR (C)} {L (C)} +  frac {PR (D) } {L (D)} + ,   cdots rechts).

Het verschil tussen hen is dat de PageRank waarden in de eerste formule een bedrag, terwijl in de tweede formule elke PageRank wordt vermenigvuldigd met N en de som wordt N. Een verklaring Page en Brin krant dat “de som van alle PageRanks is een” [5] en de vorderingen van andere Google-medewerkers [22] ondersteunen de eerste variant van de bovenstaande formule.

Pagina en Brin verward de twee formules in hun meest populaire paper “De anatomie van een grootschalig hypertekstuele Web Search Engine ‘, waar ze ten onrechte beweerd dat de laatste formule vormde een kansverdeling op webpagina’s. [5]

Google berekent PageRank scores elke keer kruipt het web en herbouwt de index. Google verhoogt het aantal documenten in de collectie, de eerste aanpassing van de PageRank daalt voor alle documenten.

De formule maakt gebruik van een model van een willekeurige surfer die verveelt na een aantal clicks en schakelt over naar een willekeurige pagina. De PageRank waarde van een pagina geeft de kans dat de random surfer zal landen op die pagina door te klikken op een link. Het kan worden opgevat als een Markov keten waarin de staten zijn pagina’s, en de overgangen, die allemaal even waarschijnlijk, zijn de banden tussen de pagina’s.

Als een pagina heeft geen links naar andere pagina’s, wordt het een wastafel en dus eindigt de willekeurige surfen proces. Als de random surfer komt op een wastafel pagina, pikt een andere URL willekeurig en gaat weer surfen.

Bij de berekening van PageRank, worden pagina’s met geen uitgaande links verondersteld te koppelen aan alle andere pagina’s in de collectie. Hun PageRank scores worden dan gelijkmatig verdeeld over alle andere pagina’s. Met andere woorden, om eerlijk met pagina’s die niet zijn gootstenen, deze willekeurige overgangen worden toegevoegd aan alle knooppunten in het web, met een resterende kans meestal ingesteld op d = 0,85, geschat op basis van de frequentie zijn dat een gemiddelde surfer gebruikt zijn of haar browser bladwijzer functie.

Dus de vergelijking is als volgt:

PR (p_i) =  frac {1-d} {} N + d  sum_ {p_j  in M (p_i)}  frac {PR (p_j)} {L (p_j)}

waarin p_1, p_2, ..., p_n zijn de pagina in kwestie, M (p_i) is de verzameling van pagina’s die verwijzen naar p_i , L (p_j) is het aantal uitgaande links op de pagina p_j En N het totaal aantal pagina’s.

De PageRank waarden zijn de inzendingen van de dominante linker eigenvector van de gewijzigde adjacentiematrix. Dit maakt PageRank een bijzonder elegante metric: de eigenvector is

 Mathbf {R} =  begin {bmatrix} PR (p_1)  PR (p_2)   vdots  PR (p_n)  end {bmatrix}

waarin R de oplossing van de vergelijking

 Mathbf {R} =  begin {bmatrix} {(1-d) / N}  {(1-d) / N}   vdots  {(1-d) / N}  end {bmatrix + d}  begin {bmatrix}  ell (p_1, p_1) &  ell (p_1, p_2) &  cdots &  ell (p_1, p_n)   ell (p_2, p_1) &  ddots & &  vdots   vdots & &  ell (p_i, p_j) &   ell (p_n, p_1) &  cdots & &  ell (p_n, p_n)  end {bmatrix}  mathbf {R}

waar de nabijheid functie  Ell (p_i, p_j) is 0 als pagina p_j niet verwijzen naar p_i En genormaliseerd zodat voor elke j

 Sum_ {i = 1} ^ N  ell (p_i, p_j) = 1 ,

dat wil zeggen de elementen van iedere kolom Samenvattend tot 1, zodat de matrix is een stochastische matrix (voor meer details zie de berekening hieronder). Dit is dus een variant van de eigenvector centrale maatregel vaak gebruikt in netwerkanalyse.

Vanwege de grote eigengap van de gemodificeerde adjacentiematrix hierboven, [23] de waarden van de PageRank eigenvector kan worden benaderd binnen een hoge nauwkeurigheid binnen enkele iteraties.

Door Markov theorie, kan worden aangetoond dat de PageRank van een pagina is de waarschijnlijkheid van aankomst op die pagina na een groot aantal klikken. Dit gebeurt op gelijke t ^ {- 1} waarin t is de verwachting van het aantal klikken (of willekeurige sprongen) nodig om terug naar zichzelf te krijgen van de pagina.

Een van de belangrijkste nadeel van PageRank is dat het bevordert de oudere pagina’s. Een nieuwe pagina, zelfs een zeer goed, zal niet veel links, tenzij het deel uitmaakt van een bestaande site (een site die een dichtbevolkt aangesloten set van pagina’s, zoals Wikipedia).

Verschillende strategieën zijn voorgesteld om de berekening van PageRank versnellen. [24]

Verschillende strategieën om PageRank te manipuleren zijn gebruikt in de gezamenlijke inspanningen om de zoekresultaten rankings te verbeteren en geld te verdienen met reclame links. Deze strategieën hebben sterk beïnvloed de betrouwbaarheid van de PageRank-concept, [nodig citaat], die beweert te bepalen welke documenten eigenlijk zeer worden gewaardeerd door de web community.

Sinds december 2007, toen het begon actief te bestraffen websites verkopen betaalde tekstlinks, heeft Google bestreden link boerderijen en andere regelingen ontworpen om kunstmatig PageRank. Hoe Google identificeert link boerderijen en andere PageRank manipulatie gereedschappen is onder Google’s bedrijfsgeheimen.

Berekening

PageRank kan ofwel iteratief of algebraïsch worden berekend. De iteratieve werkwijze kan worden gezien als het vermogen iteratie methode [25] [26] of de stroom methode. De fundamentele wiskundige bewerkingen uitgevoerd zijn identiek.

Iteratieve

Een T t = 0 Een initiële kansverdeling wordt aangenomen, gewoonlijk

PR (p_i; 0) =  frac {1} {N} .

Bij elke tijdstap, de berekening, zoals hierboven beschreven, levert

PR (p_i; t + 1) =  frac {1-d} {} N + d  sum_ {p_j  in M (p_i)}  frac {PR (p_j; t)} {L (p_j)} ,

of matrixnotatie

 Mathbf {R} (t + 1) = d  mathcal {M}  mathbf {R} (t) +  frac {1-d} {N}  mathbf {1} (*)

waarin  Mathbf {R} _i (t) = PR (p_i; t) en  Mathbf {1} is de kolomvector lengte N met enigen.

De matrix  Mathcal {M} wordt gedefinieerd als

 Mathcal {M} _ {ij} =  begin {cases} 1 / L (p_j), nl  mbox {if} j  mbox {verbindingen} i   0 &  mbox {anderszins}  end {cases}

dwz

 Mathcal {M}: = (K ^ {- 1} A) ^ T ,

waarin EEN geeft de adjacentiematrix van de grafiek en K is de diagonale matrix met outdegrees in de diagonaal.

De berekening eindigt wanneer voor een aantal kleine  Epsilon

|  Mathbf {R} (t + 1) -  mathbf {R} (t) | < epsilon ,

dwz wanneer convergentie verondersteld.

Algebraïsche

Voor t  aan  infty (dat wil zeggen, in de steady state), de bovenstaande vergelijking (*) leest

 Mathbf {R} = d  mathcal {M}  mathbf {R} +  frac {1-d} {N}  mathbf {1} . (**)

De oplossing wordt gegeven door

 Mathbf {R} = ( mathbf {I} -d  mathcal {M}) ^ {- 1}  frac {1-d} {N}  mathbf {1} ,

de eenheidsmatrix  Mathbf {I} .

De oplossing bestaat en is uniek voor 0 <d <1 . Dit kan worden gezien door op te merken dat  Mathcal {M} is door constructie een stochastische matrix en dus heeft een eigenwaarde gelijk aan een ten gevolge van het Perron-Frobenius stelling.

Vermogen Methode

Als de matrix  Mathcal {M} een overgangswaarschijnlijkheid, dwz kolom stochastische zonder kolommen bestaande uit alleen nullen en  Mathbf {R} is een kansverdeling (dat wil zeggen, |  Mathbf {R} | = 1 ,  Mathbf {e}  mathbf {R} =  mathbf {1} waarin  Mathbf {E} is matrix van allemaal enen), Eq. (**) Is gelijk aan

 Mathbf {R} =  left (d  mathcal {M} +  frac {1-d} {N}  mathbf {e}  right)  mathbf {R} =:  widehat { mathcal {M}}  mathbf {R} . (***)

Vandaar PageRank  Mathbf {R} is de belangrijkste eigenvector van  Widehat { mathcal {M}} . Een snelle en gemakkelijke manier om dit te berekenen is met behulp van de kracht methode: te beginnen met een willekeurige vector x (0) De operator  Widehat { mathcal {M}} wordt toegepast achtereenvolgens, dwz

x (t + 1) =  widehat { mathcal {M}} x (t) ,

totdat

| X (t + 1) - x (t) | < epsilon .

Merk op dat in Vgl. (***) De matrix aan de rechterzijde in de haakjes kunnen worden geïnterpreteerd als

 Frac {1-d} {N}  mathbf {E} = (1-d)  mathbf {P}  mathbf {1} ^ t ,

waarin  Mathbf {P} een initiële kansverdeling. In het onderhavige geval

 Mathbf {P}: =  frac {1} {N}  mathbf {1} .

Ten slotte, als  Mathcal {M} heeft kolommen met slechts nul waarden, moeten ze worden vervangen met de eerste kans vector  Mathbf {P} . Met andere woorden,

 Mathcal {M} ^  prime: =  mathcal {M} +  mathcal {D} ,

waarbij de matrix  Mathcal {D} wordt gedefinieerd als

 Mathcal {D}: =  mathbf {P}  mathbf {} D ^ t ,

met

 Mathbf {D} _i =  begin {cases} 1 &  mbox {if} L (p_i) = 0   0 &  mbox {anderszins}  end {cases}

In dit geval, de bovengenoemde twee berekeningen gebruik  Mathcal {M} alleen geven dezelfde PageRank als hun resultaten zijn genormaliseerd:

 Mathbf {R} _ { textrm {Vermogen}} =  frac { mathbf {R} _ { textrm {iteratieve}}} {|  mathbf {R} _ { textrm {iteratieve}} |} =  frac { mathbf {R} _ { textrm algebraïsche {}}} {|  mathbf {R} _ { textrm algebraïsche {}} |} .

PageRank MATLAB / Octave implementatie

 % Parameter M adjacentiematrix waarbij m_i, j is de link van 'j' naar 'i', zoals dat voor alle 'j'
 % Som (i, m_i, j) = 1
 Parameter% d dempingsfactor
 Parameter% v_quadratic_error kwadratische fout voor v
 % Rendement v, een vector van gelederen zodanig dat v_i is de i-de rang van [0, 1]

 functie    [v] =    rank2 (M, d, v_quadratic_error)

 N = maat (M, 2),% N gelijk is aan de helft van M
 v = rand (N, 1);
 v = v ./ norm (v, 1);% Dit is nu L1, L2 niet
 last_v = degenen (N, 1) * inf;
 M_hat = (. D * M) + (((1 - d) / N) * die (N, N).);

 while (norm (v - last_v, 2)> v_quadratic_error)
	 last_v = v;
	 v = M_hat * v;
         % Verwijderd van de L2-norm van de herhaalde PR
 einde

 endfunction

Voorbeeld van code aanroepen van de functie rang hierboven gedefinieerd:

 M = [0 0 0 0 1; 0,5 0 0 0 0; 0,5 0 0 0 0, 0 1 0,5 0 0, 0 0 0 0,5 1];
 rang (M, 0,80, 0,001)

Dit voorbeeld neemt 13 iteraties te convergeren.

Variaties

PageRank van een ongerichte graaf

De PageRank van een ongerichte grafiek G statistisch vlakbij de mate verdeling van de grafiek G, [27] maar ze over het algemeen niet identiek: Indien R de hierboven gedefinieerde vector PageRank en D is de mate verdeling vector

D = {1  meer dan 2 | E |}  begin {bmatrix} deg (p_1)  deg (p_2)   vdots  deg (p_n)  end {bmatrix}

waarin deg (p_i) geeft de mate van vertex p_i En E is de rand-set van de grafiek, daarna met Y = {1  boven Een periode N}  mathbf {1} Door: [28]

{1-d  over1 + d}  | YD  | _1  leq  | RD  | _1  leq  | YD  | _1,

dat wil zeggen de PageRank van een ongerichte graaf gelijk is aan de mate verdeling vector als en slechts als de grafiek regelmatig, dat wil zeggen, elk hoekpunt dezelfde mate.

Gedistribueerde algoritme PageRank berekening

Er zijn eenvoudige en snelle random-walk gebaseerde gedistribueerde algoritmen voor het berekenen van de PageRank van de knooppunten in een netwerk. [29] Zij presenteren een eenvoudig algoritme dat neemt O ( log n /  epsilon) ronden met grote kans op een grafiek (gericht of ongericht), waarbij n het netwerkomvang en  Epsilon is de reset waarschijnlijkheid ( 1-  epsilon wordt ook wel als dempingsfactor) van de PageRank berekening. Ze bieden ook een snellere algoritme dat neemt O ( sqrt { log n} /  epsilon) rondes in ongerichte grafieken. Beide bovenstaande algoritmen zijn schaalbaar, omdat elk knooppunt processen en verzendt slechts kleine (polylogarithmic in n de netwerkgrootte) aantal bits per ronde. Voor gerichte grafieken, presenteren ze een algoritme dat een looptijd heeft van O ( sqrt { log n /  epsilon}) , Maar het vereist een polynoom aantal bits dat verwerkt en verzonden per knooppunt in een ronde.

Google Toolbar

De Google Toolbar ’s PageRank functie geeft een bezochte pagina’s PageRank als een geheel getal tussen 0 en 10. De meest populaire websites hebben een PageRank van 10. De minst een PageRank van 0. Google heeft niet de specifieke methode beschreven voor het bepalen van een werkbalk PageRank waarde, die moet worden beschouwd slechts een ruwe indicatie van de waarde van een website.

PageRank maatregelen het aantal sites die verwijzen naar een bepaalde pagina. [30] De PageRank van een bepaalde pagina is ruwweg gebaseerd op de hoeveelheid inkomende links en de PageRank van de pagina’s die de banden. Het algoritme ook andere factoren, zoals de grootte van een bladzijde, het aantal wijzigingen, de tijd sinds de pagina is bijgewerkt, de tekst in koppen en de tekst in hyperlinks texten. [11]

De Google Toolbar PageRank is zelden bijgewerkt, dus de waarden die zij toont zijn vaak verouderd.

SERP rang

De zoekmachine resultaten pagina (SERP) is de werkelijke geretourneerd door een zoekmachine in reactie op een zoekwoord resultaat. De SERP bestaat uit een lijst met links naar webpagina’s met bijbehorende tekst snippets. Het SERP rang van een webpagina verwijst naar de plaatsing van de overeenkomstige verbinding op de SERP, waar hogere positie betekent hogere SERP rang. De SERP rang van een website is niet alleen een functie van de PageRank, maar van een relatief grote en voortdurend aangepast reeks factoren (meer dan 200) ,. [31] Zoekmachine optimalisatie (SEO) is gericht op het beïnvloeden van de SERP rang voor een website of een set van webpagina’s.

Positionering van een webpagina op Google SERPs voor een zoekwoord is afhankelijk van de relevantie en reputatie, ook wel bekend als autoriteit en populariteit. PageRank is Google’s indicatie van de beoordeling van de reputatie van een webpagina: Het is non-specifieke zoekwoorden. Google maakt gebruik van een combinatie van een webpagina en de website bevoegdheid om het algemene gezag van een webpagina concurreren voor een zoekwoord te bepalen. [32] De PageRank van de homepage van een website is de beste indicatie Google biedt voor website gezag. [33]

Na de introductie van de Google Places in de mainstream organische SERP, tal van andere factoren naast PageRank invloed ranking een bedrijf in Local Business Results. [34]

Google map PageRank

De Google Directory PageRank was een meting 8-eenheid. In tegenstelling tot de Google Toolbar, die een numerieke PageRank waarde op mouseover van de groene balk toont, de Google Directory alleen getoond aan de bar, nooit de numerieke waarden. Google Directory werd afgesloten op 20 juli 2011. [35]

Valse of vervalste PageRank

In het verleden, werd de in de werkbalk PageRank gemakkelijk te manipuleren. Redirection van de ene pagina naar de andere, hetzij via een HTTP 302 antwoord of een “Refresh” meta tag, de oorzaak van de bron pagina om de PageRank van de pagina bestemming te verwerven. Vandaar, zou een nieuwe pagina met PR 0 en geen inkomende links PR 10 hebben verworven omgeleid naar de startpagina van Google. Dit spoofing techniek was een bekende kwetsbaarheid. Spoofing algemeen kan worden gedetecteerd door het uitvoeren van een Google-zoekopdracht voor een bron URL; Als de URL van een geheel andere plaats wordt getoond in de resultaten, kan deze URL de bestemming van een omleiding vertegenwoordigen.

Manipuleren PageRank

Voor zoekmachine optimalisatie doeleinden, sommige bedrijven bieden een hoge PageRank links naar webmasters verkopen. [36] Zoals links van hogere PR’s worden verondersteld meer waardevol te zijn, ze hebben de neiging om duurder te zijn. Het kan een effectieve en haalbare marketing strategie om koppeling advertenties te kopen op de inhoud pagina’s van de kwaliteit en relevante sites om verkeer en het vergroten van een webmaster link populariteit zijn. Toch heeft Google publiekelijk gewaarschuwd webmasters dat als ze zijn of werden ontdekt aan de verkoop van links voor het doel van het verlenen van PageRank en reputatie, zullen hun banden worden gedevalueerd (genegeerd in de berekening van PageRanks andere pagina’s ‘). De praktijk van het kopen en verkopen van banden wordt intensief gedebatteerd over de Webmaster gemeenschap. Google raadt webmasters om het te gebruiken nofollow HTML-attribuut waarde op gesponsorde links. Volgens Matt Cutts, Google is bezorgd over de webmasters die proberen om spel het systeem, en daardoor vermindering van de kwaliteit en relevantie van de zoekresultaten van Google. [36]

De opzettelijke surfer model

De originele PageRank-algoritme geeft de zogenaamde willekeurige surfer model, zodat de PageRank van een bepaalde pagina is afgeleid van de theoretische kans bezoekt die pagina wanneer de pagina verbindingen in willekeurige volgorde. Een page ranking model dat het belang van een bepaalde pagina als een functie van het aantal daadwerkelijke bezoeken die zij ontvangt door echte gebruikers wordt de opzettelijke surfer model weerspiegelt. [37]

Andere toepassingen

De wiskunde van PageRank zijn volledig algemeen en van toepassing op elke grafiek of het netwerk in een domein. Zo wordt PageRank nu regelmatig gebruikt in bibliometrie, sociale en informatie-netwerk analyse, en voor link voorspellen en aanbeveling. Het wordt zelfs gebruikt voor de systemen analyse van wegennet, evenals biologie, chemie, neurowetenschappen, en natuurkunde. [38]

Gepersonaliseerde PageRank wordt gebruikt door Twitter gebruikers met andere accounts kunnen zij willen volgen presenteren. [39]

Swiftype ’s zoeken op de site product bouwt een “PageRank die specifiek zijn voor individuele websites” door te kijken naar signalen van belang zijn en prioriteren van inhoud op basis van factoren zoals het aantal links vanaf de homepage van elke website. [40]

Een versie van PageRank is recent voorgesteld als vervanging van de traditionele Institute for Scientific Information (ISI) impactfactor, [41] en uitgevoerd Eigenfactor als op SCImago. In plaats van alleen de totale citatie tellen om een dagboek bij, wordt het “belang” van elk citaat bepaald in een PageRank mode.

Een soortgelijk nieuw gebruik van PageRank is om academische doctoraatsprogramma’s op basis van hun verslagen van het plaatsen van hun afgestudeerden in de faculteit posities rang. In PageRank termen, academische afdelingen aan elkaar te koppelen door het inhuren van hun faculteit van elkaar (en van zichzelf). [42]

PageRank is gebruikt om ruimtes of straten rang te voorspellen hoeveel mensen (voetgangers of voertuigen) komen aan de individuele ruimtes of straten. [43] [44] In lexicale semantiek is gebruikt om uit te voeren Word Sense Disambiguation, [45] Semantic gelijkenis, [46] en ook om automatisch rangschikken WordNet synsets afhankelijk van hoe sterk ze een bepaalde semantische eigendom, zoals positiviteit en negativiteit te bezitten. [47]

Een Web-crawler kan PageRank te gebruiken als een van een aantal van belang metrics het gebruikt om te bepalen welke URL te bezoeken tijdens een crawl van het web. Een van de eerste werkdocumenten [48] die werden gebruikt in de creatie van Google is Efficiënt kruipen door URL bestellen, [49] die het gebruik van een aantal verschillende belang metrics bespreekt om te bepalen hoe diep, en hoeveel van de website Google zal kruipen. PageRank wordt gepresenteerd als een van een aantal van deze statistieken van belang, maar er zijn anderen zoals vermeld als het aantal inkomende en uitgaande links voor een URL, en de afstand van de root directory op een site om de URL.

De PageRank kan ook worden gebruikt als een methode om de schijnbare gevolgen van een gemeenschap, zoals het meten van Blogosphere op de totale web zelf. Deze aanpak maakt gebruik van dan de PageRank om de verdeling van de aandacht in de reflectie van de meet-Scale gratis netwerk paradigma.

In elk ecosysteem kan een gemodificeerde versie van PageRank worden gebruikt om soorten die essentieel zijn voor de aanhoudende gezondheid van het milieu te bepalen. [50]

Voor de analyse van eiwit-netwerken in de biologie PageRank is ook nuttig. [51] [52]

In 2005, in een pilot-studie in Pakistan, Structurele Deep Democracy, SD2 [53] [54] werd gebruikt voor het leiderschap selectie in een duurzame landbouw groep genaamd Contact Jeugd. SD2 gebruikt PageRank voor de verwerking van de transitieve volmacht stemmen, met de extra beperkingen van verplicht ten minste twee initiële volmachten per kiezer, en alle kiezers zijn proxy kandidaten. Complexere varianten kunnen worden gebouwd op de top van de SD2, zoals het toevoegen van specialistische proxies en directe stemmen voor specifieke kwesties, maar SD2 als onderliggende overkoepelende systeem, mandaten dat generalist volmachten altijd moet worden gebruikt.

Pagerank is onlangs gebruikt om het effect van wetenschappelijke onderzoekers kwantificeren. De onderliggende citeren en samenwerkingsverbanden worden gebruikt in combinatie met de PageRank-algoritme om te komen met een ranking systeem voor de individuele publicaties die zich voortplant individuele auteurs. De nieuwe index zogenaamde pagerank-index (Pi) wordt aangetoond eerlijker vergelijking h-index in de context van vele nadelen vertoond door h-index. [55]

nofollow

In het begin van 2005, Google geïmplementeerd een nieuwe waarde, “nofollow”, [56] voor de rel attribuut van HTML-link en anker elementen, zodat de website ontwikkelaars en bloggers links die Google niet zal overwegen in het kader van PageRank-ze kunnen maken links die een “stem” in de PageRank-systeem niet meer vormen. De nofollow relatie werd toegevoegd in een poging om te helpen bestrijden spamdexing.

Als een voorbeeld, konden de mensen veel eerder bericht boord berichten met links te maken naar hun website om kunstmatig hun PageRank.Met de nofollow waarde, kan message-board administrators hun code automatisch invoegen “rel =” nofollow “” om alle hyperlinks in berichten, waardoor het voorkomen van PageRank wordt beïnvloed door die bepaalde berichten wijzigen. Deze methode van vermijding heeft echter diverse nadelen, zoals het verminderen van de koppelingswaarde legitieme reacties. (Zie: Spam in blogs # nofollow)

In een poging om handmatig de controle van de stroom van PageRank tussen pagina’s binnen een website, veel webmasters praktijk wat bekend staat als PageRank Sculpting [57] -die is de handeling van het strategisch plaatsen van de nofollow attribuut op bepaalde interne links van een website om trechter PageRank naar die pagina’s de webmaster geacht belangrijkste. Deze tactiek is gebruikt sinds het begin van de nofollow attribuut, maar kan niet langer effectief zijn, aangezien Google heeft aangekondigd dat het blokkeren van PageRank-overdracht met nofollow niet omleiden dat PageRank naar andere schakels. [58]

Afschrijvingen

PageRank was ooit beschikbaar voor de geverifieerde site beheerders via de Google Webmaster Tools-interface. Echter, op 15 oktober 2009, een medewerker van Google heeft bevestigd dat het bedrijf PageRank had verwijderd uit de Webmaster Tools sectie, te zeggen dat “We hebben al vertellen mensen voor een lange tijd dat ze niet moeten richten op PageRank zo veel. Veel site- eigenaren lijken te denken dat het de belangrijkste metriek voor hen op te sporen, dat is gewoon niet waar. “[59] Daarnaast is de PageRank indicator is niet beschikbaar in de eigen Google’s Chrome-browser.

De zichtbare page rank is zeer zelden bijgewerkt. Het werd het laatst bijgewerkt in november 2013. In oktober 2014 Matt Cutts aangekondigd dat een andere zichtbare pagerank-update niet zou komen. [60]

PageRank is nu een van 200 ranking factoren die Google gebruikt om een pagina’s populariteit te bepalen. Google Panda is een van de andere strategieën Google vertrouwt nu op de populariteit van pagina’s te rangschikken. Hoewel PageRank is niet meer direct van belang zijn voor SEO doeleinden, het bestaan van back-links van de meer populaire websites blijft een webpagina hoger duwen op zoek rankings. [61]