Handleiding: Hoe werkt zoekmachine Google?

google logo vergrootglas 3DGoogle lijkt alles te doen, zoals ook de nieuwe strategie Search, Ads & Apps aangeeft, van het maken van foto’s vanuit de ruimte tot en met het gratis beschikbaar stellen van office software, maar de kern van Google is en blijft de zoekmachine.

Maar hoe werkt de zoekmachine van Google eigenlijk? Google is vandaag de dag meer dan ooit transparant over de werking van haar meest gebruikte zoekmachine van het meest begeerde bedrijf van dit moment.

Hoe werkt een zoekmachine?

Om te begrijpen hoe Google werkt, is het van belang om te weten hoe zoekmachines in het algemeen werken. Een uitgebreide uitleg vind je in mijn handleiding Hoe werkt een zoekmachine?

Achtergrond Google: wit met blauwe links

Marktaandelen zoekmachines Nederland februari 2007De zoekresultaten pagina’s, de blauwe links op een rustige, witte achtergrond, hebben Google gemaakt tot de meest bezochte website wereldwijd en het één van de meest winstgevende bedrijven ter wereld van dit moment. Google is het startpunt van het internet voor een tientallen miljoenen gebruikers.

In Nederland voert Google ook de ranglijsten aan. Google is met ruim 90% veruit de meest gebruikte zoekmachine in Nederland, wat Google tevens tot meest bezochte website in Nederland maakt.

Google is niet perfect

Vele miljoenen gebruikers zoeken dagelijks in Google. Zo werden er alleen al bij Google.nl in Nederland ongeveer 1,5 miljard (!) zoekopdrachten gedaan in oktober 2010.

Vaak biedt Google het antwoord op hun zoekvraag, maar zeker niet altijd. Dagelijks verlaten ook miljoenen bezoekers Google, omdat ze niet vinden wat ze zoeken.

Daarom werken er continu honderden Google engineers aan het verbeteren van de zoekmachine om het gat tussen ‘vaak’ en ‘altijd’ te dichten.

Google’s bestaansrecht, het ‘ranking algoritme’

google algoritmeDeze Google engineers vormen het ‘Search Quality team’, onder leiding van Amit Singhal, wat verantwoordelijk is voor het ‘ranking algoritme’: een complexe formule die bepaalt welke web pagina’s het beste aansluiten op de zoekvraag van de gebruiker, kortom hoe de zoekresultaten worden gerangschikt.

Dit algoritme van Google wordt behandeld als een staatsgeheim, vergelijkbaar met het recept van Coca Cola. Dat is begrijpelijk als je bedenkt dat de toegevoegde waarde van Google juist in dit ranking algoritme zit.

Google ontleent haar bestaansrecht aan het teruggeven van de meeste relevante antwoorden op de zoekvraag van de gebuiker. En alleen al om de bijbehorende advertentie inkomsten vanuit de zoekmachine (ongeveer 99%), blijft Google het ranking algoritme geheim houden en verder ontwikkelen.

Google technologie loopt voorop

Udi Manber heeft in 2006 de search afdeling van Amazon ingeruild voor die van Google. Toen hij bij Google binnenkwam, verbaasde hij zich over de technologie van Google die ver vooruit liep op die van universiteiten en de rivalen van Google.

“De eerste maanden heb ik diverse ideeën voorgesteld die allen werden beantwoord met ‘dat zit er al in’ of ‘dat werkt niet’…”, aldus Udi Manber.

Hoe vaak wijzigt Google het ranking algoritme?

Enkele jaren geleden was een wijziging aan het ranking algoritme van Google duidelijk merkbaar, wat bekend stond als de ‘Google Dance’. Tegenwoordig vinden er wekelijks enkele grote en minder grote wijzigingen plaats, waardoor schommelingen nauwelijks meer merkbaar zijn. “Google maakt wekelijks meerdere go/no-go beslissingen over verschillende ’search quality’ veranderingen”, aldus Google engineer Matt Cutts.

Daarnaast is het ranking algoritme dusdanig complex dat elke wijziging zowel een positieve als negatieve invloed heeft. Elke wijziging aan het ranking algoritme van zoekmachine Google wordt dus goed overwogen.

De perfecte zoekmachine

google robot afkortingGoogle richt zich volledig op de ontwikkeling van de ‘perfecte zoekmachine’; een concept dat door Larry Page, medeoprichter van Google, wordt omschreven als een machine die ‘begrijpt wat je bedoelt en vindt wat je zoekt’. In dat kader is ook vorige maand Google Universal Search gelanceerd.

Hoge verwachtingen zoekmachine Google

Het is echter immens complex om de techniek te ontwikkelen voor de perfecte zoekmachine. Dit komt ook omdat de verwachtingen nu hoger liggen. “Vind je het juiste antwoord op jouw zoekvraag niet in de eerste 3 zoekresultaten? Dan is er iets mis”, aldus Udi Manber.

Google ‘Buganizer’: vinger aan de pols

Alle ruim 25.000 werknemers van Google hebben een programma, de ‘Buganizer’, om problemen in de zoekmachine te rapporteren. Dagelijks krijgt het Google Search Quality team gemiddeld 100 meldingen binnen over fouten en problemen in de zoekmachine.

Alle foutmeldingen die het Search Quality team ontvangt, worden gerangschikt op belangrijkheid. Daarbij wordt gekeken of het een individueel probleem is of een onderdeel van een groter en complexer probleem.

Amit Singhal en zijn Search Quality team gebruiken o.a. het programma ‘Debug’, wat aangeeft hoe de Google computers elke zoekopdracht en elke webpagina behandelen.

Actualiteit van webpagina’s

Een probleem wat zich in het tweede halfjaar van 2006 bij Google veel afspeelde, had te maken met actualiteit (de ‘freshness’) van webpagina’s.

Google worstelt continu met de vraag of oude(re) websites hoger gerangschikt moeten worden dan nieuwe of onlangs gewijzigde webpagina’s.

‘QDF’ algoritme, ‘hot or not’

In het begin van 2007 heeft het Google Search Quality Team daarom een nieuwe wiskundige formule bedacht die bepaalt wanneer een gebruiker nieuwe informatie zoekt en wanneer niet. Zoals alles bij Google, heeft ook dit een naam: QDF of ‘Query Deserves Freshness’.

Het ‘Query Deserves Freshness’ algoritme bepaalt dus of een onderwerp ‘hot’ is. Als er veel nieuws websites en weblogs in korte tijd over een onderwerp schrijven, krijgt het onderwerp een hoge(re) ‘QDF score’. Ook worden daarnaast uiteraard de miljarden zoekopdrachten in Google geanalyseerd om te bepalen of een onderwerp populair is.

Amit Singhal geeft een treffend voorbeeld voor de noodzaak van de QDF formule. “Als de stroom uitvalt in New York, verschijnen de eerste nieuwsberichten na 15 minuten; Google krijgt zoekopdrachten binnen enkele seconden”. Google biedt (daarom?) inzicht in wat ‘hot’ is met Google Hot Trends.

Google Universal Search

Het ‘Query Deserves Freshness’ algoritme past ook goed in de belangrijke stap van Google om andere soorten informatie, zoals nieuws, afbeeldingen en video’s, te integreren in de ‘hoofd’ zoekmachine. Google heeft deze stap in mei 2007 officieel gelanceerd als Google Universal Search.

De Google Index

data center googleVoordat er überhaupt gezocht kan worden in Google, wordt er eerst een gigantische database opgebouwd, de Google Index. In de beginjaren van Google werd er elke 6 tot 8 weken een nieuwe index gebouwd. Op dit moment controleert Google vele pagina’s op dagelijkse basis.

Google heeft vele duizenden computers aan elkaar gekoppeld om de gigantische en hard groeiende Google index op te bouwen. Naast het ranking algoritme heeft Google ook een technologie ontwikkeld om duizenden computers aan elkaar te koppelen zonder verlies van snelheid.

Technologie Google waardevol en zelfs onderscheidend

Deze technologie is zeer waardevol en wellicht zelfs onderscheidend voor Google, omdat er binnen een fractie van een seconde een zoekresultaat kan worden gepresenteerd. Google heeft onlangs een nieuw systeem ontwikkeld wat veel meer data kan bevatten en wat sneller doorzoekbaar is dan wat tot nu toe mogelijk was.

Google PageRank

google-toolbar-pagerankEen bekend en populair onderdeel van het ranking algoritme is PageRank, een door Google oprichter Larry Page ontwikkelde technologie om de relevantie en kwaliteit van webpagina’s vast te stellen. PageRank wordt uitgedrukt in een cijfer tussen 1 en 10, wat op basis van een logaritmische schaal wordt bepaald. Google hanteert de volgende (vereenvoudigde) uitleg:

In plaats van directe koppelingen te tellen, interpreteert Google een koppeling van pagina A naar pagina B als een ’stem’ van pagina A voor pagina B. Google beoordeelt de relevantie van een pagina door de ontvangen stemmen te tellen.

PageRank bepaalt in feite hoe vaak andere websites naar een bepaalde pagina linken. Websites die populair zijn, en specifiek diegene met een hoge(re) PageRanks, worden beschouwd als websites met een hogere kwaliteit.

Lees ook mijn uitgebreide Google PageRank handleiding.

´Signals´, de factoren die Google hanteert

vergrootglasAmit Singhal heeft een veel uitgebreider systeem ontwikkeld voor het rangschikken van webpagina’s. Dit ranking algoritme is gebaseerd op meer dan 200 factoren, door Google ’signals’ genoemd. PageRank is slechts één van de vele signals.

Sommige signals komen van webpagina’s, zoals woorden, links, afbeeldingen, etc. Andere factoren zijn gebaseerd op hoe pagina’s in de loop van de tijd zijn veranderd. Andere signals zijn data patronen die opgemaakt worden uit de bijna ontelbare zoekopdrachten die Google over de jaren heen heeft ontvangen.

‘Classifiers’, de formules die Google hanteert

Nadat de ’signals’ van een webpagina zijn geïdentificeerd, worden de ‘classifiers’ aan het werk gezet. Classifiers zijn formules die informatie proberen te achterhalen over de zoekopdracht met het doel om de gebruiker de meest relevante zoekresultaten terug te geven.

Classifiers geven bijvoorbeeld aan of iemand op zoek is naar informatie, of iemand een product wil kopen, of iemand een bedrijf of een persoon zoekt, etc. Ook identificeren classifiers of een zoekopdracht bijvoorbeeld om een merknaam gaat. Google heeft onlangs een nieuwe classifier ontwikkeld die namen achterhaald van mensen die niet beroemd zijn.

‘Topicality’, hoe relevant is een webpagina?

De ’signals’ en ‘classifiers’ berekenen meerdere indicatoren van de relevantie van een webpagina, waaronder de indicator ‘topicality’. De indicator topicality geeft aan hoe relevant een webpagina is ten opzichte van de brede categorie van de zoekopdracht.

Een pagina over bijvoorbeeld een toespraak van president Bush over Darfur vanuit het Witte Huis heeft een hoge ‘topicality score’ voor “Darfur”, lager voor “George Bush” en een lage topicality score voor “Witte Huis”.

Alle indicatoren worden gecombineerd tot een totale score. De 10 webpagina’s met de hoogste totale score verschijnen op de eerste pagina, tenzij er onvoldoende diversiteit in de zoekresultaten is.

“Als je veel verschillende perspectieven heb op één zoekresultaten pagina is dat veek relevanter dan een eenzijdig perspectief”, aldus Matt Cuts. “Als iemand bijvoorbeeld naar product zoekt, is niet onwaarschijnlijk dat je geïnteresseerd bent in een review van het product op een weblog, een pagina van de fabrikant, een website of winkel waar het te koop is en een vergelijkingswebsite”.

Vage omschrijvingen en spelfouten

Alsof het bovenstaande nog niet genoeg is, moet Google ook achterhalen wat mensen bedoelen als ze datgene wat ze zoeken vaag omschrijven of verkeerd spellen. Daartoe heeft Google een systeem gebouwd wat variaties van woorden begrijpt.

Zo heeft Google al lang geleden achterhaald dat mensen die zochten op “Brittany Speers” eigenlijk zochten naar “Britney Spears”. Ook begrijpt Google dat als je zoekt naar “Bill Clinton bio” dat je op zoek bent naar de biografie van Bill Clinton.

Personalisatie zoekresultaten Google

Google gebruikt steeds meer factoren op basis van de (zoek)geschiedenis van individuen. Het doel van Google is om de zoekresultaten aan te passen aan jouw interesses.

Hoe bepaalt Google mijn interesse?

Zoals uitgebreid beschreven staat in het artikel Google zoekgeschiedenis wordt webgeschiedenis (en gevolgen voor zoekresultaten en privacy) bouwt Google een zoekgeschiedenis op.

Google probeert daarmee te achterhalen wat jouw interesses zijn, zodat de zoekresultaten van jouw zoekopdracht specifiek en relevant zijn voor jouw interesses. Uiteraard vereist dit veel informatie en complexe algoritmes, dus er worden slechts kleine stapjes gezet, maar Google werkt er hard aan om de zoekresultaten op individueel niveau te personaliseren.

Google slaat echter GEEN informatie op als je niet bent ingelogd in één van de diensten van Google (naast de standaard informatie die een zoekmachine opslaat, zoals IP adres, datum en tijd, zoekwoorden, etc.).

De concurrentie een stap voor

logo's zoekmachines vergrootglasUiteindelijk is het moeilijk om exact te bepalen hoe geavanceerd de technieken van Google zijn, omdat het grootste gedeelte hiervan geheim is. De verschillen in de zoekresultaten tussen de leidende zoekmachines zijn subtiel, maar toch meent search-goeroe Danny Sullivan, oprichter van search marketing blog SearchEngineLand, dat Google de concurrentie een stap voor is.

Yahoo! probeert specifieke formules te maken voor specifieke interesse gebieden, ook wel verticale zoekmachines genoemd, afgebakend voor bijvoorbeeld het onderwerp Reizen of Gezondheid. Microsoft ontwikkelt een techniek om pagina’s te rangschikken op basis van hoe onze hersenen informatie verwerken.

Het systeem van Google met de vele signals en classifiers is gebaseerd op wetenschappelijke literatuur, mede vanwege de academische achtergrond van de oprichters. Google is in staat gebleken om dit verder aan te scherpen en te ontwikkelen met inzet van vele mensen en middelen die geen enkele universiteit zich kan veroorloven.

“Google wordt simpelweg gezien als dè standaard in search”, aldus John Battelle. “Hun geheime saus is hoe ze alle informatie aggregeren. Ze combineren en wegen zeker 1000 factoren mee”. Google engineer Matt Cutts bevestigt dit: “Het runnen van een zoekmachine op een Google-schaal betekent dat je rekening moet houden met vele grote factoren en honderden kleine factoren. Het missen van enkele kleine factoren kan gebruikers irriteren en wellicht aansporen om Google minder vaak te gebruiken”.

Bronnen & meer informatie

Google Keeps Tweaking Its Search Engine
Insight Into Google’s Search Quality Efforts
Five things you didn’t know about Google’s search
Remarkable Openness from Google’s Black Box Thanks to Saul Hansel
Behind the Scenes of Google Rankings
Google geeft kijkje in Black Box
Kijkje in de keuken van Google’s query-optimizerafdeling

Reageer op "Handleiding: Hoe werkt zoekmachine Google?"