Handleiding: Hoe werkt een zoekmachine?

logo's zoekmachines vergrootglasEen zoekmachine is een instrument waarmee je informatie kunt zoeken in een bepaalde collectie. Tegenwoordig wordt met een zoekmachine echter meestal bedoeld: een dienst op internet waarmee met behulp van zoekwoorden kan worden gezocht op het ‘World Wide Web’.

Doel en opbouw handleiding

Deze handleiding heeft tot doel om kort en bondig maar toch volledig uit te leggen hoe een zoekmachine werkt. Daarbij wordt niet de diepte ingegaan op bijvoorbeeld de techniek. De handleiding bestaat uit de volgende onderwerpen:

Soorten zoekmachines

Er zijn verschillende soorten zoekmachines, te weten een ‘crawler based’ zoekmachine, een ‘subject directory’ zoekmachine en een ‘meta’ zoekmachine.

Crawler based zoekmachine

Een zoekmachine gebaseerd op een ‘crawler’ slaat een kopie van het world wide web op in een database, de index. Na een zoekopdracht worden de zoekresultaten vanuit de index op relevantie gerangschikt. De bekendste en meest gebruikte crawler based zoekmachine is Google.

Subject directory

‘Subject directories’ zijn online gidsen met een verzameling links per onderwerp die handmatig worden bijgehouden. Het bekendste voorbeeld in Nederland is Startpagina.nl.

Verticale zoekmachines

Onder ‘subject directories’ vallen ook gespecialiseerde zoekmachines, beter bekend als verticale zoekmachines. Een verticale zoekmachine is een zoekmachine die is afgebakend voor een bepaald soort informatie of een bepaald onderwerp of interesse. Een verticale zoekmachine maakt de resultaten vaak relevanter. Een voorbeeld van een verticale zoekmachine is Google Maps (geografisch afgebakend).

Meta zoekmachine

Een meta zoekmachine gebruikt meerdere zoekmachines als basis en combineert de zoekresultaten van meerdere zoekmachines. Een voorbeeld van een meta zoekmachine in Nederland is Vinden.nl.

Hoe werkt een ‘crawler based’ zoekmachine?

web crawler spiderDe meest gebruikte zoekmachines, met Google aan kop, zijn een ‘crawler based’ zoekmachine, waardoor dit type zoekmachine verder wordt uitgediept.
Voor het gemak bedoel ik vanaf nu met ‘zoekmachine’ een zoekmachine gebaseerd op een crawler.

Een zoekmachine gebaseerd op een crawler bestaat uit:

  • Crawler (spider, robot)
  • Index (database)
  • Algoritme (formule)

De crawler

De crawler, ook wel ‘spider’ of ‘(ro)bot’ genoemd, is een relatief eenvoudig computer programma dat niets anders doet dan links volgen en de HTML versie van de webpagina opslaan in een database, de index. De HTML versie van een webpagina is de pagina die je ziet met een web browser (zoals Internet Explorer).

Een crawler kan alleen de links volgen op webpagina’s die al in de index zijn opgenomen. Zonder een link naar een webpagina (of zonder het aanmelden van een webpagina bij een zoekmachine) kan een webpagina dus nooit gevonden worden!

Aanmelden bij zoekmachines

Bij een nieuwe of niet veel bezochte website of webpagina kan het weken duren voordat een zoekmachine de website vindt, omdat er geen of weinig links naar de betreffende website of webpagina zijn.

Daartoe is het mogelijk om je website aan te melden bij de zoekmachines. Omdat Google in Nederland veruit de meest gebruikte zoekmachine is, is het aanmelden bij Google aan te bevelen. Maar beter en sneller werkt het verkrijgen van links naar je website vanaf reeds geïndexeerde webpagina’s.

Het aanmelden bij bijvoorbeeld Google verzekert je niet dat de website ook hoog bij Google terecht komt. Dat bepaalt het algoritme van een zoekmachine, wat hieronder verder wordt uitgelegd.

De index

De crawler of spider slaat de gevonden HTML versie van een webpagina op in een gigantische database, de index. Op dat moment is een webpagina geïndexeerd. Primair wordt alleen de tekst op een webpagina opgeslagen in de index, maar de zoekmachines gaan steeds meer informatie opslaan.

Deze index is te vergelijken met de index achterin het boek. De index ‘weet’ welke woorden op welke pagina staan. Vervolgens is het aan het algoritme van de zoekmachine om te bepalen in welke volgorde de zoekresultaten worden gerangschikt.

Het algoritme

zoekmachineHet algoritme van een zoekmachine is een complexe wiskundige formule met de belangrijke taak om te bepalen welke webpagina’s uit de index getoond worden bij een zoekopdracht.

Het belangrijkste doel van een zoekmachine is om zo relevant mogelijke zoekresultaten te leveren op basis van een zoekopdracht. Deze zeer complexe taak schuilt in het algoritme van zoekmachines.

Hoe werkt het algoritme van zoekmachines?

Het algoritme van een zoekmachine is een wiskundige formule die honderden factoren hanteert voor het bepalen van de relevantie van een webpagina t.o.v. een zoekopdracht.

De specifieke werking van dergelijke algoritmes is geheim, omdat het succes van een zoekmachine afhangt van de relevantie van de zoekresultaten. Door veel testen en experimenteren zijn er enkele belangrijke factoren bekend, maar de precieze werking is onbekend.

Google PageRank

Het meest bekende stukje van een algoritme van een zoekmachine is de PageRank technologie van Google. De Google PageRank is populair en wordt vaak gezien als hèt algoritme van Google, maar het slechts één van de vele factoren die Google hanteert binnen het algoritme.

Google legt PageRank zelf uit als: In plaats van directe koppelingen te tellen, interpreteert Google een koppeling van pagina A naar pagina B als een ‘stem’ van pagina A voor pagina B. Google beoordeelt de relevantie van een pagina door de ontvangen stemmen te tellen.

De Google PageRank technologie houdt ook rekening met de belangrijkheid van de webpagina die een ‘stem’ uitbrengt. Een stem van een pagina die zelf belangrijk is, weegt zwaarder en helpt om de pagina waarvoor een stem is uitgebracht, belangrijker te maken.

Lees ook mijn uitgebreide Google PageRank handleiding.

Het algoritme wordt natuurlijk continu bijgewerkt en uitgebreid. In 2013 heeft Google het volledig algoritme zelfs compleet vernieuwd. Het nieuwe algoritme wordt Hummingbird genoemd.

Natuurlijke en Gesponsorde zoekresultaten

De meeste zoekmachines leveren natuurlijke zoekresultaten en gesponsorde zoekresultaten.

De natuurlijke zoekresultaten zijn de ‘hoofd’-zoekresultaten van een zoekmachine aan de linkerkant van een zoekmachine. De natuurlijke zoekresultaten worden gerangschikt op basis van het hierboven beschreven algoritme, uiteraard na indexering door een crawler.

De gesponsorde zoekresultaten zijn de kleinere zoekresultaten die aan de rechterkant of de bovenkant van de zoekresultaten worden getoond. De gesponsorde zoekresultaten worden primair gerangschikt op basis van een veilingsysteem, waarbij adverteerders een zelf te bepalen bedrag per klik op de advertentie betalen.

Secundair worden de gesponsorde zoekresultaten gerangschikt op basis van een steeds complexer wordend algoritme, wat de relevantie van de advertentie bepaalt t.o.v. het zoekwoord enerzijds en landingspagina van de advertentie anderzijds.

Lees meer over het advertentieprogramma van Google in mijn AdWords handleiding.

Zoekmachinemarketing

Het commercieel benutten van zoekdiensten, waarbij het meestal om zoekmachines gaat, is bekend als Zoekmachinemarketing. Zoekmachinemarketing bestaat uit zoekmachine-optimalisatie (SEO) en zoekmachine-adverteren (SEA), kortom het beïnvloeden van de natuurlijke- en gesponsorde zoekresultaten.

zoekmachine adverteren en zoekmachine optimalisatie

Zoekmachine Optimalisatie

Zoekmachine Optimalisatie is het actief beïnvloeden van de onbetaalde zoekresultaten. Het gaat hierbij hoofdzakelijk om onbetaalde zoekresultaten waarin teksten van webpagina’s worden doorzocht, maar denk ook aan mobiele webpagina’s, afbeeldingen, video’s en alle andere huidige en toekomstige vormen van informatie.

Zoekmachine optimalisatie kent een drietal optimalisatie gebieden, te weten de Tekst factor, de Indexatiefactor en de Populariteit factor. Bij de tekst factor en indexatie factor gaat het hoofdzakelijk om factoren binnen de website, terwijl de populariteit factor hoofdzakelijk wordt beïnvloed op basis van factoren buiten de website.

Tekst factor

De tekst factor bestaat met name uit het onderzoeken van de juiste woorden en teksten. Daarbij is de keuze van (zoek)woorden en de plaatsing ervan op de webpagina van belang. Het doel is om woorden en teksten te selecteren die de doelgroep van de website gebruikt om datgene te zoeken wat de webpagina aanbiedt.

De tekst factor is van belang voor een zoekmachine om te bepalen waar de webpagina over gaat. Aan de hand daarvan kan de zoekmachine bepalen wat de relevantie van die webpagina is t.o.v. een zoekopdracht.

Indexatie factor

De indexatie factor betreft de mate waarin een crawler de webpagina kan ‘lezen’. Zoals beschreven ‘leest’ een crawler de HTML code. Andere technieken voor het presenteren van een website, bijvoorbeeld met Flash of Javascript, kunnen een webpagina onleesbaar en dus onvindbaar maken voor een zoekmachine.

Populariteit factor

De populariteit factor betreft hoofdzakelijk externe factoren van een webpagina. Bij de populariteit factor gaat het het met name om relevante en kwalitatieve links naar de betreffende webpagina, omdat het algoritme van zoekmachines daar veel waarde aan hecht.

Meer informatie en artikelen over zoekmachine optimalisatie vind je op dit weblog in de categorie zoekmachine optimalisatie.

Zoekmachine-adverteren (SEA)

Zoekmachine Adverteren is simpelweg het kopen van advertentieruimte in en om zoekdiensten, waarbij het adverteren in zoekmachines, met Google AdWords als meest bekende advertentieplatform.

De belangrijkste eigenschap van Zoekmachine Adverteren is dat de advertenties zijn gekoppeld aan een zoekopdracht (die de intentie van de gebruiker aangeeft), en dus relevant zijn voor de zoekopdracht.

Video: uitleg van Google zelf

Deze video, gemaakt door Google zelf, legt ook duidelijk en kort uit hoe een zoekmachine werkt:

Bronnen & Meer informatie

Handleiding: Hoe werkt zoekmachine Google? Een kijkje in de keuken
Google’s uitleg technologie
Hoe werkt Google’s zoekmachine eigenlijk?
UC Berkeley Library
Wikipedia – Zoekmachine
Zoekprof.nl

Lees ook mijn andere handleidingen over zoekmachines en zoekmachinemarketing.

“Hoe werkt een zoekmachine?”
scoort gemiddeld een 8,0 uit 3 beoordelingen.