Vandaag ben ik de gehele dag aanwezig op de laatste dag van de SIGIR’07 conferentie die is omgedoopt tot ‘Industry Event‘ en volledig in het teken staat van Search.

Dit tweede verslag behandelt de ochtendsessie over Consumer Search, wat mij betreft het meest interessante onderwerp van deze dag met presentaties van:

Baidu: How one search engine beat another
Google: Google Search: Helping Users Find What They Want, Millions of Times a Day
Microsoft: Multimedia Search Relevance
Yahoo!: Yahoo! Answers: Applications of machine learning in social search

How one search engine beat another

– 10.30 – 10.50
William Chang (Baidu)

De Chinese zoekmachine Baidu is de op 3 na meest bezochte website ter wereld (!) en het is niet onwaarschijnlijk dat Baidu binnenkort de eerste plaats bekleed. Baidu is marktleider in China met 65% van de markt.

Het meest imposante technologische feit van Baidu is dat de multi-terabyte grote database die elke week (!) wordt ververst.

Infoseek

William Chang is geen kleine jongen. Hij is medeverantwoordelijk geweest voor de bouw van één van de eerste ‘Natural Language Processing’ (NLP) zoekmachines, te weten Infoseek (nu Go.com). Hij noemt enkele belangrijke punten van ‘real’ search, te weten: efficiëntie, schaalbaarheid, distributie, real-time indexeren, phrase indexing (ontdekken van zinnen i.p.v. woorden).

William Chang heeft bij Infoseek samen met Robin Li, de latere oprichter van Baidu, een drietal belangrijke regels opgesteld voor search:

  1. Zinnen zijn belangrijker dan woorden
  2. De bron is belangrijker dan de content/informatie
  3. Facetten zijn belangrijker dan relaties

1. Zinnen zijn belangrijker dan woorden
William Chang is de grondlegger voor de technologie achter het ontdekken van zinnen uit een aantal woorden. Juist in NLP is het van belang dat je achterhaalt wat een combinatie van zoekwoorden betekent om nog beter de intentie van de gebruiker te achterhalen.

2. De bron is belangrijker dan de content/informatie
Robin Li is verantwoordelijk voor ‘hyperlink voting’, de technologie voor het achterhalen en mee laten wegen van ankertekst, wat wordt gezien als het belangrijkste in search. Robin Li combineerde dit met ‘phrase indexing’ waardoor er veel meer over de linkrelatie te achterhalen is.

En PageRank dan?
Je vraagt je wellicht af of dat niet hetzelfde is als PageRank. Die vraag heb ik persoonlijk aan William Chang gesteld. Hij heeft duidelijk uitgelegd dat PageRank in theorie goed werkt, maar in de praktijk faalt.

PageRank is een wiskundig model wat alleen op basis van linkstructuren de belangrijkheid van een webpagina bepaalt. De ankertekst (tekst waarmee wordt gelinkt) wordt bij PageRank niet meegewogen. En dat is iets wat ik van deze man zeker aanneem.

Facetten zijn belangrijker dan relaties
Met de derde regel (facetten zijn belangrijker dan relaties) wordt bedoeld dat een relatie tussen websites op zichzelf niet veel zegt. Het gaat om wat de facetten zijn van de relatie, wat voor soort relatie het is. Dit correspondeert duidelijk met de eerste twee regels.

Waarom is Baidu beter?

William Chang laat niet achterwege om antwoord te geven op de title van zijn presentatie. Chang noemt een aantal imposante dingen op waarvan ik in ieder geval onder de indruk ben (en ik verwacht andere zoekmachines ook – ja, ook Google).

  • Baidu heeft de snelste en meest actuele index (elke week ververst)
  • Geïntegreerde resultaten van Baidu’s ‘user generated content’ websites (wat Google nu langzaam lanceert met Google Universal Search)
  • Snelheid van processen (in 3-6 maanden is een nieuwe feature live)
  • Baidu is Google, Yahoo!, Napster en Wikipedia, maar dan allemaal in één bedrijf!
  • Succesvolle verticals (MP3, image, news, blogs, social)
  • Chinese economie groeit met 11% per jaar (en daar profiteert Baidu van)
  • Profile driven advertising technology
  • People, Talent (in januari 2007 waren en 400 engineers, nu zijn het er al 800 – het gaat om toptalent van universiteiten binnen en buiten China)

Conclusie

William Chang gaat met name in op het antwoord op zijn titel van de presentatie ‘How one search engine beat another’. Een imposant verhaal wat duidelijk maakt dat Google niet de enige speler is in de search wereld.

Google Search: Helping Users Find What They Want, Millions of Times a Day

– 10.50 – 11.10
– Maureen Heymans (Google)

Eén van de belangrijkste drempels in het toegankelijk maken van informatie is het ontdekken en aanwijzen van potentieel succesvolle zoekopdrachten. Dit komt mede doordat zoekopdrachten vaak zeer kort en dubbelzinnig zijn.

Mensen gebruiken daarnaast ook vaak andere woorden dan de schrijvers of aanbieders van de informatie. Een duidelijk voorbeeld van dit probleem is het onlangs door Google gelanceerde Cross Language Information Retrieval, wat hieronder verder wordt toegelicht.

In een sneltreinvaart gaat Maureen Heymans, Search Quality Software Engineer, door haar presentatie heen, waarbij ze de volgende functies van Google behandelt.

Spelling suggestie

Ongeveer 20% van alle zoekopdrachten bestaat uit typfouten. Google verbetert 75% van deze zoekopdrachten met de ‘Bedoelde u …’ spellingsuggestie.

Waarom verbetert Google dan niet gelijk de zoekresultaten? Dat komt omdat de zoekopdracht vaak dubbelzinnig is, waardoor Google niet zeker kan weten of de voorgestelde zoekopdracht ook de juiste is.

Daarbij neemt de complexiteit toe gezien de veeltaligheid waar Google mee te maken heeft. Google lost dit op met het hieronder toegelichte Cross Language Information Retrieval.

Zoekopdracht suggestie

Gebruikers hebben moeite met formuleren van een zoekopdracht die duidelijk aangeeft wat ze echt willen. Dat is de uitdaging die Google heeft.

Om te bepalen wat de intentie is van de gebruikers, gebruikt Google een ´query refinement´ techniek die twee varianten kent. Bij de ene variant worden er onderaan de zoekresultaten gerelateerde zoekopdrachten getoond (voorbeeld). De andere variant vervangt het 3e, 4e en 5e resultaat met de eerste 3 resultaten van een sterk gerelateerd zoekwoord (voorbeeld).

Google vindt hier de nodige uitdagingen. Zo moeten de suggesties relevant en bruikbaar zijn, waarbij ook taalspecifieke aspecten komen kijken. Ook moet Google rekening houden met tijdelijke gebeurtenissen, waarvoor Google het ‘Query Deserves Freshness’ algoritme heeft ontwikkeld, wat uitgebreid wordt toegelicht in Handleiding: Hoe werkt zoekmachine Google? Een kijkje in de keuken. Daarnaast is het moeilijk om voor minder populaire zoekopdrachten een suggestie te bepalen, omdat er weinig historische data beschikbaar is.

Verschillende resultaten voor verschillende locaties
Zoals hierboven beschreven, zijn er per taal en land verschillende uitdagingen. Voor een mondiaal opererend bedrijf als Google is het van belang dat alle landen en talen worden ondersteund.

Als iemand bijvoorbeeld zoekt voor Cote d’Or, kan dat verschillen voor iemand uit België of uit Frankrijk. De Belg zoekt waarschijnlijk de chocolade terwijl de fransman waarschijnlijk het gebied in Frankrijk zoekt.

Cross Language Search

Voor sommige zoekopdrachten zijn er soms betere resultaten te vinden in een andere taal. Dat heeft hoofdzakelijk te maken met het feit dat web content veel langzamer groeit dan de online populatie.

Ongeveer 33% van de websites op het internet is tegenover 8% Arabisch. De groei in het internetgebruik wat de Arabische taal betreft, is echter vele malen groter dan de groei van het ‘engelse’ internet.

Mede daarom kan het interessant zijn om zoekopdrachten te vertalen en op andere talen lost e laten. Daartoe heeft Google Cross Language Information Retrieval gelanceerd.

Google vindt ook hier de nodige uitdagingen. De vertaling door machines is nog lang niet perfect. Daarnaast is het ook lastig om te bepalen welke zoekopdracht betere resultaten geeft in een andere taal, en welke taal dat dan is. Ook is het weergeven en integreren van de andere zoekresultaten een belangrijk vraagstuk om de gebruiksvriendelijkheid te waarborgen.

Multimedia Search Relevance

– 11.10 – 11.30
– Hugh Williams (Microsoft)

In deze presentatie staat Live Image Search centraal, met name omdat het op dit moment eigenlijk het enige onderscheidende onderdeel is van Microsoft op het gebied van search.

In web search, het ‘normaal’ zoeken in tekst, wordt 75% van de pageviews 75% op de eerste pagina gerealiseerd. Voor het zoeken naar afbeeldingen is dit 43%.

Mensen willen blijkbaar veel thumbnails zien bij het zoeken naar afbeeldingen. Live Image Search lost dit op door oneindige scroll mogelijkheid, resizable thumbnails en het verbergen van metadata.

Microsoft maakt, net als Baidu en Google, intensief gebruik van de log files van het zoekgedrag van gebruikers om te bepalen welke informatie relevant is t.o.v. de zoekopdracht.

Hugh Williams is op het laatste moment vervangen door Nick Craswell, wat helaas leidde tot een onvoorbereide en slordige presentatie. Een gemiste kans, omdat Microsoft volgens mij veel meer in huis heeft dan wat ze nu laten zien.

Yahoo! Answers: Applications of machine learning in social search

– 11.50 – 12.10
– Byron Dom (Yahoo!)

Yahoo! Answers lost het probleem van information retrieval op met de combinatie van mensen en technologie. Daarbij loopt Yahoo! tegen zaken aan als relevantie, combinatie, onwaarheid, etc. van de antwoorden (en de vragen).

Yahoo! gebruikt in eerste instantie menselijke selectie door de gebruikers een categorie te laten kiezen. Dit bleek echter niet succesvol, waardoor er nu automatische categorisatie wordt toegepast. Om de menselijke factor niet uit te sluiten, selecteert de automatische categorisatie de top 5 categorieën waar de gebruiker uit kan kiezen.

Yahoo! vindt uitdagingen in de slechte kwaliteit van de teksten. Veel gebruikers gebruiken Yahoo! Answers als chat functionaliteit, waardoor er veel afkortingen en spelfouten in zitten. Daarnaast slagen ze er niet in de juiste categorie aan te wijzen, wellicht ook omdat veel vragen in meerdere categorieën passen.

Bij het automatisch categoriseren worden technieken gebruikt die vergelijkbaar zijn met de bovengenoemde technieken van o.a. Google. Yahoo! liet uiteraard niet het achterste van de tong zien, maar ik heb de indruk dat de technologie redelijk standaard is en weinig innovatief.

Ga voor een volledig overzicht van de sessie en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).