Vorige week was ik de gehele dag aanwezig op de laatste dag van de SIGIR’07 conferentie die was omgedoopt tot ‘Industry Event‘ en volledig in het teken stond van Search.

Dit derde verslag behandelt de ochtendsessie over Vertical Search. Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).

The Integration of Web-based Content within Scopus

– 12.10 – 12.30
– Craig Scott (Scirus)

De eerste presentatie in de Vertical Search sessie ging over de integratie van een online en een offline zoekdienst, respectievelijk Scirus en Scopus, beide producten van Elsevier.

Scirus is een gratis verticale zoekmachine (online) op het gebied van wetenschap met meer dan 430 miljoen documenten. Scopus is in 2004 door Elsevier gelanceerd en is de grootste ‘abstract and citation database’ van onderzoeksliteratuur (offline).

Waarom werden de twee zoekdiensten geïntegreerd? Craig Scott noemde het veranderende medialandschap, de klantbehoefte en het concurrentievoordeel als redenen.

Daarbij is met name de zogeheten ‘grijze literatuur’ uit de database van Scopus steeds meer van belang, omdat dit steeds meer wordt gebruikt door onderzoekers. Grijze literatuur is de niet gepubliceerde literatuur zoals lezingen (of aantekeningen ervan), presentaties, manuscripten en essays.

Beide zoekdiensten draaien op zoektechnologie van FAST Search & Transfer. De twee zoekdiensten hebben echter een verschillende index. De integratie is in feite een meta zoekmachine voor de twee zoekmachines.

Evaluating the Search Applications of Industry and Public Websites

– 12.30 – 12.50
– Thomas Mandl (CH consortium)

In de tweede sessie gaat het om een aparte verticale zoekmachine, namelijk de zoekmachine binnen een website, ofwel Site Search.

Thomas Mandl presenteerde de onderzoeksresultaten van Duits onderzoek, uitgevoerd door enkele universiteiten en technologie bedrijven, naar de zoekfunctie van 75 grote websites, waarbij de gebruiker centraal staat (niet de techniek).

Site search is in feite het belangrijkste toegangspunt tot informatie op een website. Gebruikers willen een effectieve en efficiënte functionaliteit naar relevante informatie.

Onderzoeksopzet

Bij het onderzoek zijn de volgende criteria gehanteerd: ‘search index’, ‘query/document matching’, ‘user interaction’ en ‘search quality’.

Bij het criterium ‘search index’ is gekeken naar de compleetheid, de actualiteit en de analyse van de zoekopdracht t.o.v. het document.

Bij ‘query/document matching’ is er gekeken naar hoe de zoekopdracht (query) wordt uitgevoerd op de index, hoe de zoekopdracht wordt geanalyseerd en welke metadata – beschrijvende informatie voor het betreffende document – er aan de documenten is toegevoegd.

Bij de criteria ‘user interaction’ en ‘search quality’ is er gekeken naar de navigatie en naar welke taken benodigd zijn. Ook is er gekeken of ‘fact queries’ konden worden uitgevoerd, bijvoorbeeld om het aantal werknemers te vinden.

Onderzoeksresultaten

Opvallend is dat er geen duidelijk ‘winnaars’ uit het onderzoek naar voren kwamen. De meeste websites scoren echter niet goed. Ongeveer 75% van websites heeft onder de 70% score gerealiseerd.

Vergelijking met Google Site Search

Vervolgens is er ook gekeken hoe de Google Site Search functionaliteit scoort t.o.v. van een zelfontwikkelde zoektechnologie.

De Google site search scoort aanzienlijk beter op user interaction, waarschijnlijk omdat men gewend is aan Google, en iets beter op search results. Verder scoort Google site search iets minder goed.

Verbeteringen en tips voor geode site search
Thomas Mandl sloot af met enkele heldere en bruikbare verbeteringen en tips voor site search:

  • Houd de index compleet en actueel
  • Gebruik en handhaaf meta data
  • Volg standaarden
  • Beheers en controleer de zoekresultaten

En toen was het tijd voor de lunch die in het mooie weer buiten op het terras werd gehouden wat prima te doen was!

Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).