Vorige week was ik de gehele dag aanwezig op de laatste dag van de SIGIR’07 conferentie die was omgedoopt tot ‘Industry Event‘ en volledig in het teken stond van Search.

Dit vijfde – en tevens laatste – verslag behandelt de laatste middagsessie over Language Technology, beter bekend als ‘Natural Language Processing’, het geautomatiseerd ‘ontdekken’ van een taal uit een aantal ingevoerde woorden.

Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).

Linguistic analysis applied in practical cases

– 16.30 – 16.50
– Dr. Edward W. Vergragt (Collexis)

Collexis is een softwareleverancier van zoektechnologie, wat grote hoeveelheden ongestructureerde data (met name documenten) doorzoekbaar en bruikbaar maakt middels ‘linguistic analysis’ ofwel het begrijpen van een taal. Collexis is opgericht in 1999 en inmiddels overgenomen door een Amerikaans bedrijf.

Collexis maakt een ‘fingerprint’ van de tekst en bepaalt vervolgens waar de tekst over gaat, wat wordt samengevat in een concept.

Daarbij wordt gebruik gemaakt van linguïstische analyse waarbij er wordt achterhaald waar de tekst over gaat. De techniek is meertalig, zodat een Nederlandse zoekopdracht engelse zoekresultaten oplevert.

The relevance of Natural Language {website|internet|enterprise} Search

– 16.50 – 17.10
– Marcel Smit (Q-go)

Q-go is een Nederlands bedrijf dat ‘customer interaction management software’ maakt. De eigen ontwikkelde ‘natural language technology’ stelt ze in staat om in alle West-Europese talen te opereren.

De technologie wordt ook toegepast bij site search (o.a. de KLM site), enterprise search (met Microsoft en Google) en internet search, zoals hieronder verder toegelicht.

Daarbij worden gebruikersvragen op bijvoorbeeld grote websites en intranets linguïstiek geanalyseerd om de intentie van de gebruikers te achterhalen en op basis daarvan een klein aantal relevante zoekresultaten te genereren.

Q-go heeft op mij een goede indruk gemaakt. Ik geef toe dat ik eigenlijk niet wist wat ze precies deden, maar de technologie lijkt vergevorderd en in staat om op hoog niveau mee te doen.

Relevantie
Relevantie, en daarmee Natural Language Processing, is een populair onderwerp, wat tot voor kort niet zo was. Het gaat om de relevantie van de zoekresultaten.

Natural language
Naast relevantie staat uiteraard Natural Language centraal. Daarbij heb je te maken met meerdere soorten vragen die dezelfde intentie hebben. Een zoekvraag wordt dus eerst geanalyseerd. In feite gaan we terug naar school en wordt de zin ontleed in werkwoorden, zelfstandige naamwoorden, etc.

Vervolgens worden grammatica regels toegepast en synoniemen vastgesteld, zowel van woorden als (onderdelen van) zinnen, waarna er een goed beeld van de intentie van de zoeker ontstaat.

Toepassingen
Q-go past de techniek toe op verschillende gebieden, zoals website search (bijvoorbeeld op de website van KLM). De techniek is ook toe te passen op internet (consumer) search en enterprise search.

Wat enterprise search betreft, integreert Q-go de technologie ook met Microsoft SharePoint (MOSS 2007), waarbij Q-go het missende stuk Natural Language Processing verzorgt. Ook kan Q-go gecombineerd worden met Google Search Appliance.

Wat mij betreft is juist de Natural Language Processing cruciaal in het bepalen van de intentie van de gebruikers. Als je dat weet, is het eenvoudiger om relevante zoekresultaten te geven.

Knowledge Poor Information Extraction in Action

– 17.10 – 17.30
– Jakub Zavrel (Textkernel)

Het semantische web is een mooi idee wat metadata toevoegt aan informatie om beter te beschrijven wat de informatie betekent. Daartoe moet echter alle informatie van ‘labels’ worden voorzien, wat een tijdrovende en arbeidsintensieve klus is, en dat is precies wat het Nederlandse Textkernel als geautomatiseerde dienst aanbiedt.

Textkernel heeft, net als veel sprekers van vandaag, het doel om informatie te ontsluiten uit een ongestructureerde verzameling informatie. Ook hier wordt ‘Natural Language Processing toegepast om vervolgens labels aan de informatie te kunnen koppelen.

Textkernel is met name gefocust op het ontrekken van bruikbare informatie uit documenten, waarbij ‘machine learning’ methodes worden gebruikt.

The End

En toen was het bijna 18:00u en zat de lange, intensieve en leerzame dag met veel presentaties op een hoog niveau erop. Ik kijk terug op een leerzame en inspirerende dag, waarbij de aanwezigheid van Google, Baidu, Microsoft en Yahoo! zeker meespeelden. Het eerste Industry Event is wat mij betreft een succes te noemen, al is het alleen al om het onderwerp: search!

Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).