Verslag (5) SIGIR Industry Event – Language Technology

Vorige week was ik de gehele dag aanwezig op de laatste dag van de SIGIR’07 conferentie die was omgedoopt tot ‘Industry Event‘ en volledig in het teken stond van Search.

Dit vijfde – en tevens laatste – verslag behandelt de laatste middagsessie over Language Technology, beter bekend als ‘Natural Language Processing’, het geautomatiseerd ‘ontdekken’ van een taal uit een aantal ingevoerde woorden.

Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).

Linguistic analysis applied in practical cases

- 16.30 – 16.50
- Dr. Edward W. Vergragt (Collexis)

Collexis is een softwareleverancier van zoektechnologie, wat grote hoeveelheden ongestructureerde data (met name documenten) doorzoekbaar en bruikbaar maakt middels ‘linguistic analysis’ ofwel het begrijpen van een taal. Collexis is opgericht in 1999 en inmiddels overgenomen door een Amerikaans bedrijf.

Collexis maakt een ‘fingerprint’ van de tekst en bepaalt vervolgens waar de tekst over gaat, wat wordt samengevat in een concept.

Daarbij wordt gebruik gemaakt van linguïstische analyse waarbij er wordt achterhaald waar de tekst over gaat. De techniek is meertalig, zodat een Nederlandse zoekopdracht engelse zoekresultaten oplevert.

The relevance of Natural Language {website|internet|enterprise} Search

- 16.50 – 17.10
- Marcel Smit (Q-go)

Q-go is een Nederlands bedrijf dat ‘customer interaction management software’ maakt. De eigen ontwikkelde ‘natural language technology’ stelt ze in staat om in alle West-Europese talen te opereren.

De technologie wordt ook toegepast bij site search (o.a. de KLM site), enterprise search (met Microsoft en Google) en internet search, zoals hieronder verder toegelicht.

Daarbij worden gebruikersvragen op bijvoorbeeld grote websites en intranets linguïstiek geanalyseerd om de intentie van de gebruikers te achterhalen en op basis daarvan een klein aantal relevante zoekresultaten te genereren.

Q-go heeft op mij een goede indruk gemaakt. Ik geef toe dat ik eigenlijk niet wist wat ze precies deden, maar de technologie lijkt vergevorderd en in staat om op hoog niveau mee te doen.

Relevantie
Relevantie, en daarmee Natural Language Processing, is een populair onderwerp, wat tot voor kort niet zo was. Het gaat om de relevantie van de zoekresultaten.

Natural language
Naast relevantie staat uiteraard Natural Language centraal. Daarbij heb je te maken met meerdere soorten vragen die dezelfde intentie hebben. Een zoekvraag wordt dus eerst geanalyseerd. In feite gaan we terug naar school en wordt de zin ontleed in werkwoorden, zelfstandige naamwoorden, etc.

Vervolgens worden grammatica regels toegepast en synoniemen vastgesteld, zowel van woorden als (onderdelen van) zinnen, waarna er een goed beeld van de intentie van de zoeker ontstaat.

Toepassingen
Q-go past de techniek toe op verschillende gebieden, zoals website search (bijvoorbeeld op de website van KLM). De techniek is ook toe te passen op internet (consumer) search en enterprise search.

Wat enterprise search betreft, integreert Q-go de technologie ook met Microsoft SharePoint (MOSS 2007), waarbij Q-go het missende stuk Natural Language Processing verzorgt. Ook kan Q-go gecombineerd worden met Google Search Appliance.

Wat mij betreft is juist de Natural Language Processing cruciaal in het bepalen van de intentie van de gebruikers. Als je dat weet, is het eenvoudiger om relevante zoekresultaten te geven.

Knowledge Poor Information Extraction in Action

- 17.10 – 17.30
- Jakub Zavrel (Textkernel)

Het semantische web is een mooi idee wat metadata toevoegt aan informatie om beter te beschrijven wat de informatie betekent. Daartoe moet echter alle informatie van ‘labels’ worden voorzien, wat een tijdrovende en arbeidsintensieve klus is, en dat is precies wat het Nederlandse Textkernel als geautomatiseerde dienst aanbiedt.

Textkernel heeft, net als veel sprekers van vandaag, het doel om informatie te ontsluiten uit een ongestructureerde verzameling informatie. Ook hier wordt ‘Natural Language Processing toegepast om vervolgens labels aan de informatie te kunnen koppelen.

Textkernel is met name gefocust op het ontrekken van bruikbare informatie uit documenten, waarbij ‘machine learning’ methodes worden gebruikt.

The End

En toen was het bijna 18:00u en zat de lange, intensieve en leerzame dag met veel presentaties op een hoog niveau erop. Ik kijk terug op een leerzame en inspirerende dag, waarbij de aanwezigheid van Google, Baidu, Microsoft en Yahoo! zeker meespeelden. Het eerste Industry Event is wat mij betreft een succes te noemen, al is het alleen al om het onderwerp: search!

Ga voor een volledig overzicht van de sessies en bijbehorende verslagen naar het artikel Congres: SIGIR’07 – Industry Event (Search).

Interessant? Lees dan deze artikelen die ik eerder schreef:

  1. Verslag (2) SIGIR Industry Event – Consumer Search
  2. Verslag (1) SIGIR Industry Event – Enterprise Search
  3. Verslag (4) SIGIR Industry Event – Novel Search Applications
  4. Verslag (3) SIGIR Industry Event – Vertical Search
  5. Congres: SIGIR’07 – Industry Event (Search)

3 Reacties op "Verslag (5) SIGIR Industry Event – Language Technology"

  1. Frank Biesta op 07 August, 2007

    Hey,

    Als het over taal gaat ben ik meteen al geïnteresseerd. Het blijft interessante materie – echter mijn verwachtingen zijn absoluut niet hooggespannen… Een paar opmerkingen.

    Zo’n 20 jaar geleden werkte ik bij Symantec. Symantec had een (DOS)programma dat Q&A heette: een flat-file database programma waaraan je in gewone mensentaal vragen kon stellen, in de trant van: “laat mij al mijn klanten zien die in een straal van 15 km rond Capelle aan de IJssel wonen en die voor meer dan EUR 100 bij mij besteld hebben”. Deze manier van vragen stellen aan een computer was vooral leuk om te demonstreren op computerbeurzen. Wat gebeurde er echter in de praktijk?

    Mensen hadden geen zin om die hele tekst in te typen (de techneuten wisten natuurlijk dat bij de analyse van die tekst alle niet relevante woorden gewoon werden weggegooid), dus kozen ze voor iets als “Klanten, Plaats=Capelle, Afstand => 15, Orderbedrag => 100″. Minder typewerk en een sneller resultaat…

    Mensen typen, denk ik, liever minder dan meer, getuige de MSN-taal (“ff” in plaats van “even” scheelt 50% toetsaanslagen). Wanneer je Google een beetje goed beheerst (plussen, minnen, aanhalingstekens en de rest) vind je met heel weinig typewerk snel wat je zoekt. Ik zie mensen dus nog niet zo snel in Google intypen “Lieve computer, kunt u me alstublieft vertellen waar ik dit jaar het best op vakantie kan gaan in Duitsland voor minder dan EUR 300 per week? O ja, en bij voorkeur ook niet al te veel regen. Dankuwel.”.

    Dan Natural Language Processing. Ik volg al 25 jaar de ontwikkelingen op het gebied van computervertalen. En eigenlijk zijn we nog niet echt veel opgeschoten. (Ik laat Babelfish en aanverwanten dan even buiten beschouwing; deze programma’s doen niet veel meer dan “woordjes ruilen”.) Maar ook de professionele vertaalprogramma’s presteren nog niet veel beter, voorzover ik heb kunnen zien. Eigenlijk verbaast me dat. Het enige dat volgens mij nodig is voor een goed vertaalprogramma is: kennis van de wereld en kennis van de context.

    Een voorbeeldje. In “Ik ben even naar die bank gelopen” kan “bank” zowel zitbank als financiële instelling (bankgebouw) betekenen. Pas door de context wordt dit duidelijk. Vergelijk “Mijn geld was op, dus ik ben even naar die bank gelopen” met “Ik was hartstikke moe, dus ik ben even naar die bank gelopen”. Wanneer we ruime kennis van de wereld om ons heen en contextherkenning kunnen inbouwen in vertaalprogramma’s gaan ze een kans maken. Eerder niet.

    En tot slot metadata. Ik kan me voorstellen dat dit werkt om een soort tekstuele categorisering van een tekst te maken. Maar als het iets verder gaat dan dit, hebben we toch weer mensen nodig.

    Voor mijn werk ben ik aan het kijken geweest naar metadatering. Voorbeeld: een docent Aardrijkskunde heeft een lesbrief geschreven over aardbevingen. Nu wil ik die informatie zo metadateren dat de tekst, binnen een elektronische leeromgeving, terugvindbaar is gebaseerd op een aantal criteria. Dan moet ik dus onder andere kunnen aangeven dat deze tekst geschikt is voor 4 HAVO, in welk leerblok de tekst past, of het informatie is of een toets, of ie makkelijk of moeilijk is en nog heel wat meer. Die informatie valt slechts gedeeltelijk automatisch uit de tekst te halen. Dus als basis lijkt automatische metadatering me aardig – in mijn praktijk blijft het, denk ik, voorlopig handwerk.

    (En met dit lange verhaal heb ik natuurlijk meteen mijn eigen opmerking ontkracht dat mensen liever niet te veel typen…)

  2. Eduard Blacquière op 12 August, 2007

    Hey Frank,
    Dank voor je zeer uitgebreide reactie! Interessant om je ervaring uit de praktijk te horen!

    Voor mij ging er op deze conferentie een wereld open, maar het is goed om te horen hoe die wereld in elkaar zit en zich ontwikkelt.

    Het verbaast me inderdaad ook dat NLP eigenlijk nog in de kinderschoenen staat. Als leek op de SIGIR conferentie heb ik alles uitstekend kunnen volgen. Kortom, het niveau was niet heel hoog. Uiteraard blijft het een interessant vakgebied wat ik ook in de gaten ga houden!

  3. Frerieke op 15 August, 2007

    Eduard,
    Kom er nu pas achter dat je deze blog bij houdt. Ziet er erg goed uit! Interessante materie. Je bent enorm veel kennis aan het opdoen; stage, afstuderen, interessant Congres, professionele verslagen,…mooi om te zien, ben erg benieuwd waar jij uit komt!
    Ik ga waarschijnlijk voor Umeebee naar de Web-of-change conferentie half september in Canada, ga ik ook super veel leren en hopelijk op een goede manier toepassen. Het internet is powerfull! dat weet jij als geen ander. Ik hou je in de gaten! Liefs frerieke

Reageer