Microsoft, Powerset ja semanttinen web

Microsoftilla on viime vuosina ollut ilmeisiä vaikeuksia omien hakupalvelujensa suosion lisäämisessä. Toisaalta yhtiö on ilmoittanut, että se aikoo pysyä hakukonebisneksessä mukana. Pyrkimykset ostaa Yahoo olivat yksi yritys parantaa kilpailukykyä sillä saralla.

Yhtiö ilmoitti heinäkuun alussa ostaneensa yrityksen nimeltä Powerset, jonka tuotteet käyttävät hyväkseen semanttisen webin tekniikoita. Semanttinen webhän tarkoittaa lyhyesti sanottuna sitä, että webin tietosisällöt ja palvelut kuvataan määrämuotoisella tavalla, jota pystytään analysoimaan ja käyttämään hyväksi koneellisesti. Kansalliskirjastokin on ollut mukana mm. kehittämässä yleistä suomalaista ontologiaa (http://www.yso.fi/onki/yso/).

Microsoft ilmaisi tiedotuksessaan, että hankinnan kohde olivat ainakin yhtä paljon yhtiön asiantuntijat yleensä kuin yhtiö nykyään tuottamat teknologiat.

Hyvä niin. Powersetista on verkossa käytettävissä versio, jossa se hakee Wikipediasta, http://www.powerset.com/. Siitä voi sanoa, että tuskinpa Microsoft ihan tuommoisen takia ostoksille lähti, mitään varsinaista lisäarvoa hakemiselle on vaikea havaita, monenlaisia kummallisuuksia kylläkin. “Factz”-osio kertoo esimerkiksi, että “Finland won metres” ja “Finland used systems” yrittäessään noukkia luonnollisen kielen tekstimassasta yksinkertaisia faktoja.  Samoin sen mukaan “Finland joined NATO”. Powerset osaa varsin hyvin tulkita luonnollisella kielellä esitettyjä kysymyksiä, mutta tulokset ovat taas petteliäitä: palvelu väittää lujasti, että “Michael Aldrich invented television,” kun lähdetekstissä kerrotaan että “(T)eleshopping or buying from a domestic television or PC was invented by Michael Aldrich – .”

Powersetin pyrkimys luonnollisen kielen koneelliseen analyysiin ei ainakaan vielä vakuuta; en osaa sanoa, miten suoritus vertautuu muihin vastaaviin yrityksiin. Itse asiassa luonnollisen kielen aiheuttamat ongelmat ovat yksi perusteista, joilla semanttisen webin kehittämistä on puolustettu.

Powerset-kauppa on kirvoittanut jonkin verran keskustelua semanttisen webin hyödyllisyydestä ylipäätään. Yksi argumentti sitä vastaan näyttäisi olevan, että erittäin suurissa massoissa suureen osaan kyselyitä saadaan varsin tyydyttäviä hakutuloksia suurten hakukoneiden jo nyt käyttämillä menetelmillä – hakulausekkeiden analyysilla ja tilastollisilla algoritmeilla. Semanttinen web näyttää kyntensä vasta, kun kyseessä ovat “complex queries involving inferencing and reasoning over a complex data set