Anders Søgaard – Københavns Universitet

Videresend til en ven Resize Print Bookmark and Share

Alumni > Julekalender 2017 > Julekalender 2014 > 21. december

21. december: At finde fakta i en høstak

KU's Alumneforening har bedt forskere fra Københavns Universitet om at fortælle om et af deres aktuelle forskningsprojekter. Det er tilsammen blevet til de 24 låger i årets forskningsjulekalender, hvor du kan læse om alt fra sociale medier til sorte huller.

I dagens låge fortæller lektor Anders Søgaard fra Det Humanistiske Fakultet om sin forskning i sproglige processor og maskiners læring.

Fra søgemaskine til svar-maskine

Søgemaskiner som Google.com er langsomt ved at gå fra at være søge-redskaber til at blive spørgsmål-svar-maskiner. Hvis man f.eks. søger på 'when was abe lincoln born', returnerer Google.com ikke kun search snippets, men også et egentligt svar på spørgsmålet (se billede). Disse svar hentes fra en kæmpe database (kaldet Knowledge Graph), som består af delvist automatisk høstede facts fra Wikipedias faktabokse. Google.com kan altså svare på en del af de spørgsmål, der findes svar på i Wikipedias faktabokse.

 

Wikipedias faktabokse rummer dog kun svar på en lille del af verdens spørgsmål. I Knowledge Graph står der f.eks., at Disney er et firma, men ikke at deres primære målgruppe er børn, eller at de ejer Marvel. Den slags viden findes dog mange andre steder på nettet. Noget af den på Wikipedia, andre ting på blogs og sociale medier.

At høste viden på nettet

Til januar præsenterer vi en række forskningsresultater på en konference i Austin, Texas, der viser, hvordan vi også kan høste faktuel viden fra et medie som Twitter. På Twitter er faktuel viden lidt en nål i en høstak. De fleste brugere skriver om deres holdninger eller om midlertidige forhold, som f.eks. at de er på ferie et bestemt sted, eller at det lige nu regner voldsomt uden for deres kontorvindue. At udtrække faktuel viden kræver derfor to ting. Én ting er, at man automatisk skal kunne analysere de sagsforhold, der udtrykkes i sætningen. Hvilke entiteter er nævnt, og hvilken relation er der imellem dem? Og endelig skal man kunne afgøre, om sagsforholdene er neutrale og faktuelle - eller midlertidige eller subjektive og holdningsbaserede.

Alt det kan efterhånden lade sig gøre. F.eks. udtrækker vi et sagsforhold som 'Wikileaks publicerer mails'. Vores automatiske analyse siger, at der er tale om en statisk relation mellem to entiteter - et udgive-forhold mellem en udgiver og det, der udgives. Og vores neutralitetsanalyse fortæller os, at der med 95% sandsynlighed er tale om et faktuelt - og dermed ikke holdningsbaseret - forhold. Omvendt fortæller vores automatiske neutralitetsanalyse, at det statiske forhold 'NSA er en fjende' med 95% sandsynlighed er holdningsbaseret, og ikke faktuelt. Et sagsforhold som 'David Lynch starter transcendental meditation' er faktuelt, men - viser vores automatiske analyse - et midlertidigt forhold, der ikke egner sig til at indgå i en søgemaskines database.

Læs mere

Artikel med Anders Søgaard fra Politiken.

Mød også

I morgen kan du i KU's forskningsjulekalender 2014 møde Morten Broberg og Henrik Hansen, der blandt andet forsker i korruption relateret til udviklingsbistand.