Exploring Latent Semantic Vector Models Enriched With N-grams

Detta är en avhandling från Växjö : Matematiska och systemtekniska institutionen

Sammanfattning: Denna avhandling behandlar en sorts vektorrumsmodell som jag kallar ”Latent Semantic Vector Model”, eller LSVM, framtagen med tekniken ”Latent Semantic Indexing”. En LSVM har många användningsområden men jag har i första hand tittat på en direkt tillämpning: dokumentsökning. Det en LSVM kan tillföra dokumentsökning är möjligheten att söka efter innehåll snarare än specifika sökord. Att använda sig av en LSVM i ett dokumentsökningssystem har visat sig förbättra kvaliteten på de returnerade dokumentlistorna – det blir lättare för användaren att hitta den information han eller hon är ute efter. Det problem som angrips i det här arbetet är att en LSVM i normalfallet bara innehåller enkla ord, medan termer man söker efter ofta är flerordsuttryck.Jag har försökt träna upp modeller som är konfigurerade på olika sätt med avseende på parametrar som träningsdata, vokabulär, matrisstorlek, kontextstorlek och inte minst olika sätt att få in flerordsuttryck direkt i modellerna. Syftet har varit att avgöra hur prestanda för en LSVM påverkas då man går från en ordbaserad modell till en sominnehåller både ord och flerordsuttryck. För att kunna mäta förändringen har två utvärderingsmetoder använts: synonymtest och dokumentsökning. Synonymtestningen har gjorts för svenska och dokumentsökningen för svenska och engelska. Resultaten förbättras för synonymtestningen men försämras för dokumentsökning. För engelsk dokumentsökning är förändringen inte signifikant.Arbetet har även resulterat i två nya resurser som är mycket användbara för utvärdering av flera typer av modeller: utvärderingsmängden SweHP560, innehållande 560 svenska synonym-uppgifter från Högskoleprovet, och de nya måtten RankEff och WRS för utvärdering av dokumentsökningssystem, som tar bättre hand om problemet med ofullständigt facit i utvärderingsdata än existerande mått som MAP och bpref.

  KLICKA HÄR FÖR ATT SE AVHANDLINGEN I FULLTEXT. (PDF-format)