Discrete Stochastic Time-Frequency Analysis and Cepstrum Estimation

Detta är en avhandling från Lund University

Sammanfattning: Popular Abstract in Swedish Det är ofta fördelaktigt att i olika sammanhang representera våra observationer av verkligheten med en följd av tal. Så skilda exempel som ljud, bilder, hjärnvågor, havsvattenvågor, jordbävningar och aktiekurser kan låta sig beskrivas av följder av tal. Man kan med fördel föreställa sig följden som en uppritad graf, där den horisontella axeln beskriver tidpunkten för mätningen och den vertikala beskriver storleken på det uppmätta värdet. Vi använder ordet "tid" för att beskriva positionen i talföljden även om talens position i somliga tillämpningar representerar något annat än olika tidpunkter. För att kunna analysera dessa följder av tal är det ofta lämpligt att utgå från att våra observationer till viss del påverkats av slumpmässiga variationer. Man säger då att följden är en observation av en tidsserie eller en stokastisk process i diskret tid. I vissa sammanhang kan man utgå från att talen i följden är både positiva och negativa på ett sådant sätt att medelvärdet av följden är nära noll. Det gäller till exempel mätning av olika elektriska signaler och ljudvågor. För den typen av stokastiska processer är det ofta intressant att studera samvariationer mellan tal på olika ställen i följden. Samvariationen beskrivs av processens kovariansfunktion. Ibland tydliggörs viss information i kovariansfunktionen genom en transformation. Två exempel på sådana transformer av kovariansfunktionen är medelvärdet av ambiguity-funktionen och cepstrat. Ambiguity-funktionen används framförallt för stokastiska processer vars statistiska egenskaper skiljer sig åt på olika ställen i talföljden. Sådana processer kallas icke-stationära. Ambiguity-funktionen spelar en central roll inom tids-frekvens-analys. Syftet med tids-frekvens-analys är att beskriva kovariansfunktionen för en icke-stationära process som en fördelning över tid och frekvens. En liknande representation återfinns inom musiken, där noterna beskriver vid vilken tidpunkt som olika toner, dvs frekvenser, ska spelas. Processer vars statistiska egenskaper inte förändras med tiden kallas stationära. För sådana processer används ibland cepstrat för att beskriva vissa egenskaper hos processen. Cepstrat har fått särskilt stor användning i tillämpningar där tidsserien representerar en ljudinspelning av något slag. I detta sammanhang bör man endast betrakta en mycket kort bit av ljudinspelningen i taget, eftersom kravet på att processen ska vara stationär annars inte är uppfyllt. I sammanhang då ljudet är en röstinspelning antas det ofta att cepstrat på ett förhållandevis tydligt sätt beskriver vad som sägs och vem som talar under inspelningen. Eftersom medelvärdet av ambiguityfunktionen och cepstrat beror på samvariationerna i talföljden och då dessa i praktiska tillämpningar aldrig är helt kända, kan vi i praktiken bara göra uppskattningar av medelvärdet av ambiguity-funktionen och cepstrat. Det finns olika metoder för att göra sådana uppskattningar. I den här avhandlingen bevisas vissa möjligheter och begränsningar med några sådana metoder.

  KLICKA HÄR FÖR ATT SE AVHANDLINGEN I FULLTEXT. (PDF-format)