Statistically Guided Visualization and Exploratory Analysis of Omics Data

Sammanfattning: Popular Abstract in Swedish Många av dagens stora folksjukdomar, såsom cancer, diabetes och hjärt-kärlsjukdomar, kopplas i allt högre grad samman med olika riskfaktorer som beror på förändringar i arvsmassan. Dessa nya kopplingar har möjliggjorts tack vare den extrema utveckling av genetiska mätmetoder som har skett under de senaste 15 åren. Med de nya metoderna kan förekomsten och aktiviteten hos ett stort antal genetiska komponenter (exempelvis gener och protein) kvantifieras samtidigt på ett snabbt och effektivt sätt, vilket ger upphov till mycket stora datamängder. Denna typ av datamängder, där man studerar hela system av biologiska variabler, betecknas ibland med samlingsnamnet ``omics''-data. En orsak till att man ofta väljer att mäta alla dessa variabler är att vi fortfarande har en ganska rudimentär uppfattning om hur olika komponenter samspelar, samt vilka komponenter som är viktiga i olika sammanhang. Målet med datainsamlingen är därför i många fall explorativt, vilket innebär att man försöker hitta nya, tidigare okända kopplingar och viktiga komponenter genom att söka relativt förutsättningslöst. I de stora datamängderna kan vi naturligtvis finna mycket information, men också många redundanta och oväsentliga mätningar. Det finns också mycket mätfel och andra osäkerheter i den insamlade datan. Allt detta gör de stora datamängderna svårhanterliga, och ofta drunknar den verkligt intressanta informationen i det omgivande bruset. En annan försvårande omständighet är att det stora antalet mätpunkter gör att vi kommer att se många effekter som bara beror på slumpmässiga variationer, även om dessa var för sig är ganska osannolika. I detta läge kan matematiken göra verklig nytta genom att, baserat på väldefinierade statistiska kriterier, plocka ut den i någon mening ``viktigaste'' informationen ur data och därmed reducera storleken avsevärt, samtidigt som de mest relevanta faktorerna behålls. Man kan naturligtvis ställa sig flera olika frågor här, såsom vilken den viktigaste informationen är, och hur den ska extraheras från data. En annan viktig fråga är hur den relevanta informationen ska representeras grafiskt på ett visuellt tilltalande och lättillgängligt sätt. En grafisk representation är ofta till extremt stor nytta för att skaffa en överblick över en ny datamängd, och i många fall kan relevanta hypoteser genereras genom att betrakta sådana grafiska representationer, om de framställs på rätt sätt. Moderna metoder för 3D-visualisering har här en enorm potential att vara verkligt värdefulla för att möjliggöra interaktivt utforskande av komplexa datatyper. Eftersom vi kan studera många olika typer av genetiska komponenter kan man förstås också fråga sig hur dessa samspelar, och vilka komponenter som påverkar varandra. I avhandlingen studerar vi alla dessa frågor ur ett matematiskt perspektiv, och presenterar flera metoder för att ta fram och visualisera relevant information från genetiska datamängder. Vi applicerar våra metoder på verkliga datamängder som genererats med hjälp av moderna mätmetoder. En viktig fråga, relaterad till den stora mängd slumpmässig variation som finns i denna typ av data, är hur man säkerställer att den information som man får ut är stabil gentemot små förändringar i den insamlade datan. Naturligtvis vill vi inte att en liten variation, som kan orsakas av små förändringar i laborationsuppställningar och liknande, ska få stor betydelse för resultaten från analysen av data. I avhandlingen presenterar vi en metod som kan användas för att stabilisera resultat som erhållits från existerande analysmetoder. Metoden bygger på att först uppskatta hur resultatet kan förändras vid små förändringar i den observerade datan, och sedan införliva denna kunskap med det ursprungliga resultatet. Idag används en uppsjö av metoder för att reducera stora datamängder och extrahera den viktigaste informationen. Ett sätt att minska antalet variabler (till exempel gener eller protein) som behöver studeras är att helt enkelt ta bort dem som varierar minst mellan olika personer i en studie, eftersom detta tyder på att de inte tillför någon relevant information för att exempelvis avgöra vilken typ av sjukdom en patient har. I avhandlingen studerar vi bland annat denna typ av reduktion, och föreslår ett intuitivt tilltalande sätt för att tala om hur många variabler som ska tas bort för att få kvar en så informativ datamängd som möjligt, ur ett visualiseringsperspektiv. Idag fattas sådana beslut ofta på oklara grunder, och det finns inget enhetligt angreppssätt. Vi presenterar också ett nytt mått på vad som kan sägas utgöra den relevanta informationen i en datamängd, och visar att grafiska representationer skapade utifrån detta mått ofta framhäver andra egenskaper än motsvarande representationer från existerande metoder. Slutligen studerar vi en metod för att analysera hur två stora datamängder, som representerar olika typer av genetiska variabler, samvarierar. Även i detta fall representerar vi de båda datamängderna grafiskt. I dessa representationer kan vi tydligt se samband mellan de två variabeltyperna och urskilja flera olika kliniskt relevanta patientgrupper.

  KLICKA HÄR FÖR ATT SE AVHANDLINGEN I FULLTEXT. (PDF-format)