Classification and Computational Methods in Gene Expression Data Analysis

Detta är en avhandling från Department of Theoretical Physics, Lund University

Sammanfattning: Popular Abstract in Swedish Microarray-tekniken som har utvecklats under cirka ett decennium, har gett oss nya möjligheter att studera aktiviteten av tusentals gener samtidigt. Det är aktiviteten hos generna, eller uttrycket av generna, som karakteriserar en cell. Celler som tillhör olika organ, eller som befinner sig i olika omgivningar har karakteristiska genuttrycksmönster. Det som gör microarray-tekniken så användbar i cancer-forskning är att cancer-celler uppvisar ett karakteristiskt genuttryck beroende på vilken typ av cancer det är, hur aggressiv tumören är, eller vilken typ av behandling som kan vara till nytta. Detta kan hjälpa oss att förstå de biologiska mekanismerna bakom cancern. Den stora mängden av data ger också möjlighet att bygga datamodeller för kliniskt relevanta frågeställningar såsom prognos och diagnos. Ett viktigt syfte med denna avhandling, förutom att bidra till utvecklingen av metoder för analys av microarray-data, var att bygga datamodeller för att förutsäga prognos eller diagnos av cancer. Två av artiklarna handlar om bröstcancer och en om leukemi. Bröstcancer är den vanligaste formen av cancer hos kvinnor i västvärlden. Ungefär en av tio kommer att insjukna under sin livstid. Efter att den primära tumören är bortopererad är det viktigt att kunna uppskatta risken för att tumörceller kan ha spridit sig till närliggande områden eller andra delar av kroppen. För att förhindra uppkomsten av nya tumörer, så kallade metastaser, sätts olika former av behandlingar in. Idag sker en överbehandling av patienter beroende på att de prognostiska metoderna inte är tillräckligt säkra. Ibland händer också att tumörer utvecklar resistens mot en behandling. Det skulle därför också vara av värde om man kunde förutsäga vilka tumörer som svarar på behandlingen (prediktion), och vilka som skulle behöva en annan behandling. För att bygga modellerna för prognos eller prediktion har vi använt en metod som bygger på maskin-inlärning, så kallade artificiella neurala nätverk (ANN). Våra resultat visar att de konventionella kliniska variablerna ger lika bra eller bättre resultat jämfört med en genuttrycks-profil. Flera efterföljande studier visar liknande resultat. För att kunna visa att de genprofiler vi undersökte skulle kunna förbättra prognos eller prediktion så måste man alltså göra fler studier som inkluderar ett större antal patienter. För att motivera en dyr kliniska prövning måste man ha ett större förtroende för att den nya metoden man vill testa faktiskt kommer ge en förbättring utöver redan existerande metoder. I leukemi-studien fokuserar vi bland annat på genetiska subtyper av leukemi och svar på behandling. Många olika typer av leukemi karakteriseras av specifika fusions-gener. Det är gener från olika kromosomer som har slagits samman till en så kallad fusions-gen. Idag kan man detektera fusions-gener vid diagnos och tillsammans med andra kliniska metoder ställs en prognos. Vi har sett att man även med hjälp av genuttryck kan klassificera leukemier med olika fusions-gener. Utöver detta har vi lyckats identifiera en genprofil för svar på behandling i en subgrupp av patienterna. För att göra dessa klassificeringar tar vi hjälp av en metod som fungerar bra när man ska dela in prov i fler än två kategorier. Utmaningen när man bygger klassificerare med hjälp av microarray-data är att det finns så många gener att välja på. Oftast är den stora majoriteten av gener inte relevanta för det man vill studera. På en microarray finns tiotusentals gener representerade. Utifrån dessa ska man alltså hitta de relevanta generna för att kalibrera sin modell. I den sista artikeln beskriver vi en metod för att förbättra uppskattningen av saknade värden som oundvikligen uppstår i microarray-data. Vi delar in saknade värden i olika kategorier och visar att de saknade värderna i vissa kategorier är över- eller underskattade om man jämför med duplikaten av mätningarna. Därför utvecklar vi enmodell som kan förbättra redan existerande metoder för att kompensera för detta.

  KLICKA HÄR FÖR ATT SE AVHANDLINGEN I FULLTEXT. (PDF-format)