Variational Methods in Combinatorial Optimization and Phylogeny Reconstruction

Detta är en avhandling från Department of Theoretical Physics, Lund University

Sammanfattning: Popular Abstract in Swedish Metoder utvecklade inom den statistiska fysiken har visat sig vara användbara även i andra forskningfält såsom datalogi, statistik, ekonomi och molekylärbiologi. I den här avhandlingen undersöks hur en variationell metod, utvecklad för statistisk fysik, kan användas när man löser kombinatoriska optimeringsproblem och när man försöker rekonstruera evolutionsträd. I den statistiska fysiken utgår man från delarna av ett system för att försöka beskriva beteenden för hela systemet. T ex kan man använda sig av atomers egenskaper för att beskriva globala egenskaper hos gaser eller fasta material. Den variationella metod som används här går ut på att göra en förenklad approximation av partiklars magnetiska egenskaper beskrivna av deras spin. Approximationen optimeras sedan för att egenskaperna hos hela systemet skall beskrivas så bra som möjligt. Första problemtypen som diskuteras är kombinatorisk optimering. Ett problem består av ett antal diskreta variabler, dvs variabler som kan vara i ett uppräkneligt antal tillstånd. En kostnad är kopplad till varje kombination av tillstånd som variablerna kan anta, och det gäller att minimera denna kostnad. Problemet är att antalet möjliga kombinationer växer exponentiellt med antalet variabler. Om variablerna t ex kan vara i två möjliga tillstånd kommer antalet möjliga variabelkombinationer fördubblas när en extra variabel införs och inte ens de snabbaste datorer kommer att kunna gå igenom alla möjliga tillstånd när antalet variabler växer. För att man skall vara säker på att tillståndet med minsta möjliga kostnad har hittats måste man dock ofta göra detta. För att få en känsla för problemen kan en liknelse vara på sin plats. Tänk dig att du har en hög med pusselbitar. Bitarna kan komma från olika pussel och uppgiften är att avgöra huruvida det finns ett komplett pussel bland bitarna. Om du får ihop ett pussel har du bevisat att det finns genom att du visar upp pusslet, men om du misslyckas vet du inte om det beror på att det inte finns något pussel eller om du bara misslyckats att hitta det. För att bevisa att det inte finns något pussel måste man prova alla möjliga kombinationer av att sätta pusselbitarna på olika ställen i pusslet, vilket snabbt blir en omöjlighet när man har lite fler bitar. Inom fysiken beskrivs ofta spin i form av diskreta variabler och man kan överföra optimeringsproblemet till ett system av spinvariabler och kostnaden kan beskrivas som energin hos systemet. Därmed kan man utnyttja metoder inom fysiken för att hitta energiminima hos spinsystem för att lösa kombinatoriska optimeringsproblem. Den metod som används här är att utnyttja en medelfälts-approximation för spinvariablerna. Detta leder till att man kan minimera energin för ett spin i taget och man kan på så sätt hitta ett tillstånd med låg energi. Detta garanterar inte att man hittar den lägsta möjliga energin, men med hjälp av att man inför en temperaturparameter kan man sakta kyla systemet och samtidigt uppdatera spin variablerna, vilket leder till en ökad chans att hitta ett tillstånd med låg energi. Ett annat problem där en medelfälts-approximation är användbar är när man försöker rekonstruera ett evolutionärt träd genom att titta på DNA-sekvenser från olika arter. Man antar att alla nu levande arter härstammar från en och samma "urfader". Man antar också att under evolutionens gång så delas grupper av en art upp (t ex geografiskt) så att de olika grupperna fortsättningsvis utvecklas oberoende av varandra. Delningarna upprepas genom historien tills man kommer fram till de olika arter som existerar nu. Om man tittar på en speciell del av DNA-sekvensen från olika arter kan man se att sekvenserna liknar varandra, men att det finns skillnader. Dessa skillnader antas bero på mutationer, och problemställningen är att genom skillnaderna i sekvenser försöka återskapa när uppdelningarna i olika arter har skett. Man kan använda sig av en matematisk modell för hur sekvenser muterar och kan då optimera dessa modeller för att få fram det evolutionsträd som är mest troligt enligt modellen. Problemet med detta förfarande är att då man uppdaterar (optimerar) parametrarna för modellen så måste man göra detta med hjälp av en iterativ uppdaterning. I denna avhandling föreslås istället en approximation, där man inför variabler (som kan ses som spin) för de "historiska" arter som beskriver sekvenserna vid de olika delningspunkterna i evolutionsträdet. Detta leder till explicita uppdateringsekvationer för modellparametrarna. Man måste nu även uppdatera variablerna för approximationen, men detta kan också göras med explicita uppdateringsekvationer.

  Denna avhandling är EVENTUELLT nedladdningsbar som PDF. Kolla denna länk för att se om den går att ladda ner.