Computational challenges in family genetics
Doctoral thesis
Date
2020-11-13Metadata
Show full item recordCollections
- Doctoral theses (KBM) [131]
Abstract
There is a constant demand to determine the most probable relationship between a set of person given some genetic marker data and some hypotheses about pedigree structure. A constant stream of paternity cases is obtained at forensic laboratories around the globe and with the modernization of many underdeveloped countries the increase in a few years may be staggering. The case may be as trivial as to find out who is the true father of a child, but also more complex, as to large inbred pedigrees. In addition, cases may involve only two persons, e.g. an alleged father and a child, but also many persons, e.g. several cousins, aunts/uncles and siblings. Furthermore we may be looking at single cases, but also large scale disaster victim identification (DVI) problems. In the latter, identification through the use of DNA has risen to become the most important and reliable tool.
With the arrival of new technologies, e.g. high density SNP microarrays and next generation sequencing, more and more genetic markers become available. Although providing opportunities they also present forensic scientists with great statistical problems as independence can no longer be assumed. This high-dimensionality problem is something recurring in all fields working with genetics and the solution is in many cases reduction of dimensionality using well established methods. However, in forensic genetics, evidence in general requires a likelihood ratio to be established, weighting the genetic evidence given hypotheses against each other. Therefore the dimensionality reduction cannot generally be applied and we need other methods to handle the dependency. One approach adopted in many situations when dependence is modeled, is Markov chains. The property of such chain relies on the fact that given the value of one node, e.g. one genetic marker, the values of the subsequent nodes in the chain is independent of all previous nodes. Variants of Markov chains will be a focus in this thesis.
With the surge of increasing computational power, simulations have become a crucial tool in many fields of research. We may now study the effects of something random using complex models and investigate the outcome with little of thought on the computation time. In forensic genetics, simulations have many possible applications. For instance, in determination of relationships, we may simulate the outcome of a case and study the distribution of probabilities in order to determine the false positive/negative rates given some probability threshold. Simulations may also be used to study how the change in some parameter in our model affects the evidence value.
In summary, this thesis describes means to solve complex computational problems arising when independence between genetic markers cannot be assumed. It further considers solutions to other statistical obstacles encountered in forensic genetics such as DVI operations, simulations and models for mutations. Different approaches are discussed and evaluated. Moreover, software is presented implementing the ideas and algorithms. Att bestämma det biologiskt mest sannolika släktskapet, baserat på genetisk data för ett antal individer, är något som ständigt intresserar människor. Ett konstant flöde av faderskapsfall tas emot och analyseras på forensiska labb runt om i världen och med den intensiva tekniska utvecklingen i Uländer kan vi bara ana en explosion av antalet ärenden de kommande åren. Det enklaste fallet är att bestämma om en man är far till ett barn, men även mer komplexa fall, där invecklade släktskap skall utredas, blir allt vanligare. Det kan vidare vara enkla isolerade fall men också stora olyckor, där flera aspekter måste tas hänsyn till. I identifieringsprocessen som följer större masskatastrofer har DNA blivit den primära och säkraste metoden att använda.
Den tekniska utvecklingen har introducerat flera nya metoder där det är möjligt att erhålla data från en stor mängd genetiska markörer billigt och på kort tid. Mer data förbättrar generellt urskiljningsförmågan, men medför dock flera statistiska problem som måste modelleras; det kanske viktigaste är beroendet mellan enskilda beräkningar. Mångdimensionalitetsproblem är ett känt fenomen inom statistik och hanteras ofta genom reduktion av antalet dimensioner medelst etablerade metoder. Dessa tillvägagångssätt kan inte med samma självklarhet användas i forensisk statistik, givet de förutsättningar som föreligger. Vi behöver andra metoder för att hantera och modellera beroendet mellan beräkningarna. Ett vanligt tillvägagångssätt är att använda så kallade Markov-kedjor. Dessa kedjor har egenskapen att givet beräkningar/värden för en nod i kedjan så är alla senare beräkningar oberoende av tidigare beräkningar. Markov-kedjor är ett centralt tema i denna avhandling.
I enighet med Moores lag utvecklas beräkningskapaciteten hos datorer exponentiellt och som en följd har tunga beräkningar och simuleringar avsevärts förenklats. Detta har i sin tur haft som konsekvens att komplicerade modeller kan studeras med hjälp av de sistnämnda utan att ägna en tanke åt kapacitetsproblem. I forensisk genetik kan vi använda simuleringar för att studera fördelningar hos olika parametrar. Till exempel kan vi erhålla en summering av förväntade bevisvärden i ett specifikt släktskapsärende under givna förutsättningar. Vi kan undersöka hur många personer vi behöver inkludera i ärendet och hur många genetiska markörer vi behöver analysera. Detta är mycket användbart då vi på förhand kan avgöra om vi har möjlighet att lösa ett ärende eller ej.
Sammanfattningsvis presenterar denna avhandling metoder och implementeringar för att lösa flera komplexa beräkningsproblem som uppkommer när kopplade genetiska markörer används. Den beskriver också lösningar på andra statistiska problem inom forensisk genetik såsom modeller för mutationer och matchningsalgoritmer vid större identifieringsarbeten samt simuleringar. Varje lösning implementeras också i fritt tillgänglig programvara för att vara ett enkelt hjälpmedel för andra forskare inom fältet.