Vis enkel innførsel

dc.contributor.advisorHvidsten, Torgeir
dc.contributor.advisorSandve, Simen
dc.contributor.authorBjørn, Tobias
dc.date.accessioned2021-09-14T10:18:48Z
dc.date.available2021-09-14T10:18:48Z
dc.date.issued2021
dc.identifier.urihttps://hdl.handle.net/11250/2776425
dc.description.abstractThe Atlantic salmon underwent a whole-genome duplication 80 million years ago and has kept around half of the duplicated genes. Over time, some genes have become more active, while others have become less active, due to regulatory changes. This thesis explores if it is possible to separate these genes by the number of nearby transcription factor binding sites. With previously obtained information about the binding sites for different transcription factors for each gene and the direction of the expression level shift for this gene, a matrix was constructed containing the difference in bound transcription factor binding sites between the gene duplicates. One of the gene duplicates has a significant change in gene expression level, while the other is conserved. The duplicate pairs with increased expression in one copy are called upcons, and the pairs with decreased expression in one copy are called downcons. Multiple machine learning algorithms were tested to classify upcons vs downcons. Overall, support vector machines performed best, achieving an accuracy of 67%. In conclusion, the results are indicative that classification of the evolutionary direction of genes based on nearby transcription factor binding sites can be done.en_US
dc.description.abstractAtlanterhavslaksen gjennomgikk en helgenomduplisering for 80 millioner år siden og har beholdt rundt halvparten av de dupliserte genene. Noen gener har blitt mer avlest, mens andre har blitt avlest sjeldnere, dette grunnet endringer i reguleringen. Denne oppgaven vil undersøke om det er mulig å skille slike gener etter antallet bindingsseter transkripsjonsfaktorer har i nærheten av genene. Med tidligere innhentet informasjon om bundne bindingsseter for forskjellige transkripsjonsfaktorer for hvert gen og retningen på endringen for genuttrykksnivået for genet, ble en matrise laget som inneholdt forskjellen i bindingsseter mellom duplikatgenene. Det ene genet i duplikatparet har en signifikant endring i genuttrykksnivå, men ikke det andre. De parene hvor endringen er positiv, kalles «upcons», og de negative kalles «downcons». Flere maskinlæringsmetoder var testet i klassifikasjonen av «upcons» og «downcons». SVM var den metoden som gjorde det best. Den klarte å velge riktig i 67% av tilfellene. Konklusjonen er at det er gjennomførbart å klassifisere geners evolusjonære retning basert på transkripsjonsfaktorers bindingsseter.en_US
dc.language.isoengen_US
dc.publisherNorwegian University of Life Sciences, Åsen_US
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internasjonal*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.no*
dc.titleExploring regulatory evolution after whole genome duplication using machine learningen_US
dc.typeMaster thesisen_US
dc.description.localcodeM-KBen_US


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel

Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal
Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal