Identification of red clover (Trifolium pratense L.) SNPs whose allelic versions appear with different frequency in pure stands and in mixtures with grasses, using GBS and CAPS-markers

Sæther, Vegard Eriksen

dc.contributor.advisor	Ergon, Åshild
dc.contributor.author	Sæther, Vegard Eriksen
dc.date.accessioned	2018-09-11T12:19:51Z
dc.date.available	2018-09-11T12:19:51Z
dc.date.issued	2018
dc.identifier.uri	http://hdl.handle.net/11250/2562061
dc.description.abstract	In this thesis I`m trying to uncover if there is any genetic difference between red clover (Trifolium pratense L.) populations grown in pure stands with only red clover and in mixed stands, where red clover is grown together with grasses. This was done by studying SNPs found in the red clover genome. Leaf samples that were sampled in an earlier experiment were used. Leaf-samples were collected as samples with 100 individuals each, from four different pure stands and four mixed stands. From two of the pure stands we collected three replicate samples. The replicate pool-samples were collected to study the random variation between samples. This resulted in a total of 12 samples which were sent to BGI in China for genotyping-by-sequencing (GBS) to find the SNPs. After BGI did some filtrations, I received a dataset with 129 661 SNPs. In addition, the dataset also included how many times (number of reads) each allelic version of the SNPs appeared in each of the samples. To make further results more accurate I performed a couple of filtrations on the data. I removed all the SNPs from the dataset which had a summed number of reads outside the interval 100-499 in one or more of the twelve samples. I also removed all SNPs from the dataset that had a minor allele frequency below 0.05 in one or more of the samples. The replicates from the same plots were then compared to each other. It was almost as great variation among the replicate samples from the same plot as it was between plots. The other samples were also analyzed in the same PCA. The first PCA-axis explained 25% of the variation in my samples and divided the samples into a group of pure stands and a group of mixed stands. To find SNPs that had allelic versions that appeared with different frequency in pure stands and mixed stand I calculated FST by comparing the allele-frequency of single pure stands against the average frequency of the mixed stands and vice versa, and for each SNP. A CHI2-test based on the FST-values was performed to find SNPs where the allelic versions appeared with significantly different frequency in pure stands and mixed stands. The CHI2-test was performed at P-level 0.1, 0.05 and 0.01. This resulted in 9, 6 and zero SNPs, respectively. I chose to try to confirm the results for P-level = 0.1 further. This was done by developing CAPS markers, meaning that I used restriction-enzymes to tell different genotypes apart. Leaves were collected from the descendants of the red clover populations sent to BGI, and the descendant of some other pure stands and mixed stands, but this time DNA was extracted from single individuals. I tried to develop CAPS-markers for four of the SNPs. Primers and then restriction enzymes were tested for their ability to distinguish alleles, resulting in only two different SNPs being genotyped in the individual samples. Genotyping with CAPS markers showed a different allele-frequency than what I got from BGI earlier, and there seemed to be no difference between descendants from pure stands and descendants from mixed stands.	nb_NO
dc.description.abstract	I denne oppgaven vil jeg prøve å finne ut om det er en genetisk forskjell mellom rødkløver (Trifolium pratense L.)-populasjoner i rene bestander med bare rødkløver, og blandede bestander hvor rødkløver har vokst sammen med gressarter. Dette ble gjort ved å studere SNPer som vi fant i rødkløver-genomet. Bladprøver samlet inn i et tidligere eksperiment ble brukt. Bladprøvene ble samlet som prøver med 100 individer hver, fire prøver fra rene bestander og fire prøver fra blandingsbestander. Fra to av ren-bestandene ble det tatt tre replikate prøver. De replikate prøvene ble samlet for å studere mengden med tilfeldig variasjon mellom prøvene. Dette resulterte i tolv prøver totalt som ble sendt til BGI i Kina for genotyping-bysequencing (GBS) for å finne SNPer. Etter at BGI gjorde en serie filtreringer så mottok jeg et datasett med 129 661 SNPer. Hver av disse SNPene ble oppgitt med hvor mange ganger (antall reads) hver av de to alleliske formene av SNPen forekom i hver av prøvene. For å gjøre videre resultater mer nøyaktige så utførte jeg et par filtreringer av dataene. Jeg fjernet alle SNPer fra datasettet som hadde et summert antall reads utenfor intervallet 100-499 i en eller flere av de tolv prøvene. Jeg fjernet også alle SNPer fra datasettet som hadde en «minor-allele-frequency» under 0.05 i en eller flere av de tolv prøvene. Replikatene som kom fra samme bestand ble så sammenlignet med hverandre, både med utregning av korrelasjon og ved PCA. Det var nesten like stor variasjon mellom replikater fra samme bestand som det var mellom bestandene. I samme PCA var også de andre prøvene med, og den første PCA-aksen forklarte 25% av variasjonen, og delte prøvene inn i ren-bestand og blandingsbestand. For å finne SNPer som hadde alleliske versjoner som forekom med forskjellig frekvens i ren-bestand og blandingsbestand så kalkulerte jeg FST ved å sammenligne allelfrekvensen i enkelt ren-bestander mot gjennomsnittet av frekvensen i blandingbestandene, og motsatt, for hver SNP. En CHI2 -test basert på FST-verdiene ble utført for å finne SNPer hvor de alleliske versjonene forekommer med signifikant forskjellig frekvens i ren-bestand og blandingsbestand. CHI2 -testen ble utført på p-nivå 0.1, 0.05 og 0.01. Dette resulterte i 9, 6 og null SNPer, i den rekkefølgen. Jeg forsøkte så å bekrefte resultatene i et annet plantemateriale. Resultatene som ble brukt videre var de for p-nivå 0.1. Dette ble gjort ved å utvikle CAPS-markører, som betyr at jeg tok i bruk restriksjonsenzymer for å skille forskjellige genotyper fra hverandre. Blader ble samlet inn fra etterkommerne etter populasjonene som ble sendt inn til BGI, samt etterkommerne til populasjoner fra noen andre ren-bestander og blandingsbestander. Forskjellen nå var at DNA ble ekstrahert fra enkeltindivider, ett individ er lik en prøve. Jeg prøvde å utvikle CAPSmarkører for fire av SNPene. Primere, og så restriksjonsenzymer, ble testet for sine evner til å skille alleler fra hverandre på en gel, noe som resulterte i at kun to forskjellige SNPer ble genotypet hos enkeltindividprøvene. Genotyping med CAPSmarkører viste en annen allelfrekvens enn hva den var i datasettet fra BGI. Det så ikke ut til å være noen forskjell mellom etterkommere fra ren-bestander og etterkommere fra blandingsbestander.	nb_NO
dc.language.iso	eng	nb_NO
dc.publisher	Norwegian University of Life Sciences, Ås	nb_NO
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.no	*
dc.title	Identification of red clover (Trifolium pratense L.) SNPs whose allelic versions appear with different frequency in pure stands and in mixtures with grasses, using GBS and CAPS-markers	nb_NO
dc.type	Master thesis	nb_NO
dc.description.localcode	M-BIOTEK	nb_NO

Tilhørende fil(er)

Filnavn:: VegardES_Masteroppgave.pdf
Størrelse:: 2.262Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Master’s theses (BioVit) [348]

Vis enkel innførsel

Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal