Comparison between gene expression and protein abundance in Populus tremula wood development
Master thesis
View/ Open
Date
2019Metadata
Show full item recordCollections
- Master's theses (KBM) [940]
Abstract
This thesis compares the gene expression and protein abundance across a series spanning the wood forming developmental stages in Populus tremula (common aspen): phloem, cambium and xylem. The comparison was based on two data sets provided by Obudulu et al. (2016) and Sundell et al. (2017).
Data treatments, such as moving average calculation, successfully elevated the subpar proteomics data set and improved its correlations with the transcriptomics data set.
Correlation coefficients were calculated between the two full data sets (full correlation), by gene and corresponding protein (row correlation) and by sample number in the series (correlation by sample). The full correlation yielded correlation coefficients ranging from 0.256 to 0.347 based on the extent of data treatments. The moving average treated summed isoform data correlated with the corresponding transcript yielded a correlation coefficient of 0.395. The correlation by sample suggested that there were more post-transcriptional regulations in samples in the phloem and the late xylem than in the other samples.
By comparing presence of molecules in the two data sets it was found that in 20% of the entries, both protein abundance and gene expression above 0 were found. In 3.3% of the entries, both protein abundance and gene expression were 0. In 76% of the entries, gene expression was above 0, while protein abundance was 0. In 0.18% of the entries, protein abundance was above 0, while the corresponding gene expression was 0. This indicated that protein abundance is strongly dependent on presence of gene expression. It was also shown that the likelihood of protein abundance in an entry increased significantly with increased levels of gene expression.
By superimposing the protein abundance series on the gene expression series for single genes, dynamics between the transcripts and the proteins were revealed. Most notably delays between transcription and translation between some proteins and genes and “translation on demand” relationship between some other proteins and genes.
GO enrichment analysis of proteins, which protein abundance series correlated well with their corresponding gene expression, was performed. The enrichment indicated that that many GO terms may be related to proteins that are easier to study with certain protein profiling methods. Denne masteroppgaven sammenligner genuttrykk og protein mengder i en serie som spenner over seksjoner i Populus tremula (osp) som danner ved: silvev, kambium og vedvev. Sammenligningen var basert på to artikler skrevet av Obudulu et al. (2016) og Sundell et al. (2017).
Data behandlinger, som for eksempel «moving average» beregning, forbedret det mangelfulle proteomikk datasettet og forbedret settets korrelasjon med transkriptomikk datasettet.
Korrelasjonskoeffisienter ble beregnet mellom de to hele datasettene («full correlation»), ut ifra gen og tilsvarende protein («row correlation») og ut ifra prøvenummer i tidsseriene («correlation by sample»). Korrelasjonen mellom de hele datasettene ga korrelasjonskoeffisienter imellom 0,256 og 0,347 basert på omfanget av databehandlinger. Korrelasjonen mellom det «moving average» behandlede datasettet summert ut ifra isoformer og den tilsvarende transkriptomikk datasettet var 0,395. Korrelasjonen basert på prøvenummer indikerte at det var flere post-transkripsjonelle reguleringer i prøvene i silvev og sent i vedvev enn i de andre prøvene.
Ved å sammenligne forekomst av molekyler i de to datasettene ble det funnet ut at i 20% av oppføringene ble det funnet både protein mengder og genekspresjon i verdier over 0. I 3,3% av oppføringene var både protein mengder og genuttrykk 0. I 76% av oppføringene var genuttrykk over 0 mens protein mengder var 0. I 0,18% av oppføringene var proteinmengden over 0 mens det tilsvarende gen ikke ble uttrykt. Dette indikerer at forekomst av proteinmengde er avhengig av forekomst av genuttrykk. Det ble også vist at sannsynligheten for forekomst av proteinmengder i en oppføring økte i betydelig grad med økt genuttrykk.
Ved å sammenligne proteinmengdeseriene med genuttrykksseriene for spesifikke gener, ble spesielle dynamikker mellom transkripsjon og protein tydeliggjort. Spesielt forsinkelse mellom transkripsjon og translasjon mellom noen proteiner og gener, og "translation on demand"-forhold mellom noen andre proteiner og gener.
“GO enrichment"-analyse av proteiner, som hadde proteinmengdeserie som korrelerte godt med deres tilsvarende genuttrykk, ble utført. Analysen indikerte at mange GO-termer kan være relatert til proteiner som er enklere å studere med proteinprofileringsmetoder brukt her
Description
Comparison of gene expression series and protein abundance series spanning the wood forming developmental stages in Populus tremula (common aspen): phloem, cambium and xylem. The comparison was based on two data sets provided by Obudulu et al. (2016) and Sundell et al. (2017). Methods used include correlation, heat mapping, clustering and GO-enrichment.