CutAndTagAnalyzer - A New Python Package for CUT&Tag Data Analysis
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3094567Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
- Master's theses (KBM) [944]
Sammendrag
Helt siden oppfinnelsen av neste generasjons sekvensering har nye metoder for å forstå genuttrykk og kontroll gjennom epigenetiske merker blitt langet. Blant disse har Cut&Tag- analyse vist seg å bli en effektiv epigenetisk profileringsteknikk med høy sensitivitet, lave bakgrunnsverdier, som er kompatibel med små prøvemengder. Selv om våtlabstekknikene er på plass, kan analyse av CUT&Tag data skape problemer for forskere med mindre programmeringserfaringer. Derfor presenterer denne masteroppgaven en ny Python-pakke som forenkler datanalysen av CUT&Tag-data, noe som resulterer i raskere og enklere analyse, slik at flere forskere kan utnytte teknikken. Pipeline-pakken er basert på det originale CUT&Tag- innovasjonsteamests datanalyseprotokoll og inkluderer alle nødvendige trinn fra kvalitetskontroll til annotering og differensialanalyse. Under en testkjøring gjenskapte den nyopprettede pipelinen plottene fra den opprinnelige protokollen, fikset en feil i reprodduserbarhetsvurdering og opprettet nye plot samt filer fra tilleggs funksjonen; annotering og differensialanalyse, som ikke var en del av den opprinnelige protokollen. I tillegg viste funksjonsannoterings analyse av annoterte gener, at prediksjonene var i samsvar med gjeldende litteratur om histon modifikasjonene som var målene i eksperimentet. Ever since the invention of next-generation sequencing, new methods for understanding gene expression and control through epigenetics marks have been created. Among these, CUT&Tag analysis has emerged to become an efficient epigenomic profiling technique with low input requirements, high sensitivity, and lower background signals. Even though the wet-lab techniques are in place, analyzing the data is still a challenge for scientists with less computational skills, such as biologists. Therefore, this master’s thesis presents a new Python package that not only simplifies the data analysis of CUT&Tag sequencing but also allows biomedical scientists to easily interpret the results. The new pipeline package is based on the original CUT&Tag innovation team ́s data analysis protocol. It includes every step necessary from quality control to annotation and differential peak analysis. The package also fixed a few bugs, (e.g., reproducibility assessment) from the original protocol, and added new visualization plots, and features like genome annotation and differential peak analysis. In a demonstration run on a real CUT&Tag data set, the new package successfully recreated the plots from the original study. Additionally, function annotation analysis on annotated genes revealed predictions supporting current literature on the target proteins.