Vis enkel innførsel

dc.contributor.advisorSnipen, Lars
dc.contributor.advisorRudi, Knut
dc.contributor.authorDegnes, Maren-Helene Høie
dc.date.accessioned2019-09-03T10:57:09Z
dc.date.available2019-09-03T10:57:09Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2612240
dc.description.abstractAntibiotikaresistens spres mest effektivt mellom bakterier via konjugasjon, men konjugasjon forutsetter at bakteriene binder seg godt nok til hverandre. IncI1-plasmidet er et konjugativt plasmid og inneholder et område kalt shufflon som består av flere deler. Rekkefølgen på de ulike delene er med på å bestemme hvilke forbindelser bakterien kan binde seg til og dette er grunnen til at det er interessant å studere rekkefølgen av innholdet i shufflonet. De ulike delene er høyt konservert, men utfordringen er at rekkefølgen på delene varierer mellom bakterier fra samme kultur. Assemblering av parvise reads fra plasmider med ulike versjoner av shufflonet vil være utfordrende, fordi shufflon-sekvensen varierer mellom plasmidene. En annen utfordring ved assemblering er repeterte områder som blir utfordrende dersom det repeterte området er lengre enn fragmentlengden på fragmentene de parvise readene er sekvensert fra. For å studere disse to utfordringene gjøres en systematisk studie av simulerte reads fra 1) konstruerte plasmider med repetert område av ulike lengder og 2) konstruerte plasmider med hver sin utgave av shufflonet. Først simuleres korte parvise Illumina-read som assembleres med SPAdes-assembleren for å undersøke om utfordringene nevnt over faktisk gir problemer for assemblering. Deretter blir lange Nanopore-reads simulert og HybridSPAdes hybridassemblerer Illumina- og Nanopore-readene for å se i hvilken grad hybridassembly forbedrer assembly. I tillegg blir FLASH brukt til å lage forlengede reads av de delvis overlappende parvise readene. De forlengede readene skal vistnok forbedre assembly dersom disse blir brukt i tillegg til de parvise. MetaSPAdes som er beregnet for assemblering av metagenomer kjøres også. Etter simuleringen assembleres også reelle Illumina- og Nanopore-reads sekvensert fra Escherchia coli med shufflon-område. Resultatene fra simuleringen viser at assembly av kun korte parvise reads blir ufullstendig når repetert område er lengre enn fragmentlengde. Grunnen til dette er at assembleren utnytter at hvert par av de parvise readene har en gitt avstand til hverandre, og at enkelte par overlapper delvis. Dette er også grunnen til at forlengede reads ikke forbedrer assembly, men derimot kan gi assembly med mer feil, fordi FLASH gjør feil ved skjøting av readene. HybridSPAdes løste opp ufullstendige assemblyer av parvise reads fra det repeterte området, men ikke fra shufflonene. Både SPAdes, HybridSPAdes og MetaSPAdes ga ufullstendig assemblering der korte contiger besto kun av deler av shufflonet og de fullstendige sekvensene av alle shufflon-variantene ikke var mulig å finne. MetaSPAdes var assembleren som fungerte best på shufflon-readene, samtidig som den ga aller færrest contiger ved assemblering av de reelle readene. Grunnen til at MetaSPAdes fungerer godt på shufflon-readene kan være at de minner om et metagenom. Assemblering av de reelle readene ga heller ikke fullstendige sekvenser av shufflon-variantene. Det foreslås videre å bruke korte reads til å korrigere de lange dersom det kun er shufflon-sekvensen som er interessant.nb_NO
dc.description.abstractAntibiotic resistance is spread most efficient among bacterias through conjugation, but that requires sufficient binding between the bacterias. One type of conjugative plasmid called IncI1-plasmid contains a sequence called shufflon which consists of multiple parts. The parts' order in the shufflon decides which molecules the bacteria can bind. This makes it interesting to investigate these orders. The parts are highly conserved, but the challenge with the investigation is that the order of the parts varies between bacterias within the same culture. Assembly of reads from plasmids with different versions of the shufflon will be challenging because the shufflon will vary between all plasmids. Another challenge with assembling are repeated regions if they are longer than the length of the fragments the paired-end reads are sequenced from. To study these two challenges it was done a systematic study of simulated reads from 1) constructed plasmids containing repeated regions of different lengths and 2) constructed plasmids with different variant of the shufflon. First, short Illumina-reads were simulated and assembled by SPAdes to investigate if the challenges mentioned above really was challenging for the assembler. Then long Nanopore-reads were simulated and HybridSPAdes assembled both Illumina- and Nanopore-reads to investigate if hybridassembly improves assembly. In addition the FLASH-software link partly overlapping paired-end reads prior to assembling. The assembler used these linked reads along with R1- and R2-reads to improve the assembly. MetaSPAdes was also runned on the simulated reads. After the simulation real Illumina- and Nanopore-reads from sequenced Escherichia coli with shufflon were also assembled. The results show that assembly of only short Illumina-reads are challenging when the repeated region is longer than fragment length. The reason for this is the assembler utilizes that each pair of paired reads have a fixed distance from each other and that some paired reads partly overlaps. This is also the reason why linked reads from FLASH doesn't improve assemblies. However, the linked reads can give assembly with more errors, due to mistakes done by FLASH during linking. HybridSPAdes solved the challenged assembly of reads from repeated regions, but not from the shufflons. Both SPAdes, HybridSPAdes and MetaSPAdes gave uncomplete assemblies where the short contigs consists of parts of the shufflon, and it was not possible to detect all the shufflon-variants. MetaSPAdes was the best working assembler on the shufflon-data, and it also gave least contigs with the real reads. The reason MetaSPAdes worked best is possibly because shufflon-data and the real data are somewhat simulair to a metagenome. Assembly of the real reads did not either give the complete sequences of the shufflon variants. It is further suggested to use short reads to correct the long reads if the sequences of the shufflons is the only focus.nb_NO
dc.language.isonobnb_NO
dc.publisherNorwegian University of Life Sciences, Åsnb_NO
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internasjonal*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.no*
dc.titleEffekt av hybridassembly på genomer med shuffloner og repeterte områdernb_NO
dc.title.alternativeThe effect of hybrid assembly on genomes with shufflons and repetitive regionsnb_NO
dc.typeMaster thesisnb_NO
dc.description.localcodeM-BIASnb_NO


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel

Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal
Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal