Vis enkel innførsel

dc.contributor.advisorSnipen, Lars-Gustav
dc.contributor.advisorBohlin, Jon
dc.contributor.advisorBrynildsrud, Ola
dc.contributor.advisorKnudsen, Per Kristian
dc.contributor.authorLiland, Jens Rasmus
dc.date.accessioned2019-12-18T09:17:23Z
dc.date.available2019-12-18T09:17:23Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2633830
dc.descriptionHas code appendix in open Github repository: https://github.com/jenslila/liland2019masternb_NO
dc.description.abstractThe aim of this project was to investigate to what extent some machine learning methods are able to classify chromosome reads from plasmid reads based on K-mer statistics. Both short Illumina HiSeq 2500 reads and medium-length Nanopore reads were simulated in silico from fully assembled E.coli chromosome and plasmid sequences. Both canonical and non-canonical K-mers were counted on all categories of sequence lengths. Working with in silico simulation data like this is different to a real-world experiment in that sequencing simulators like ART has arbitrary categorical simulation statistics, e.g. boolean presence of sequencing error, which were adjusted to find optimal combinations. K-mer methods worked great for fully assembled genome sequences, in terms of binary classification accuracy, decreasing substantually to 61 % for the Illumina sequences, while maintaining a fairly high level at 87 % for the Nanopore sequences. Wrongly classified reads mainly gets classified as plasmids. A 37X increase in sequence length leads to a 42 % increase in accuracy.nb_NO
dc.description.abstractMålet med prosjektet var å undersøke i hvilken grad visse maskinlærings-metoder vil kunne klassifisere kromosom-reads fra plasmid-reads, basert på K-mer statistikk. Både korte Illumina HiSeq 2500 reads, og mellomlange Nanopore reads ble simulert in silico fra komplett assemblerte E.coli kromosom- og plasmid-sekvenser. Både kanoniske og ikke-kanoniske K-merer ble talt for alle kategorier av sekvenslengder. Det å arbeide med in silico simulaterte data som disse er ulikt fra ikke-simulerte data ved at sekvens-simulatorer som ART har arbitrære, kategoriske simuleringsstatistikker, f.eks. boolsk tilstedeværelse av sekvenserings-feil, som ble justert for å finne optimale kombinasjoner. K-mer metoder fungerte veldig bra for fullstendig assemblerte genom-sekvenser, med hensyn til binær klassifikasjons-nøyaktighet, substansielt minkende til 61 % for Illumina-sekvensene, men opprettholder en temmelig nøyaktighet på 87 % for Nanopore-sekvensene. Feilklassifiserte reads men opprettholder en temmelig nøyaktighet på 87 % for Nanopore-sekvensene. Feilklassifiserte reads blir hovedsakelig klassifisert som plasmider. En 37X økning i sekvenslengde fører til en 42 % økning i nøyaktighet.nb_NO
dc.language.isoengnb_NO
dc.publisherNorwegian University of Life Sciences, Åsnb_NO
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internasjonal*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.no*
dc.subjectEscherichia colinb_NO
dc.subjectNCBInb_NO
dc.subjectIlluminanb_NO
dc.subjectOxford Nanoporenb_NO
dc.subjectARTnb_NO
dc.subjectDeepSimulatornb_NO
dc.subjectANOVAnb_NO
dc.subjectK-nearest neighbour classificatornb_NO
dc.subjectRandom Forest classificatornb_NO
dc.subjectR programming languagenb_NO
dc.subjectPython programming languagenb_NO
dc.subjectPrincipal Component Analysisnb_NO
dc.subjectK-mer frequenciesnb_NO
dc.subjectClassificationnb_NO
dc.subjectPlasmidsnb_NO
dc.subjectChromosomesnb_NO
dc.subjectCanonical K-mersnb_NO
dc.subjectPandasnb_NO
dc.titleRecognizing plasmid-reads by machine learning and K-mer statisticsnb_NO
dc.typeMaster thesisnb_NO
dc.description.versionsubmittedVersionnb_NO
dc.subject.nsiVDP::Mathematics and natural science: 400::Basic biosciences: 470::Bioinformatics: 475nb_NO
dc.source.pagenumber52nb_NO
dc.description.localcodeM-KBnb_NO


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel

Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal
Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal