Recognizing plasmid-reads by machine learning and K-mer statistics
Master thesis
Submitted version
View/ Open
Date
2019Metadata
Show full item recordCollections
- Master's theses (KBM) [930]
Abstract
The aim of this project was to investigate to what extent some machine learning methods are able to classify chromosome reads from plasmid reads based on K-mer statistics. Both short Illumina HiSeq 2500 reads and medium-length Nanopore reads were simulated in silico from fully assembled E.coli chromosome and plasmid sequences. Both canonical and non-canonical K-mers were counted on all categories of sequence lengths. Working with in silico simulation data like this is different to a real-world experiment in that sequencing simulators like ART has arbitrary categorical simulation statistics, e.g. boolean presence of sequencing error, which were adjusted to find optimal combinations. K-mer methods worked great for fully assembled genome sequences, in terms of binary classification accuracy, decreasing substantually to 61 % for the Illumina sequences, while maintaining a fairly high level at 87 % for the Nanopore sequences. Wrongly classified reads mainly gets classified as plasmids. A 37X increase in sequence length leads to a 42 % increase in accuracy. Målet med prosjektet var å undersøke i hvilken grad visse maskinlærings-metoder vil kunne klassifisere kromosom-reads fra plasmid-reads, basert på K-mer statistikk. Både korte Illumina HiSeq 2500 reads, og mellomlange Nanopore reads ble simulert in silico fra komplett assemblerte E.coli kromosom- og plasmid-sekvenser. Både kanoniske og ikke-kanoniske K-merer ble talt for alle kategorier av sekvenslengder. Det å arbeide med in silico simulaterte data som disse er ulikt fra ikke-simulerte data ved at sekvens-simulatorer som ART har arbitrære, kategoriske simuleringsstatistikker, f.eks. boolsk tilstedeværelse av sekvenserings-feil, som ble justert for å finne optimale kombinasjoner. K-mer metoder fungerte veldig bra for fullstendig assemblerte genom-sekvenser, med hensyn til binær klassifikasjons-nøyaktighet, substansielt minkende til 61 % for Illumina-sekvensene, men opprettholder en temmelig nøyaktighet på 87 % for Nanopore-sekvensene. Feilklassifiserte reads men opprettholder en temmelig nøyaktighet på 87 % for Nanopore-sekvensene. Feilklassifiserte reads blir hovedsakelig klassifisert som plasmider. En 37X økning i sekvenslengde fører til en 42 % økning i nøyaktighet.
Description
Has code appendix in open Github repository: https://github.com/jenslila/liland2019master