Vis enkel innførsel

dc.contributor.advisorRobert, Philippe
dc.contributor.advisorGreiff, Victor
dc.contributor.advisorSnipen, Lars Gustav
dc.contributor.advisorAkbar, Rahmad
dc.contributor.authorMathisen, Ingvild Frøberg
dc.date.accessioned2022-12-21T11:47:51Z
dc.date.available2022-12-21T11:47:51Z
dc.date.issued2022
dc.identifier.urihttps://hdl.handle.net/11250/3039018
dc.description.abstractAntibodies are of great importance as therapeutics and a prerequisite for their success is high specificity to a desired target. Some antibodies however, termed polyreactive, are able to recognize and react to a diverse range of antigens. Therapeutic antibodies have been successful in the treatment of cancers, autoimmune conditions as well as infectious diseases. The process of developing a new treatment requires a lot of resources and time. Many candidates are not approved following clinical trials, one of the negative indicators of success is polyreactivity. In silico methods that predict polyreactivity can aid in prioritizing good candidates for further development. In this work we benchmarked machine learning approaches for predicting polyreactivity, using data from the simulation framework Absolut!, with various combinations of sequence encodings and machine learning architectures. We found that polyreactivity could be predicted with close to 90% macro f1 using logistic-regression and amino acid composition. Marginal but significant improvements in macro f1 score were obtained by inclusion of positional information using logistic regression and feed-forward neural network with one hidden layer was able to achieve macro f1 of ~93%. The best logistic regression model and neural network were able to generalize to sequences that were more than 50% different to the sequences used for training the model. Further we looked into interpretability of the models and size of possible sequence motifs, suggesting that short motifs can be predictive of polyreactivity. Our results demonstrate how different approaches compare in predicting polyreactivity given large amounts of data and information on the CDRH3 sequence. As of now, experimental (in vitro) datasets containing information on polyreactivity have been limited in size. Larger datasets are being produced and in the future, we anticipate that our findings will be relevant for guiding the development of machine learning models for predicting polyreactivity.en_US
dc.description.abstractAntistoffer er av stor betydning som legemidler og en forutsetning for at de skal lykkes er høy spesifisitet til et ønsket mål. Noen antistoffer, kalt polyreaktive antistoffer, er imidlertid i stand til å gjenkjenne og reagere på flere ulike antigener. Terapeutiske antistoffer har hatt stor suksess i behandling av kreft, autoimmune sykdommer, så vel som infeksjonssykdommer. Prosessen med å utvikle en ny antistoffbehandling krever imidlertid mye ressurser og tid. Mange kandidater blir ikke godkjent etter kliniske studier og polyreaktivitet kan være en av årsakene til dette. In silico metoder som predikerer polyreaktivitet kan hjelpe til med å prioritere kandidater med større sannsynlighet for å lykkes. I dette arbeidet har vi sammenlignet maskinlærings metoder med varierende måter å fremstille sekvensdata og arkitektur for å forutsi polyreaktivitet ved hjelp av data fra en antistoff-antigen bindings simulator kalt Absolut!. Vi fant at polyreaktivitet kunne forutsies med nær 90% makro f1 score ved bruk av logistisk regresjon og aminosyresammensetning alene. Marginal men signifikant økning i f1 score ble registret når informasjon om aminosyrenes posisjon var inkludert ved bruk av logistisk regresjon. Nevrale nettverk var i stand til å oppnå makro f1 på ~93%. Den logistiske regresjonsmodellen og det beste nevrale nettverket var i stand til å generalisere til sekvenser som var mer enn 50 % forskjellige fra sekvensene som ble brukt for trening av modellen. Videre så vi på tolkbarhet av modellene og størrelsen på eventuelle sekvens motiver, og fant at korte motiver kan være prediktive for polyreaktivitet. Resultatene våre viser hvordan forskjellige tilnærminger sammenlignes for å forutsi polyreaktivitet gitt store mengder data og informasjon om CDRH3-sekvensen. Tidligere har de fleste eksperimentelle (in vitro) datasett brukt til å etterforske polyreaktivitet vært av begrenset størrelse. Det produseres nå større datasett og i fremtiden regner vi med at funnene våre vil være relevante for styre utvikling av maskinlæringsmodeller for å forutsi polyreaktivitet.en_US
dc.language.isoengen_US
dc.publisherNorwegian University of Life Sciences, Åsen_US
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internasjonal*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.no*
dc.titleBenchmarking of sequence-based machine learning methods for prediction of antibody polyreactivityen_US
dc.typeMaster thesisen_US
dc.description.localcodeM-BIASen_US


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel

Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal
Med mindre annet er angitt, så er denne innførselen lisensiert som Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal