Vis enkel innførsel

dc.contributor.advisorTomic, Oliver
dc.contributor.advisorFutsæther, Cecilia Marie
dc.contributor.authorEngesæth, Lars Jetmund Svartis
dc.date.accessioned2022-12-06T10:24:15Z
dc.date.available2022-12-06T10:24:15Z
dc.date.issued2022
dc.identifier.urihttps://hdl.handle.net/11250/3036071
dc.description.abstractColorectal cancer remains a problem in medicine, costing countless lives each year. The growing amount of data available about these patients have piqued the interest of researchers, as they try to use machine learning to aid diagnosis, decision making, and treatment for these patients. Unfortunately, as the data sets grow, the risk of creating unstable and non-generalizable models increase. The research in this thesis has aimed at investigating how to implement a novel technique called RENT (Repeated Elastic Net Technique) for feature selection. The predictive problem was a binary classification problem on colorectal cancer patients to predict overall survival. The analysis applied repeated stratified k-fold cross-validation with four folds and five repeats to reduce the risk of random subsets causing non-generalizable results. Further, the analysis created 25 000 different RENT models to search through the hyperparameters to find high performance parameter combinations. Each of the 25 000 models were trained with six different Random Forest [RF] hyperparameter combinations and twelve logistic regression hyperparameter combinations, resulting in 450 000 different models. A high performing group of models was collected for one unique combination of hyperparameters. These models had the highest average test performance: accuracy 0.76 ± 0.07, MCC 0.47 ± 0.16, F1 positive class 0.57 ± 0.13, F1 negative class 0.83 ± 0.05, and AUC 0.69 ± 0.08. The results have also shown that the generalization error is lower for a RENT based RF model than non-RENT based RF model. The RENT analysis revealed that patients that died was overrepresented in a group of patients that were the most frequently predicted incorrectly. Finally, the RENT analysis has resulted in a distribution of features that were most frequently selected for high predictive ability. Most of the clinical features in this group has previously been reported as relevant by medical literature. The research and the corresponding framework show promising results to implement a brute-force approach to the RENT analysis, to ensure low generalization error and predictive interpretability. Further research with this framework can support medicine in validating feature importance for patient outcome. The framework could also prove useful in other research fields than medicine, given predictive problems with similar challenges.en_US
dc.description.abstractTykktarmskreft er fortsatt et problem innen medisin, og koster utallige liv hvert år. Den økende mengden data som er tilgjengelig om disse pasientene har vekket interessen til forskerne, der flere prøver å bruke maskinlæring for å hjelpe diagnostisering, beslutningstaking og behandling for disse pasientene. Dessverre, ettersom datasettene vokser, øker også risikoen for å lage ustabile og ikke-generaliserbare modeller. Forskningen i denne oppgaven har tatt sikte på å undersøke hvordan man implementerer en ny teknikk kalt RENT (Repeated Elastic Net Technique) for variabel seleksjon. Det prediktive problemet var et binært klassifiseringsproblem på pasienter med tykk- og endetarmskreft for å forutsi samlet overlevelse. Analysen brukte gjentatt stratifisert k-foldet kryssvalidering med fire folder og fem repetisjoner for å redusere risikoen for at tilfeldige undergrupper av data fører til ikke-generaliserbare resultater. Videre beregnet analysen 25 000 forskjellige RENT-modeller for å søke gjennom hyperparametrene for å finne høyytelsesparameterkombinasjoner. Hver av de 25 000 modellene ble trent med seks forskjellige hyperparameterkombinasjoner for Random Forest [RF] og tolv hyperparameterkombinasjoner for logistisk regresjons, noe som resulterte i totalt 450 000 forskjellige modeller. En høytytende gruppe modeller ble samlet inn for én unik kombinasjon av hyperparametre. Disse modellene hadde den høyeste gjennomsnittlige testytelsen: «accuracy» 0,76 ± 0,07, MCC 0,47 ± 0,16, F1 positiv klasse 0,57 ± 0,13, F1 negativ klasse 0,83 ± 0,05 og AUC 0,69 ± 0,08. Resultatene har også vist at generaliseringsfeilen er lavere for en RENT-basert RF-modell enn ikke-RENT-basert RF-modell. RENT-analysen avdekket at pasienter som døde var overrepresentert i en pasientgruppe som oftest ble predikert feil. Til slutt har RENT-analysen resultert i en fordeling av variabler som oftest ble valgt for høy prediksjonsevne. De fleste av de kliniske trekkene i denne gruppen er tidligere rapportert som relevante av medisinsk litteratur. Forskningen og det tilhørende rammeverket viser lovende resultater for å implementere en brute-force-tilnærming til RENT-analysen, for å sikre lav generaliseringsfeil og prediktiv tolkbarhet. Ytterligere forskning med dette rammeverket kan bistå medisin i å validere variablers betydning for pasienters prognose. Rammeverket kan også vise seg nyttig innenfor andre forskningsfelt enn medisin, gitt prediktive problemer med lignende utfordringer.en_US
dc.language.isoengen_US
dc.publisherNorwegian University of Life Sciences, Åsen_US
dc.rightsNavngivelse 4.0 Internasjonal*
dc.rightsNavngivelse 4.0 Internasjonal*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/deed.no*
dc.subjectRENTen_US
dc.subjectColorectal Canceren_US
dc.subjectMachine Learningen_US
dc.subjectFeature Selectionen_US
dc.titlePredicting patient outcome using radioclinical features selected with RENT for patients with colorectal canceren_US
dc.typeMaster thesisen_US
dc.subject.nsiVDP::Mathematics and natural science: 400en_US
dc.subject.nsiVDP::Technology: 500en_US
dc.description.localcodeM-DVen_US


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel

Navngivelse 4.0 Internasjonal
Med mindre annet er angitt, så er denne innførselen lisensiert som Navngivelse 4.0 Internasjonal