Predicting patient outcome using radioclinical features selected with RENT for patients with colorectal cancer

Engesæth, Lars Jetmund Svartis

dc.contributor.advisor	Tomic, Oliver
dc.contributor.advisor	Futsæther, Cecilia Marie
dc.contributor.author	Engesæth, Lars Jetmund Svartis
dc.date.accessioned	2022-12-06T10:24:15Z
dc.date.available	2022-12-06T10:24:15Z
dc.date.issued	2022
dc.identifier.uri	https://hdl.handle.net/11250/3036071
dc.description.abstract	Colorectal cancer remains a problem in medicine, costing countless lives each year. The growing amount of data available about these patients have piqued the interest of researchers, as they try to use machine learning to aid diagnosis, decision making, and treatment for these patients. Unfortunately, as the data sets grow, the risk of creating unstable and non-generalizable models increase. The research in this thesis has aimed at investigating how to implement a novel technique called RENT (Repeated Elastic Net Technique) for feature selection. The predictive problem was a binary classification problem on colorectal cancer patients to predict overall survival. The analysis applied repeated stratified k-fold cross-validation with four folds and five repeats to reduce the risk of random subsets causing non-generalizable results. Further, the analysis created 25 000 different RENT models to search through the hyperparameters to find high performance parameter combinations. Each of the 25 000 models were trained with six different Random Forest [RF] hyperparameter combinations and twelve logistic regression hyperparameter combinations, resulting in 450 000 different models. A high performing group of models was collected for one unique combination of hyperparameters. These models had the highest average test performance: accuracy 0.76 ± 0.07, MCC 0.47 ± 0.16, F1 positive class 0.57 ± 0.13, F1 negative class 0.83 ± 0.05, and AUC 0.69 ± 0.08. The results have also shown that the generalization error is lower for a RENT based RF model than non-RENT based RF model. The RENT analysis revealed that patients that died was overrepresented in a group of patients that were the most frequently predicted incorrectly. Finally, the RENT analysis has resulted in a distribution of features that were most frequently selected for high predictive ability. Most of the clinical features in this group has previously been reported as relevant by medical literature. The research and the corresponding framework show promising results to implement a brute-force approach to the RENT analysis, to ensure low generalization error and predictive interpretability. Further research with this framework can support medicine in validating feature importance for patient outcome. The framework could also prove useful in other research fields than medicine, given predictive problems with similar challenges.	en_US
dc.description.abstract	Tykktarmskreft er fortsatt et problem innen medisin, og koster utallige liv hvert år. Den økende mengden data som er tilgjengelig om disse pasientene har vekket interessen til forskerne, der flere prøver å bruke maskinlæring for å hjelpe diagnostisering, beslutningstaking og behandling for disse pasientene. Dessverre, ettersom datasettene vokser, øker også risikoen for å lage ustabile og ikke-generaliserbare modeller. Forskningen i denne oppgaven har tatt sikte på å undersøke hvordan man implementerer en ny teknikk kalt RENT (Repeated Elastic Net Technique) for variabel seleksjon. Det prediktive problemet var et binært klassifiseringsproblem på pasienter med tykk- og endetarmskreft for å forutsi samlet overlevelse. Analysen brukte gjentatt stratifisert k-foldet kryssvalidering med fire folder og fem repetisjoner for å redusere risikoen for at tilfeldige undergrupper av data fører til ikke-generaliserbare resultater. Videre beregnet analysen 25 000 forskjellige RENT-modeller for å søke gjennom hyperparametrene for å finne høyytelsesparameterkombinasjoner. Hver av de 25 000 modellene ble trent med seks forskjellige hyperparameterkombinasjoner for Random Forest [RF] og tolv hyperparameterkombinasjoner for logistisk regresjons, noe som resulterte i totalt 450 000 forskjellige modeller. En høytytende gruppe modeller ble samlet inn for én unik kombinasjon av hyperparametre. Disse modellene hadde den høyeste gjennomsnittlige testytelsen: «accuracy» 0,76 ± 0,07, MCC 0,47 ± 0,16, F1 positiv klasse 0,57 ± 0,13, F1 negativ klasse 0,83 ± 0,05 og AUC 0,69 ± 0,08. Resultatene har også vist at generaliseringsfeilen er lavere for en RENT-basert RF-modell enn ikke-RENT-basert RF-modell. RENT-analysen avdekket at pasienter som døde var overrepresentert i en pasientgruppe som oftest ble predikert feil. Til slutt har RENT-analysen resultert i en fordeling av variabler som oftest ble valgt for høy prediksjonsevne. De fleste av de kliniske trekkene i denne gruppen er tidligere rapportert som relevante av medisinsk litteratur. Forskningen og det tilhørende rammeverket viser lovende resultater for å implementere en brute-force-tilnærming til RENT-analysen, for å sikre lav generaliseringsfeil og prediktiv tolkbarhet. Ytterligere forskning med dette rammeverket kan bistå medisin i å validere variablers betydning for pasienters prognose. Rammeverket kan også vise seg nyttig innenfor andre forskningsfelt enn medisin, gitt prediktive problemer med lignende utfordringer.	en_US
dc.language.iso	eng	en_US
dc.publisher	Norwegian University of Life Sciences, Ås	en_US
dc.rights	Navngivelse 4.0 Internasjonal	*
dc.rights	Navngivelse 4.0 Internasjonal	*
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/deed.no	*
dc.subject	RENT	en_US
dc.subject	Colorectal Cancer	en_US
dc.subject	Machine Learning	en_US
dc.subject	Feature Selection	en_US
dc.title	Predicting patient outcome using radioclinical features selected with RENT for patients with colorectal cancer	en_US
dc.type	Master thesis	en_US
dc.subject.nsi	VDP::Mathematics and natural science: 400	en_US
dc.subject.nsi	VDP::Technology: 500	en_US
dc.description.localcode	M-DV	en_US

Tilhørende fil(er)

Filnavn:: Engesaeth2022_merged.pdf
Størrelse:: 1.575Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Master's theses (RealTek) [1722]

Vis enkel innførsel

Med mindre annet er angitt, så er denne innførselen lisensiert som Navngivelse 4.0 Internasjonal