Deteksjon av ekstremverdier i helsedata ved bruk av ekstremverdideteksjonsensembler
Abstract
En ekstremverdi er definert som en observasjon som avviker betydelig fra andre observasjoner i samme mengde med observasjoner. Ekstremverdideteksjon er prosessen av å identifisere potensielle ekstremverdier i datasett. I virkelige sammenhenger er det sjeldent tilgang på informasjon om hvilke observasjoner som faktisk er en ekstremverdi. Dette medfører at evaluering av ytelsen til ekstremverdideteksjonsalgoritmer er utfordrende.
Det har blitt vist gjennom litteraturen at det å identifisere og behandle ekstremverdier har gitt positiv effekt på ytelsen til klassifiseringsalgoritmer innen maskinlæring. Positive effekter knyttet til ytelsen av klassifiseringsalgoritmer har stor betydning innen helsesektoren. Helsesektoren har store kostnader tilknyttet feilbehandling og feildiagnostisering av pasienter. Det å benytte maskinlæring og klassifiseringsalgoritmer vil potensielt kunne bidra helsesektoren med kostnadsbesparelser knyttet til de sistnevnte problemene. En kritisk forskjell mellom helsesektoren og andre sektorer er at menneskelige pasienter står sentralt. Det er derfor viktig å kunne utvikle klassifiseringsmodeller som har høy pålitelighet og nøyaktighet. Nøyaktig identifisering av ekstremverdier vil bidra med nettopp dette.
På bakgrunn av dette har prosjektet tatt en dypere analyse innen ekstremverdideteksjon på datasett innen helsesektoren. Dette ble gjort ved å analysere bruk av ekstremverdideteksjonsensembler. Ved å anvende nylige foreslåtte teknikker fra litteraturen blir det i prosjektet konstruert nye heterogene ekstremverdideteksjonsensembler.
Disse konstruerte ekstremverdideteksjonsensemblenes ytelse blir kartlagt og analysert ved å bruke datasett fra litteraturen. Disse datasettene er alle innenfor helsesektoren, og inneholder merking av observasjonene som er faktiske ekstremverdier. I og med at datasett sjeldent inneholder informasjon om ekstremverdier vil det være vanskelig å evaluere ytelsen, men de sistnevnte datasettene åpner opp for å kunne gjøre nettopp dette.
For å analysere effekten de konstruerte ekstremverdideteksjonsensemblene har på klassifiseringsalgoritmers ytelse blir det benyttet to helsedatasett fra Oslo universitetssykehus. Det første datasettet består av pasienter som er diagnostisert med hode- og halskreft, og det andre datasettet består av pasienter som er diagnostisert med kolorektalkreft. Tidligere masteroppgaver har utarbeidet prosedyrer som klargjør datasettene for videre analyse. Klassifiseringsalgoritmer blir trent på disse datasettene, og ytelsen av klassifiseringsalgoritmene blir målt. Deretter anvendes de foreslåtte ekstremverdideteksjonsensemblene for å fjerne potensielle ekstremverdier fra datasettene. Klassifiseringsalgoritmene blir videre trent og ytelsen blir målt på nytt. Forskjellen i ytelse før og etter fjerning av ekstremverdier blir analysert for hver av de foreslåtte ekstremverdideteksjonsensemblene.
Ved å kombinere resultatet fra evalueringen av klassifiseringsalgoritmene og evalueringen av ekstremverdideteksjonsensemblene velges det ut en ensemble med mest lovende resultat. Denne prosessen tar også i betraktning ytelsen til en eksisterende anerkjent ekstremverdideteksjonsensemble som heter IForest. Dette for å kunne evaluere ytelsen av foreslåtte ensemblene fra prosjektet i forhold til eksisterende ensembler.
Resultatet for en av de utvalgte ekstremverdideteksjonsensemblene viste lovende ytelse på identifisering av ekstremverdier. Videre viste resultatene at fjerning av de identifiserte ekstremverdiene gjorde den gjennomsnittlige ytelsen av klassifiseringsalgoritmene lavere for kolorektalkreft datasettet, men høyere for hode- og halskreft datasettet. An outlier is defined as an observation that significantly deviates from other observations in the same set. Outlier detection is the process of identifying potential outliers in datasets. In real-world contexts, information about which observations are actual outliers is often unavailable, making the evaluation of outlier detection algorithms challenging.
Literature has shown that identifying and treating outliers positively impacts the performance of machine learning classification algorithms. This impact is particularly significant in the healthcare sector, where there are substantial costs associated with misdiagnosis and mistreatment of patients. Utilizing machine learning and classification algorithms could potentially help the healthcare sector save costs related to these issues. A critical difference in the healthcare sector compared to others is the central role of human patients, underscoring the importance of developing highly reliable and accurate classification models. Accurate outlier identification contributes to this.
Against this backdrop, the project conducted an in-depth analysis of outlier detection in healthcare datasets. This was done by analyzing the use of outlier detection ensembles. Applying recent techniques from the literature, new heterogeneous outlier detection ensembles were constructed.
The performance of these constructed outlier detection ensembles was mapped and analyzed using datasets from the literature, all within the healthcare sector, containing markings of actual outliers. Since datasets rarely include outlier information, evaluating performance is challenging, but these particular datasets allow for such evaluation.
To analyze the effect of the constructed outlier detection ensembles on the performance of classification algorithms, two health datasets from Oslo University Hospital were used. The first dataset consists of patients diagnosed with head and neck cancer, and the second dataset includes patients with colorectal cancer. Previous master's theses have developed procedures for preparing these datasets for further analysis. Classification algorithms were trained on these datasets, and their performance was measured. Then, the proposed outlier detection ensembles were applied to remove potential outliers from the datasets. The classification algorithms were retrained, and their performance remeasured. The difference in performance before and after the removal of outliers was analyzed for each of the proposed outlier detection ensembles.
By combining the results of the classification algorithm evaluations and the outlier detection ensemble evaluations, an ensemble with the most promising results was selected. This process also considered the performance of an existing, recognized outlier detection ensemble called IForest, to evaluate the project's proposed ensembles against existing ones.
The results for one of the selected outlier detection ensembles showed promising performance in identifying outliers. Furthermore, the results indicated that removing the identified outliers lowered the average performance of the classification algorithms for the colorectal cancer dataset but increased it for the head and neck cancer dataset.