Anvendelser av Tikhonov-regularisering på regresjon og klassifikasjon med rask «leave one out» kryssvalidering

Ansnes, Martin Seland

Ansnes, Martin Seland

Master thesis

Åpne

PDF av oppgaven (4.593Mb)

script_ansnes_brage.zip (18.46Mb)

Permanent lenke

http://hdl.handle.net/11250/2402472

Utgivelsesdato

2016-08-29

Metadata

Vis full innførsel

Samlinger

Master's theses (RealTek) [1724]

Sammendrag

I denne oppgaven har jeg sett på Tikhonov-regulasisering av regresjons- og klassifikasjonsproblemer og sammeliknet egne og veileders Matlab-script med andre regresjonsog klassifikasjonsmetoder med hensyn på tidsbruk og antatt prediksjonsevne.

Tikhonov-regularisert regresjon kan betraktes som vanlige minste kvadraters problemer, og teori herfra fungerer også for Tikhonov-regresjon. Særlig gjelder dette muligheten for å gjøre rask «leave one out» kryssvalidering: kryssvalidering uten å bygge modellen på nytt for hver utelatte måling. Sammenliknet med PLSR og PCR går funksjonene for Tikonov-regresjon svært mye raskere når man gjør «leave one out» kryssvalidering for alle datasettene jeg har analysert. Den antatte prediskjonsevnen ser også lovende ut, både PRESS-verdier og evne til å predikere test-data ser ut til å kunne konkurrere med PLSR og PCR for data med flere variable enn målinger.

Tikhonov-regularisert klassifikasjon ser også ut til å kunne konkurrere med konvensjonelle klassifikasjonsmetoder. Det viser seg at man kan gjøre rask «leave one out» kryssvalidering også for Tikhonov-regularisert lineær diskriminantanalyse, i tillegg til der man behandler klassifiseringen som et regresjonsproblem. Når man gjør «leave one out» kryssvalidering går både regularisert LDA og klassifisering ved hjelp av Tikhonov-regresjon raskere enn PLSR. Uten kryssvalidering går PLSR raskere enn enn regularisert LDA. Dette har jeg kun forsøkt for store datamengder i forbindelse med bildeanalyse, men her ser det ut til at en modifisert utgave av Tikhonov-regresjon predikerer best. Denne går også vesentlig raskere enn PLS-DA. Generelt ser det ut til at Tikhonov-regularisering kan konkurrere med mer konvensjonelle metoder for klassifisering både på tid og prediksjonsevne.

In this thesis I have investigated Tikhonov regularization on regression and classification problems and compared my own and my supervisor’s Matlab scripts with other methods with regards to time spent and prediction ability.

Tikhonov regularized regression can be treated as ordinary least squares problems, the theory from which can also be applied to Tikhonov regression, and in particular the method for doing fast «leave one out» cross-validation: cross-vaildation where without constructing the model anew for each omitted data point. Compared with PLSR and PCR the functions for Tikhonov regression run much faster when doing «leave one out» cross-validation for all the data I have analyzed. The apparent prediction ability also look promising, both PRESS values and the ability to predict test data seem to compete well with PLSR and PCR for data with more variables than data points.

Tikhonov regularized classification also seems to be able to compete with more conventional methods of classification. It turns out that it is possible to do fast «leave one out» cross-validation also for Tikhonov regularized linear discriminant analysis, in addition to the method where the classification is treated as a regression problem. When doing «leave one out» cross-validation, both regularized LDA end classification done by Tikhonov regression go faster than PLSR. When not doing cross-validation, PLSR is faster than regularized LDA. I have done this type of analysis for large datasets when doing image classification, but here it semms that a modified version of Tikhonov regression predicts better. This method is also significantly faster than PLS-DA. Overall it seems that Tikhonov regularization can compete with more conventional method of classification both on time efficiency and prediction ability.

Utgiver

Norwegian University of Life Sciences, Ås

Med mindre annet er angitt, så er denne innførselen lisensiert som Navngivelse-Ikkekommersiell-DelPåSammeVilkår 3.0 Norge