Relevante komponenter for utforsking og prediksjon i LPLS og UPLS
Abstract
Jeg har i denne oppgaven illustrert L-Partial Least Squares (LPLS) og U-Partial Least Squares (UPLS) sine egenskaper og sett på relevante komponenter for prediksjon og utforskning, med både simulerte og reelle data, der jeg har benyttet data fra flere informasjonskilder koblet i henholdsvis en speilet ”L-form” og en liggende ”U-form”. LPLS er en utvidelse av den mer etablerte metoden Partial Least Squares (PLS) ved at den i tillegg tar fordel av bakgrunnsdata om variablene. UPLS er igjen en utvidelse av LPLS. Begge metodene tar utgangspunkt i NIPALS-algoritme for PLS [Sæbø et al., 2008] hvor det er innført en parameter α ∈ [0, 1] som styrer i hvor stor grad bakgrunnsdataene skalpåvirke modellen.
Resultatene for LPLS viste at når modellen tilpasses med færre komponenter enn det totale antall relevante komponenter der 1. komponent er en av de relevante komponentene, så presterer modellen bedre med små α, PLS-type vekter, enn stor α, PCA-type vekter. For at LPLS-modellen med PCA-type vekter skal finne all y-relevant informasjon vil den måtte trenge alle de relevante komponentene, mens med PLS-type vekter finner modellen raskere den y-relevante informasjonen. Men når modellen raskere finner den y-relevante informasjonen med PLS-type vekter, vil den også raskere ta inn støy etterhvert som modellen tilpasses med et økende antall komponenter.
Resultatene for UPLS viste at når ingen av de relevante komponentene er overlappende, predikerer modellene best uten "låne" bakgrunnsdata. Men når relevante komponenter er delvis overlappende vil ”lån” av bakgrunnsdata bedre prediksjonsevnen i gitte situasjoner. Når det kommer til resultatene for helt overlappende relevante komponenter ble ikke plottene som forventet. Dette avvikende resultatet vil stå som et ubesvart spørsmål som krever videre forskning. In this thesis I have illustrated the properties of L-Partial Least Squares (LPLS) and U-Partial Least Squares (UPLS) and analyzed relevant components for prediction and exploration, using both simulated and real data. I have utilized data from multiple information sources coupled in a mirrored “L-shape” and a horizontal “U-shape” respectively. LPLS is an extension of the more established method Partial Least Squares (PLS) as it takes advantage of additional background data about the variables. UPLS in turn is an extension of LPLS. Both methods are based on the NIPALS-algorithm for PLS where a parameter α is introduced to control the extent the background data shall influence themodel.
The results of LPLS indicates that when the model is fitted with fewer components than the the total number of relevant components where the first component is one of the relevant components, the model performs better with small α PLS-type weights, compared to large α PCA-type weights. For the LPLS-model with PCA-type weights to capture all y-relevant information it will require all relevant components, but with PLS-type weights the model finds the y-relevant information faster. But when the model find the y-relevant information faster with PLS-type weights, it will also pick up noise faster as the model is fitted with an increasing number of components.
The results of UPLS shows that when none of the relevant components are overlapping, the model predicts best without “borrowing” background data. But when relevant components are partially overlapping “borrowing” background data will in some cases improve the predictability of the model. For the results for completly overlapping relevant components the plots did not turn out as expected. This deviating result remains unanswered and will require further research.