Three PLS-based methods for variable ranking and interaction detection

Cunen, Céline

dc.contributor.author	Cunen, Céline
dc.date.accessioned	2014-07-11T08:24:55Z
dc.date.available	2014-07-11T08:24:55Z
dc.date.copyright	2014
dc.date.issued	2014-07-11
dc.identifier.uri	http://hdl.handle.net/11250/197357
dc.description.abstract	Abstract: Variable ranking can be important for the analysis of high-dimensional data. Identifying a subset of relevant variables can be useful both for subsequent model construction and for further investigation of the variables. Many methods for variable ranking and selection exist, but most do not consider interactions between the explanatory variables. In this thesis, three methods for variable ranking and two-way interaction detection in high-dimensions are proposed. The first method, called Pseudoloadings Ranking (PR), is based on a kernel Partial Least Squares (PLS) model, while the other two are based on the regular PLS algorithm. Interaction Ranking (IR) is an extension of well known filter methods for PLS. Random Interaction Ranking (RIR) ranks the variables by repeatedly selecting and evaluating subsets of variables. The ability of the methods to identify relevant variables was determined by simulation studies, and compared to an existing method. The PR method was unsuccessful in finding important interactions, while he IR and RIR methods had good performances and outperformed the existing method. The use of IR is however limited by memory requirements. The use of IR and RIR was illustrated by applying them to a gene expression dataset from Populus tremula. Some methods for evaluating the findings were proposed. Sammendrag: Variabelrangering kan være en viktige del av analyse av høydimensjonale data. Identifisering av en liten mengde relevante variable kan være nyttig både for modellbygging og videre utforskning av variablene. Det finnes mange metoder for variabelrangering og -seleksjon, men de fleste tar ikke hensyn til samspill mellom variablene. I denne oppgaven presenteres tre metoder for variabelrangering i situasjoner der det er samspill mellom variablene . Den første metoden, kalt Pseudoloadings Ranking (PR), er basert på en kernel Partial Least Squares (PLS) modell, mens de to andre er basert på den vanlige PLS algoritmen. Interaction Ranking (IR) er en utvidelse av kjente filtreringsmetoder for PLS. Random Interaction Ranking (RIR) rangerer variablene ved å velge ut og evaluere tilfeldige variabeldelmengder mange ganger. Metodenes evne til å identifisere de relevante variablene ble studert ved simulerings studier. PR metoden lykkes ikke i å finne viktige samspill, mens IR og RIR hadde gode resultater, også sammenlignet med en eksisterende metode. Bruk av IR metoden kan likevel være begrenset av minnebruk. IR og RIR ble også anvendt på genekspresjonsdata fra Populus tremula. Noen metoder for evaluering av resultatene ble foreslått.	nb_NO
dc.language.iso	eng	nb_NO
dc.publisher	Norwegian University of Life Sciences, Ås
dc.subject	VDP::Matematikk og Naturvitenskap: 400::Matematikk: 410::Statistikk: 412	nb_NO
dc.subject	variabel seleksjon	nb_NO
dc.subject	samspill	nb_NO
dc.subject	PLS	nb_NO
dc.subject	kernel PLS	nb_NO
dc.title	Three PLS-based methods for variable ranking and interaction detection	nb_NO
dc.type	Master thesis	nb_NO
dc.source.pagenumber	108	nb_NO
dc.description.localcode	M-BIAS	nb_NO

Tilhørende fil(er)

Filnavn:: cunen2014.pdf
Størrelse:: 1.816Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Master's theses (KBM) [888]

Vis enkel innførsel