Vis enkel innførsel

dc.contributor.authorCunen, Céline
dc.date.accessioned2014-07-11T08:24:55Z
dc.date.available2014-07-11T08:24:55Z
dc.date.copyright2014
dc.date.issued2014-07-11
dc.identifier.urihttp://hdl.handle.net/11250/197357
dc.description.abstractAbstract: Variable ranking can be important for the analysis of high-dimensional data. Identifying a subset of relevant variables can be useful both for subsequent model construction and for further investigation of the variables. Many methods for variable ranking and selection exist, but most do not consider interactions between the explanatory variables. In this thesis, three methods for variable ranking and two-way interaction detection in high-dimensions are proposed. The first method, called Pseudoloadings Ranking (PR), is based on a kernel Partial Least Squares (PLS) model, while the other two are based on the regular PLS algorithm. Interaction Ranking (IR) is an extension of well known filter methods for PLS. Random Interaction Ranking (RIR) ranks the variables by repeatedly selecting and evaluating subsets of variables. The ability of the methods to identify relevant variables was determined by simulation studies, and compared to an existing method. The PR method was unsuccessful in finding important interactions, while he IR and RIR methods had good performances and outperformed the existing method. The use of IR is however limited by memory requirements. The use of IR and RIR was illustrated by applying them to a gene expression dataset from Populus tremula. Some methods for evaluating the findings were proposed. Sammendrag: Variabelrangering kan være en viktige del av analyse av høydimensjonale data. Identifisering av en liten mengde relevante variable kan være nyttig både for modellbygging og videre utforskning av variablene. Det finnes mange metoder for variabelrangering og -seleksjon, men de fleste tar ikke hensyn til samspill mellom variablene. I denne oppgaven presenteres tre metoder for variabelrangering i situasjoner der det er samspill mellom variablene . Den første metoden, kalt Pseudoloadings Ranking (PR), er basert på en kernel Partial Least Squares (PLS) modell, mens de to andre er basert på den vanlige PLS algoritmen. Interaction Ranking (IR) er en utvidelse av kjente filtreringsmetoder for PLS. Random Interaction Ranking (RIR) rangerer variablene ved å velge ut og evaluere tilfeldige variabeldelmengder mange ganger. Metodenes evne til å identifisere de relevante variablene ble studert ved simulerings studier. PR metoden lykkes ikke i å finne viktige samspill, mens IR og RIR hadde gode resultater, også sammenlignet med en eksisterende metode. Bruk av IR metoden kan likevel være begrenset av minnebruk. IR og RIR ble også anvendt på genekspresjonsdata fra Populus tremula. Noen metoder for evaluering av resultatene ble foreslått.nb_NO
dc.language.isoengnb_NO
dc.publisherNorwegian University of Life Sciences, Ås
dc.subjectVDP::Matematikk og Naturvitenskap: 400::Matematikk: 410::Statistikk: 412nb_NO
dc.subjectvariabel seleksjonnb_NO
dc.subjectsamspillnb_NO
dc.subjectPLSnb_NO
dc.subjectkernel PLSnb_NO
dc.titleThree PLS-based methods for variable ranking and interaction detectionnb_NO
dc.typeMaster thesisnb_NO
dc.source.pagenumber108nb_NO
dc.description.localcodeM-BIASnb_NO


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel