Three PLS-based methods for variable ranking and interaction detection
Master thesis
Permanent lenke
http://hdl.handle.net/11250/197357Utgivelsesdato
2014-07-11Metadata
Vis full innførselSamlinger
- Master's theses (KBM) [885]
Sammendrag
Abstract:
Variable ranking can be important for the analysis of high-dimensional data.
Identifying a subset of relevant variables can be useful both for subsequent
model construction and for further investigation of the variables. Many methods
for variable ranking and selection exist, but most do not consider interactions
between the explanatory variables. In this thesis, three methods for
variable ranking and two-way interaction detection in high-dimensions are
proposed.
The first method, called Pseudoloadings Ranking (PR), is based on a
kernel Partial Least Squares (PLS) model, while the other two are based on
the regular PLS algorithm. Interaction Ranking (IR) is an extension of well
known filter methods for PLS. Random Interaction Ranking (RIR) ranks the
variables by repeatedly selecting and evaluating subsets of variables. The
ability of the methods to identify relevant variables was determined by simulation
studies, and compared to an existing method. The PR method was
unsuccessful in finding important interactions, while he IR and RIR methods
had good performances and outperformed the existing method. The use of
IR is however limited by memory requirements.
The use of IR and RIR was illustrated by applying them to a gene expression
dataset from Populus tremula. Some methods for evaluating the
findings were proposed.
Sammendrag:
Variabelrangering kan være en viktige del av analyse av høydimensjonale
data. Identifisering av en liten mengde relevante variable kan være nyttig
både for modellbygging og videre utforskning av variablene. Det finnes
mange metoder for variabelrangering og -seleksjon, men de
fleste tar ikke hensyn til samspill mellom variablene. I denne oppgaven presenteres tre metoder for variabelrangering i situasjoner der det er samspill mellom variablene .
Den første metoden, kalt Pseudoloadings Ranking (PR), er basert på
en kernel Partial Least Squares (PLS) modell, mens de to andre er basert
på den vanlige PLS algoritmen. Interaction Ranking (IR) er en utvidelse
av kjente filtreringsmetoder for PLS. Random Interaction Ranking (RIR)
rangerer variablene ved å velge ut og evaluere tilfeldige variabeldelmengder
mange ganger. Metodenes evne til å identifisere de relevante variablene ble
studert ved simulerings studier. PR metoden lykkes ikke i å finne viktige
samspill, mens IR og RIR hadde gode resultater, også sammenlignet med
en eksisterende metode. Bruk av IR metoden kan likevel være begrenset av
minnebruk.
IR og RIR ble også anvendt på genekspresjonsdata fra Populus tremula.
Noen metoder for evaluering av resultatene ble foreslått.