Three PLS-based methods for variable ranking and interaction detection

Cunen, Céline

Cunen, Céline

Master thesis

Åpne

cunen2014.pdf (1.816Mb)

Permanent lenke

http://hdl.handle.net/11250/197357

Utgivelsesdato

2014-07-11

Metadata

Vis full innførsel

Samlinger

Master's theses (KBM) [890]

Sammendrag

Abstract:

Variable ranking can be important for the analysis of high-dimensional data.

Identifying a subset of relevant variables can be useful both for subsequent

model construction and for further investigation of the variables. Many methods

for variable ranking and selection exist, but most do not consider interactions

between the explanatory variables. In this thesis, three methods for

variable ranking and two-way interaction detection in high-dimensions are

proposed.

The first method, called Pseudoloadings Ranking (PR), is based on a

kernel Partial Least Squares (PLS) model, while the other two are based on

the regular PLS algorithm. Interaction Ranking (IR) is an extension of well

known filter methods for PLS. Random Interaction Ranking (RIR) ranks the

variables by repeatedly selecting and evaluating subsets of variables. The

ability of the methods to identify relevant variables was determined by simulation

studies, and compared to an existing method. The PR method was

unsuccessful in finding important interactions, while he IR and RIR methods

had good performances and outperformed the existing method. The use of

IR is however limited by memory requirements.

The use of IR and RIR was illustrated by applying them to a gene expression

dataset from Populus tremula. Some methods for evaluating the

findings were proposed.

Sammendrag:

Variabelrangering kan være en viktige del av analyse av høydimensjonale

data. Identifisering av en liten mengde relevante variable kan være nyttig

både for modellbygging og videre utforskning av variablene. Det finnes

mange metoder for variabelrangering og -seleksjon, men de

fleste tar ikke hensyn til samspill mellom variablene. I denne oppgaven presenteres tre metoder for variabelrangering i situasjoner der det er samspill mellom variablene .

Den første metoden, kalt Pseudoloadings Ranking (PR), er basert på

en kernel Partial Least Squares (PLS) modell, mens de to andre er basert

på den vanlige PLS algoritmen. Interaction Ranking (IR) er en utvidelse

av kjente filtreringsmetoder for PLS. Random Interaction Ranking (RIR)

rangerer variablene ved å velge ut og evaluere tilfeldige variabeldelmengder

mange ganger. Metodenes evne til å identifisere de relevante variablene ble

studert ved simulerings studier. PR metoden lykkes ikke i å finne viktige

samspill, mens IR og RIR hadde gode resultater, også sammenlignet med

en eksisterende metode. Bruk av IR metoden kan likevel være begrenset av

minnebruk.

IR og RIR ble også anvendt på genekspresjonsdata fra Populus tremula.

Noen metoder for evaluering av resultatene ble foreslått.

Utgiver

Norwegian University of Life Sciences, Ås