Exploration of multi-response multivariate methods
Doctoral thesis
Published version
Permanent lenke
https://hdl.handle.net/11250/2678882Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
- Doctoral theses (KBM) [128]
Sammendrag
A linear regression model defines a linear relationship between two or
more random variables. The random variables that depend on other random
variables are often called response variables and the independent random
variables are called predictor variables. In most cases not all variation is
relevant for regression, i.e. only a certain amount of the variation in the
predictors is relevant and only so for a part of the variation in the response.
This leads to a reduction of the linear regression model where one can
imagine a subspace of the space spanned by the predictor variables that
contains all the relevant information for a subspace of the space spanned
by the response variables.
In this thesis, we attempt to compare some new methods which are based
on the envelope model and some established methods such as principal
components regression (PCR) and partial least squares regression (PLS).
The comparison tests these methods on their performance of producing
minimum prediction and estimation error while modelling data simulated
with specifically designed properties. For the simulation, we have also
created an R-package called simrel with a web interface.
A simulation model for a multi-response multivariate linear model, on
which the simulation tool is based, is discussed in the first paper. This
paper prepares a basic foundation for the simulations with the concept of
reduction of regression models. The second paper discusses the similarities
of the envelope, PCR and PLS population models. This paper compares
the prediction performance of several multivariate methods using a model
with a single response.
The final two papers make an extensive investigation evaluating the pre-
diction and estimation performance of established (PCR, PLS1 and PLS2)
and newly developed envelope based (Xenv and Senv) methods. Unsurprisingly
the study found that not one method dominates in all situations, but
their performance depends on the properties of the data they model. How-
ever, the envelope based methods have shown remarkable performance in
many cases, both in prediction and estimation. The study also recommends
researchers to use and evaluate the envelope methods. En lineær regresjonsmodell definerer et lineært forhold mellom to eller flere tilfeldige variabler. De tilfeldige variablene som er avhengige av andre tilfeldige variabler, kalles ofte responsvariabler, og de uavhengige tilfeldige variablene kalles prediktorvariabler. I de fleste tilfeller er ikke all variasjon relevant for regresjon, dvs. bare en viss mengde variasjonen i prediktorene er relevante, og bare for en del av variasjonen i responsen. Dette fører til en reduksjon av den lineære regresjonsmodellen der man kan forestille seg et underrom av rommet som spennesut av prediktorvariablene som inneholder all relevant informasjon for et underrom av rommet spent ut av responsvariablene.
I denne avhandlingen prøver vi å sammenligne noen nye metoder som er basert på Envelopemodellen og noen etablerte metoder som principal komponent regresjon (PCR) og partiell minste kvadraters regresjon (PLS). Sammenligningen tester disse metodene på deres ytelse til å produsere minimum prediksjon- og estimeringsfeil, mens modelleringsdata simuleres
med spesielt designede egenskaper. For simuleringen har vi også laget en R-pakke kalt simrel med et webgrensesnitt.
En simuleringsmodell for multirespons, multivariat lineær modell, som simuleringsverktøyet bygger på, diskuteres i den første artikkelen. Denne artikkelen utarbeider et grunnleggende fundament for simuleringene basert på konseptet om reduksjon av regresjonsmodeller. Den andre artikkelen diskuterer likhetene i Envelope-, PCR- og PLS-populasjonsmodellene. Denne artikkelen sammenligner prediksjonsytelsen til flere multivariate metoder ved bruk av en modell med en enkelt respons.
De to siste artiklene gir en grundig evaluering av prediksjons- og estimeringsegenskapene til etablerte metoder (PCR, PLS1 og PLS2) og nyutviklede envelope-baserte metoder (Xenv og Senv). Ikke uventet fant studien at det ikke finnes en enkelt metode som dominerer i alle situasjoner, men resultatene deres avhenger av egenskapene til dataene de modellerer. Imidlertid har envelope-baserte metoder vist bemerkelsesverdig resultater i mange tilfeller, både når det gjelder prediksjon og estimering. Studien anbefaler også forskere å bruke og evaluere envelope-metodene.