Assessment of Sparse Multi-Block Partial Least Squares Regression Model Performance in Analysis of High-Dimensional Phenotypic Data
Master thesis

View/ Open
Date
2016Metadata
Show full item recordCollections
- Master's theses (RealTek) [1705]
Abstract
FTIR and Raman spectroscopy, and MALDI-TOF mass spectrometry are emerging
technologies for multidimensional phenotyping of microorganisms. While FTIR and
Raman both represent a full metabolic fingerprint, MALDI spectra mainly represent the
microbe's ribosomal protein composition.
All methods are used for microbial identification, both by the food industry and in the
clinical laboratory, but direct comparison of them by integration into the same statistical
model is lacking in scientific literature. To compare the three methods, we applied a Sparse
MultiBlock PLSR (SMBPLSR) routine capable of analysing all data types simultaneously.
We present results indicating that this SMBPLSR method can be used to establish
connections between the metabolic fingerprint of FTIR and Raman spectra, and ribosomal
protein expression in MALDI-TOF data, and that the method to a large extent enables
identification of samples on the strain level. Furthermore, we show that the SMBPLSR
method can be used to indicate how phenotypic response to varied growth temperature is
ascribed to certain types of biomolecules. Finally, we present results showing that different
types of phenotypic data are treated differently by the SMBPLSR method. Grouping
among variables or samples in FTIR and Raman data is achieved by a different set of latent
variables than in grouping in MALDI data. The sensitivity and wealth of information
obtainable from the SMBPLSR method makes it a viable complement to the already
existing multivariate analysis methods. FTIR- og Raman-spektroskopi, og MALDI-TOF massespektrometri, er alle framvaksande
teknologiar brukt til multidimensjonal fenotyping av mikroorganismar. Medan FTIR or
Raman gjev eit fullt metabolsk fingeravtrykk, er det ribosomal proteinkomposisjon som
kjem til uttrykk i MALDI.
Alle desse metodane brukast for å identifisera mikrober, både i matvareindustrien og i
kliniske laboratorier, men ei direkte statistisk samanlikning av metodane manglar i den
vitskaplege litteraturen. For å bøte på mangelen, brukte me ei Sparsomleg MultiBlokk
PLSR-metode (SMBPLSR) som kunne analysera alle datatypane samstundes.
Me synar fram resultat som indikerer at SMBPLSR-metoden kan nyttast til å etablera
koplingar mellom metabolsk fingeravtrykk i FTIR- og Raman-spektra på den eine sida,
og ribosomalt proteinuttrykk i MALDI-TOF data på den annan. SMBPLSR-metoden
kan i utstrekt grad identifisera prøver på stammenivå. Vidare syner me at SMBPLSR-metoden
kan brukast til å indikera korleis fenotypisk respons på ulike veksttemperaturar
kan tilskrivast spesifikke typar biomolekyl. Til slutt presenterast resultat som syner at dei
ulike slaga fenotypiske data handsamast svært ulikt av SMBPLSR-metoden. Grupperingar
av variablar eller prøver i FTIR- og Raman-data tilskrivast heilt andre latente variablar
enn tilsvarande grupperingar i MALDI-data. Følsemda til og vellet av informasjon som
kan framskaffast frå SMBPLSR-metoden gjer han til eit levedyktig tilskot til allereie
eksisterande multivariate analysemetodar.