Integration of multivariate data in systems biology
Abstract
Owing to the rapid rate of development in the field of systems biology researchers have faced many new challenges with regard to handling the large amount of generated data sets originating from different –omics techniques, integrating and analyzing them and finally interpreting the results in a meaningful way. Different statistical methods have been implemented in the field of systems biology. The use of chemometrics approaches for the integration and analysis of systems biology data has recently increased. Different chemometrics methods are potentially available for integrating –omics data and detecting variable and sample patterns. An important challenge is to decide which method to use for the analysis of –omics data sets and how to pre-process the data sets for this purpose. Special attention needs to be given to the validity of the detected patterns.
In this study we have been working on developing multi-block methods for integrating different types of systems biology data and investigating the co-variation patterns among the measured variables. A special focus was given to the validation of the results of the multi-block methods CPCA and MBPLSR. Different types of graphical tools were introduced for the purpose of validation. We have also developed pre-processing techniques that could explicitly be used for lipidomics data sets. A framework was built for pre-processing, integrating, analyzing and interpreting the lipidomics data sets. The framework was then used for the analysis of a lipidomics data set from a human intervention study.
Working on the development of the validation tools required an understanding of the concept of DFs consumption during the multi-block modeling. Therefore, we ran simulation studies where we investigated the number of DFs that were consumed during the modeling processes of PCA and CPCA. Another important issue for applying multi-block methods is the choice of the deflation method. Hence, we studied different deflation strategies available for Multi-block PCA and investigated their interpretational aspects. På grunn av rask utvikling innen systembiologi har forskere møtt mange nye utfordringer med hensyn til håndtering av store datamengder, som genereres med forskjellige -omics teknikker. Det er en stor utfordring både å integrere, analysere og til slutt tolke resultatene på en meningsfull måte. Ulike statistiske metoder har blitt implementert for analyse av systembiologi data. Bruk av kjemometri for integrering og analyse av biologiske data har økt mye den siste tiden. I utgangspunktet finnes det flere metoder fra kjemometri som kan brukes for å integrere data fra forskjellige –omics teknikker og for å oppdage grupperinger av objekter og variabler. En stor utfordring er å bestemme hvilken metode som skal brukes til analyse av -omics datasett og hvordan pre-prosessere datasettene. Det er også viktig å validere de grupperingene som har blitt oppdaget.
I denne studien har vi jobbet med å utvikle multiblokk metoder for å integrere ulike typer data fra systembiologi og å undersøke samvariasjon blant de målte variablene. Det har spesielt vært fokus på validering av resultatene av multiblokkmetoder som CPCA og MBPLSR. Ulike typer verktøy ble innført for å sikre valideringen. Vi har utviklet pre-prosessering teknikker som kan brukes spesielt til lipidomics datasett. Vi har bygget et rammeverk for pre-prosessering, integrering, analysering og tolkning av lipidomics datasett. Metoden er blitt brukt til å analysere et lipidomics datasett fra et human intervensjonsstudie.
Utvikling av validerings metoder krever en forståelse av bruk av antall frihetsgrader under modelleringen. Det har derfor blitt gjennomført simuleringsstudier hvor vi undersøkte antallet frihetsgrader som ble brukt under modellering med PCA og CPCA. Et annet viktig tema når man bruker multiblokk metoder er valget av deflasjonsmetoden. Det er blitt studert ulike deflasjonsstrategier som er tilgjengelige for multiblokk PCA og undersøkt deres tolkningsaspekter.