Show simple item record

dc.contributor.advisorKristian Hovde Liland
dc.contributor.advisorIngrid Måge
dc.contributor.authorManoraj, Pradeep
dc.contributor.authorJegatheeswaran, Trishaban
dc.date.accessioned2024-08-23T16:30:32Z
dc.date.available2024-08-23T16:30:32Z
dc.date.issued2024
dc.identifierno.nmbu:wiseflow:7110333:59110579
dc.identifier.urihttps://hdl.handle.net/11250/3148048
dc.description.abstractMaskinlæring har muligheten til å finne banebrytende løsninger som kan effektivisere ulike sektorer ved å utnytte tilgjengelig data. I en biokjemisk prosessindustri blir data målt kontinuerlig. Data som måles er typiske kontrollparametere som sørger for at prosessen foregår som planlagt. Ved å utnytte et slikt sett med data er det potensiale for å anvende maskinlæringsalgoritmer til å optimalisere stegene i prosessen. Likevel er det både tidkrevende og kostbart å samle inn kvalitetsmålinger. Datapunktene med disse målingene kalles for markerte data, mens de uten kalles umarkerte data. Når det er få kvalitetsmålinger, hindrer det klassiske veiledede maskinlæringsalgoritmene i å prestere optimalt. Følgende problem har ført til en økt interesse for semi-veiledede maskinlæringsalgoritmer. Fordelen med semi-veiledet læring (SSL) er at det er muligheter for å benytte seg av både umarkerte og markerte data, i kontrast til klassisk veiledet maskinlæring (VL) som begrenser seg til kun markerte data. Denne forskningen går ut å evaluere mulighetene av å bruke semi-veiledede maskinlæringsalgoritmer for å predikere produktkvaliteten til råmaterialet som blir behandlet i den biokjemiske prosessindustrien. Oppgaven tar utgangspunkt i problemstillingen om å predikere produktkvalitet ved bruk av kvalitetsmålinger med semi-veiledede algoritmer og spektroskopisk data. Undersøkelsene gikk ut på å anvende tre ulike semi-veiledede algoritmer. Deretter ble de sammenliknet med tre klassiske veiledede maskinlæringsalgoritmer. For å sammenlikne algoritmene ble de vurdert etter ulike evalueringsmetrikker for regresjonsproblemer innen maskinlæring. Følgende metrikker som ble benyttet er RMSE, R², MAE og MAPE. Metrikkene ble brukt for å skille grad av nøyaktighet mellom modellene. Deretter ble en forenklet MCDA analyse innført for å vurdere de praktiske aspektene for mulig implementering. Formålet med studien er å gi innsikt til modeller som kan ta i bruk umarkerte data, i tillegg til spektroskopiske data. Dersom modellene har optimal ytelse, kan det bidra til å forbedre dagens situasjon. Potensialet er spesielt relevant når det kommer til beslutningstakinger om håndtering av produkter basert på produktkvalitet. Studien er knyttet til et virkelig datasett av en bioprosess, hos bioraffineriet Bioco AS. I prosessen blir råmateriale fra både kylling og kalkun behandlet. Det ble testet for ulike enzymtyper i prosessen, og i denne fasen ble det samlet data av de tilgjengelige måleinstrumentene. I tillegg til de tradisjonelle instrumentene ble det samlet spektroskopisk data, ved hjelp av en midlertidig utplassert NIR-sensor. Under innsamlingen av data ble det utført to forskjellige produksjoner etter hverandre, hos Bioco. Den første produksjonen gikk ut på teste ulike enzymtyper på råmaterialet. Dette var en testfase for å se hvordan det påvirker den behandlede massen. Den andre produksjonen var å gå tilbake til standardproduksjonen hos bedriften. Det baserer seg på å bruke én fast enzymtype. Da kvalitetsmålingene ble samlet inn var det hovedsakelig prioritert å samle inn ulike målinger fra forsøksperioden, nemlig den første produksjonen. Dette fører til at det er en ujevn fordeling av markerte og umarkerte data i datasettet, fordi kvalitetsmålingene ble tatt med hensyn til de ulike enzymtypene. En konsekvens av dette er at det fører til en større konsentrasjon av den faste enzymtypen fra standardproduksjonen i den umarkerte andelen av datasettet, i motsetning til de ulike enzymtypene fra forsøksperioden. Våre funn viser til at veiledede algoritmer presterer bedre enn semi-veiledede algoritmer, til tross for at den førstnevnte metoden er begrenset med kun markerte data. Semi-veiledede algoritmer baserer seg på store deler av umarkerte data. Det ble videre vist at det var klare forskjeller mellom algoritmene når det ble brukt spektroskopisk data i treningsfasen. MCDA-analysen viser til at Alternativ 2 blir sett på som den ideelle løsningen. På grunn av konfidensialitet, var økonomisk data rundt sensor og innsamling av kvalitetsmålinger utilgjengelig. Dermed er det viktig å være klar over at valgene tatt i denne analysen er basert på den spesifikke prosessen til Bioco. Denne anbefalingen er begrenset til denne prosessen og utsatt for endring ved tilgang på mer informasjon. Vår beste løsning fra denne undersøkelsen kan derfor variere med andre datasett. Videre forskning kan være å undersøke benyttede algoritmer på andre datasett fra en bioprosess. Alt i alt, gir denne studien en innsikt i hvordan maskinlæring, spesielt semi-veiledet maskinlæring, kan predikere kvalitetsmålinger basert på data fra biokjemisk prosess-industri.
dc.description.abstractMachine learning (ML) can find creative solutions to make processes more effective in various fields. The biochemical process industry is a place where continuous data is collected. The datasets from these industries are quite large, but they won’t always be available as a complete dataset. One of the biggest problems in the industry is to get a fully labeled dataset. However, it is quite time-consuming and expensive, because the labels are collected by taking some samples to a laboratory. However, applying machine learning algorithms to optimize processes requires a dataset with a certain criterion. To run supervised algorithms, the models require labeled data, which is not easily accessible. Thus, this study explores other ways of taking advantage of datasets that do not fulfill the criteria. Semi-supervised learning is a machine learning technique that can be applied in incomplete datasets. This has the potential to learn on both labeled and unlabeled data, which reduces the requirement of labeled data. Furthermore, this research also aims to integrate data from a spectroscopic sensor to measure any improvements in the algorithm’s predictions. For this research three SSL algorithms were implemented. These were compared to 3 supervised algorithms to identify the prediction quality. This research is applying real-world dataset from Bioco AS. This is a biorefinery that works with processing raw materials from turkey and chicken. The dataset contains information from the process from several weeks. Every week there were tested different kinds of enzymes on the raw material, to understand how final product was. There were two different kinds of productions in a week, when the data was collected. The first one production was about testing different kinds of enzymes to the material, while the second production was to create the standard production that they have always made. When the labeled data was collected from the laboratory, they mainly focused on getting measurements mainly from the first production. This was to understand the chemical structure in the material. However, this made a bias in the labeled data in dataset. The labels in the dataset were not evenly distributed. The spectroscopy data was collected by a NIR sensor, which was temporarily placed at Bioco to measure more detailed data about the raw materials. To measure the quality of the algorithm evaluation metrics were used. Since this is a regression problem, the following three metrics were used to evaluate the model. They were RMSE, R², MAE and MAPE. the thesis was based on a framework called CRISP-DM which is used to methodically break down the task. The results from the research indicated the supervised algorithms performed better than the semi-supervised algorithms, even when it is limited labels. After comparing the effects of NIR-sensor data, the research further shows that the algorithms with data NIR outclassed the same algorithms without the spectroscopy data and only relying on the traditional process sensors. A MCDA analysis was used to identify which methods that could be implemented in the industry today. After getting the results we had to test it to find out which model worked the best. Because the details of the company products are confidential, the following conclusions are limited to this research. The findings show that, even if SSL have theoretical promises, supervised algorithms outperform semi-supervised algorithms. Further research is to implement the algorithms from this research in different dataset from the biochemical process industry. The research also advice to integrate spectroscopy data when using machine learning to predict on data from the process industry.
dc.languagenob
dc.publisherNorwegian University of Life Sciences
dc.titleEvaluering av semi-veiledede algoritmer for regresjon og bruk av spektroskopisk data til optimalisering av biokjemisk prosessindustri
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record