Estimering av berggrunns sedimenttykkelse med Kriging vs. Maskinlæringsmodeller
Abstract
Denne avhandlingen hadde som mål å finne de beste regresjonsmetodene for å estimere berggrunnens sedimenttykkelse rundt Årungen, ved å sammenligne Kriging Interpolering med Maskinlæring-metoder. Nøyaktig modellering er viktig i flere samfunnsutfordringer, inkludert; å finne grunnvanns lokasjoner, produksjon av geotermisk varme og sikkerhet for infrastruktur i byplanlegging. Vi forsøkte å finne modellene som var best utstyrt for ulike mål, inkludert: Hvilken modell (1) gir de beste prediksjons målingene, (2) har de mest stabile resultatene med den laveste prediksjons variasjonen, (3) gir de mest realistiske prediksjons-overflatene, og (4) er den mest praktiske? GRANADA borehulls database, NADAG borehull, digitale løsmassekart og Kartverket digitale høydedata-modeller ble brukt for å lage nøyaktige data. Semivariogram tilpasning og parameter justering ble brukt på flere implementeringer av Kriging, for å optimalisere deres ytelse. Et representativt utvalg av Maskinlæring-regresjonsmodeller ble brukt og optimalisert ved hjelp av grid-søk-metoden. Det ble gjennomført flere runder med kryssvalidering for å sikre trygghet til resultatene. KNN-modellene forklarte 67% variansen, men med dårlige prediksjons overflater. Modellene Kriging og XGBoost var i stand til å forklare 64% av variansen med sine prediksjoner, samtidig som de hadde realistiske prediksjons-overflater. Kriging-interpolasjonsmetoden kom ut på topp i de fleste av bedømmelseskriteriene, med XGBoost på andreplass. Basert på våre data og metoder som er brukt, konkluderer vi med at Kriging fortsatt er det beste innen overflate regresjon. This thesis aimed to find the best regression methods to estimate the bedrock sediment thickness around Lake Aarungen, by comparing Kriging Interpolation to Machine Learning methods. Accurate modeling is important in several challenges within society, including; finding groundwater locations, production of geothermal heat, and the safety of infrastructure in urban planning. We attempted to find the models best equipped for unique goals, including: What model (1) gives the best prediction performance metrics, (2) has the most stable results with the lowest prediction variation, (3) produces the most realistic prediction surfaces, and (4) is the most practical? GRANADA borehole database, NADAG drill holes, Digital Query Maps, and Kartverket Digital Elevation models were used to create accurate data. Semivariogram fitting and parameter tuning was used on several implementations of Kriging, to optimize their performances. A representative selection of Machine Learning regression models was used and optimized using grid search. Several rounds of cross-validation were conducted to ensure confidence in the results. The KNN models explained 67% of variance, although with poor prediction surfaces. The models of Kriging and XGBoost were able to explain 64% of the variance with their predictions, while having realistic prediction surfaces. The kriging interpolation method came out on top in most of the judging criteria, with XGBoost second. Based on our data and methods used, we conclude that Kriging remains the state-of-the-art in surface regression.