Test av godhet av kostnadsdrivere innen Activity-Based Costing
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3038877Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
- Master's theses (HH) [1071]
Sammendrag
Hensikten med masteroppgaven er å optimalisere en kostnadsdriver innen Activity-based Costing ved hjelp av maskinlæring. Dette gjøres for å mulig utarbeide en generaliserbar metodikk som kan bidra til å bedre nøyaktigheten og relevansen til kostnadsdrivere. I tillegg undersøkes det om konkrete varer eller plukkområder påvirker plukktiden av et sett ordrelinjer når den aktuelle arbeidsaktiviteten er plukk av varer.
Den primære algoritmen som brukes er Support vector machines som blir optimalisert ved hjelp av hyperparametertuning og feature selection-metoder som regresjon, Pearsons R og variance threshold. Modellene sammenlignes også med Decision trees, K-nearest neighbors og Random forest ved bruk av cross validation. Avslutningsvis skal de beste versjonene fra alle disse algoritmene kombineres til en samlet modell ved hjelp av en metode som kalles stacking ensemble method.
Resultatene fra SVM-modellene viste at optimaliseringen førte til en minimal forbedring i prediksjonsevnen, men som totalt sett ikke var godt nok til å kunne generaliseres. I tillegg var det noen av algoritmene som hadde neglisjerbar, men bedre nøyaktighet enn SVM. Dette førte enten til en stacking-modell som var tilsvarende god som SVM-modellene eller en endelig stacking-modell som ikke fanget opp plukktiden godt nok. I tillegg tilsier resultatene at endring i plukktiden ikke forklares tilstrekkelig godt nok av enten varer eller plukkområder. Dette understreker at antall ordrelinjer som kostnadsdriver for plukkaktiviteten, består som en tilstrekkelig god kostnadsdriver.
Studien innehar noen implikasjoner i form av observasjoner på ca. 3 måneder som begrenser antall observasjoner tilgjengelig. En annen utfordring var et lavt antall relevante variabler som var tilgjengelig for å forklare plukktiden for et sett ordrelinjer. Sistnevnte implikasjon kan være et resultat av menneskelig feil under data-cleaning prosessen. For videre forskning som undersøker lignende fenomen, vil det være aktuelt å samle inn data over en lengre tidsperiode eller bruke simulert data. The purpose of this thesis is to optimize a cost driver in Activity-based costing by using machine learning. This is done to develop a generalizable method which can ultimately better the accuracy and relevance of cost drivers. In addition, i will further investigate whether specific goods or picking areas influences the picking time of order lines in a warehouse. In this instance, the work activity is picking of goods, whereas the cost driver is picking time of a set of order lines.
The primary algorithm is Support vector machines that’s being optimized by hyperparameter tuning and various feature selection methods like regression, Pearson’s R and variance threshold. The SVM-models are also being compared against Decision trees, K-nearest neighbors, and Random Forest by using cross validation. Finally, the best versions of these algorithms are being combined into a single model by using a method named stacking ensemble method.
The results from the SVM-models shows that the optimization led to a minimal increase in predictive ability, but overall fell short of showing good predictive ability. Furthermore, some of the other algorithms were slightly more accurate than SVM, but these positive results were negligible. This either led to a stacking-model which was as good as the SVM-models or a final stacking-model which didn’t catch the complexity of the dependent variable. Also, the results states that differences in picking time are not explained fully by either specific goods or picking areas. In total, this implies that quantity of order lines remains a good cost driver for picking activity in a warehouse.
First implication is the limited observations over 3 months. Second implication is the low number of features/variables available. Although the last implication might be a result of human error in the data cleaning process. For future research I would recommend either to gather data over a larger time frame or use simulated data.