Essays on predictive and prescriptive process monitoring
Abstract
This PhD thesis addresses problems related to proactive methods of decision support in business processes. These methods include predictive process monitoring, which aims to warn about potential problems before they occur, and prescriptive process monitoring which seek to proactively remedy predicted issues before they materialize. Four different studies are performed with the aim of improving methods within this area.
Paper one addresses the issue of early warning performance in predictive process monitoring. Specifically, this paper focuses on remaining cycle time prediction from open cases in business processes. The main goal of this paper is to understand how temporal weighting of the L1 loss function influence so-called earliness performance (the ability to make accurate early warnings). To investigate this, three different loss functions with temporal decay are introduced and evaluated across four real-world event-logs. This study also introduces a new aspect of performance evaluation of remaining time predictions, called Temporal Consistency (TC). The TC represents the degree to which a remaining time prediction model generates predictions that are monotonically decreasing as time passes. The results show that adding temporal decay to the L1 loss function can lead to better earliness performance. In particular, it was found that the proposed exponential temporal decay loss improved the earliness performance in two of the four evaluated settings. It was also found that all the evaluated loss functions had problems with respect to the temporal consistency performance criteria. This problem became most expressive for the longest traces with little support, where the remaining time prediction would change direction by a large amount.
Paper two offers an alternative to the traditional approach to model evaluation commonly used in predictive process monitoring, by proposing an open source simulation framework for the generation of synthetic event-log data. Firstly, a review of the current literature in this area was examined in order to provide an overview of current capabilities and potential gaps. From this review, a set of design criteria was formulated, and a new framework covering these areas was proposed. The resulting framework is based on well-known parametric distributions and intended for the generation of event-log data from theoretical business processes while providing the capability to add systematic variation to the processes. The proposed framework is mainly intended for testing the influence of data-related hypotheses on the performance of models in predictive process monitoring. The framework enables systematic variation of process memory (in the context of a Markov chain), the entropy of workflows, activity duration distributions, and process stability. Detailed documentation on the implementation, as well as a demonstration of the framework, was performed. The resulting framework is open source and thereby freely available online.
Paper three addresses the issue of customer loyalty in customer service settings. In this study, a prescriptive method is proposed to improve customer loyalty by dynamically changing the priority of the queue in a customer service process. The proposed method uses predicted throughput/cycle time to further predict the conditional customer loyalty score after case closure (measured via Net promoter score). The proposed method is compared to the first-come first served (FCFS) queue discipline, as well as two predictive methods utilizing the shortest remaining time first (SRTF) and longest remaining time first (LRTF) disciplines. The methods are evaluated based on an agent-based simulation model, calibrated from historical data of a customer service process in a European internet and telecommunications services provider. The results show that the proposed method does improve simulated customer loyalty scores in situations with inadequate staffing. However, the proposed method yields similar results to that of the LRTF approach, as both methods rely on the prediction of case cycle time. Introducing a service level of a maximum of 60 hours of waiting time (to avoid starvation), caused all approaches based on predicted cycle time to have identical performance to that of FCFS.
Common for the methods studied in papers one and three is the need for adaptation (re-training) if the data-generating process changes over time. This is also referred to as concept drift, and can greatly reduce the performance of predictive and prescriptive methods if not addressed in time. Paper four thereby contributes to this area by performing a literature review on methods for drift adaptation using a family of optimization algorithms referred to as Metaheuristics. An overview of the found literature is provided through a qualitative analysis of frameworks in relation to selected theory within Automated machine learning, Data stream mining, and Concept drift. The results show that the most frequently used Metaheuristics are population-based methods such as Genetic Algorithms and Particle-Swarm Optimization, and that their utilization for drift adaptation varies from feature selection, hyper-parameter optimization to data window selection. General problems in terms of model and drift evaluation are found across the included literature, and suggestions for improvements in future research are made. Analyzing the temporal development across the found studies, it is found that the applications of Metaheuristics have developed from single Machine learning tasks such as feature selection to more advanced tasks such as full model selection. Denne doktorgradsavhandlingen tar for seg problemer knyttet til proaktive metoder for beslutningsstøtte i forretningsprosesser. Disse metodene inkluderer prediktiv prosessovervåking, som tar sikte på å advare om potensielle problemer før de oppstår, og preskriptiv prosessovervåking som forsøker å proaktivt rette på predikerte problemer før de materialiserer seg. Det er utført i fire ulike studier med mål om å forbedre metoder innen dette område.
Artikkel en tar opp spørsmålet om ytelse for tidlig varsling i prediktiv prosessovervåking. Spesifikt fokuserer denne artikkelen på prediksjon av gjenværende syklustid fra åpne saker i forretningsprosesser. Hovedmålet med denne oppgaven er å forstå hvordan tidsmessig vekting av L1-tapfunksjonen påvirker såkalt tidlighetsytelse (evnen til å gi nøyaktige tidlige advarsler). For å undersøke dette, introduseres tre forskjellige tapsfunksjoner med tidsforfall som evalueres på tvers av fire hendelseslogger fra faktiske bedrifter. Studien introduserer også et nytt aspekt på ytelsesevaluering av gjenværende tidsprediksjoner, kalt temporal konsistens (TC). TC representerer i hvilken grad en prediksjonsmodell for gjenværende tid genererer prediksjoner som avtar monotont etter hvert som tiden går. Resultatene viser at å legge til tidsmessig forfall til L1-tapfunksjonen kan føre til bedre tidlighetsytelse. Spesifikt ble det funnet at eksponentiell tidsforfall forbedret tidlighetsytelsen i to av de fire evaluerte innstillingene. Det ble også funnet at alle tapsfunksjoner som ble evaluert hadde problemer med hensyn til den TC. Mer spesifikt ble det funnet at for lengre sekvenser med lite representativitet i data blir dette problemet mest uttrykksfullt. Rent praktisk betyr dette at prediksjonene i disse tilfellene endrer retning i en høy grad.
Artikkel to tilbyr et alternativ til den tradisjonelle tilnærmingen av modellevaluering som vanligvis brukes i prediktiv prosessovervåking. Dette opnås ved å foreslå et simuleringsrammeverk med åpen kildekode for generering av syntetiske hendelsesloggdata. Først undersøkes en gjennomgang av gjeldende litteratur på dette området. Dette er for å gi en oversikt over egenskaber og potensielle hull. Fra denne gjennomgangen blir et sett med designkriterier først formulert, og et nytt rammeverk som dekker disse områdene foreslås da. Rammeverket er basert på velkjente parametriske distribusjoner og beregnet for generering av teoretiske forretningsprosesser samtidig som det muliggjør muligheten til å legge til systematisk variasjon. Det foreslåtte rammeverket er ment for testing av datarelaterte hypoteser om ytelsen til modeller innen prediktiv prosessovervåking. Rammeverket muliggjør systematisk variasjon av prosessminne (i sammenheng med en Markov-kjede), entropi av arbeidsflyter, aktivitetsvarighetsfordelinger og prosessstabilitet. Det utføres en detaljert dokumentasjon på gjennomføringen, samt en demonstrasjon av rammeverket. Det resulterende rammeverket er åpen kildekode og dermed fritt tilgjengelig online.
Artikkel tre tar opp spørsmålet om kundelojalitet i kundeservicesettinger. I denne studien foreslås en preskriptiv metode for å forbedre kundelojalitet ved dynamisk å endre køens prioritet i en kundeserviceprosess. Den foreslåtte metoden bruker spådd gjennomstrømning/syklustid for ytterligere å forutsi den betingede kundelojalitetsscore etter saksavslutning (målt via Net promoter-score). Den foreslåtte metoden sammenlignes med først-til-mølla-disiplinen (FCFS), samt to prediktive metoder som bruker den korteste gjenværende tid først (SRTF) og lengste gjenværende tid først (LRTF) disipliner. Metodene er evaluert basert på en agentbasert simuleringsmodell, kalibrert fra historiske data fra en kundeserviceprosess i en europeisk internett- og telekommunikasjonsleverandør. Resultatene viser at den foreslåtte metoden forbedrer simulerte kundelojalitetsscore i situasjoner med utilstrekkelig bemanning av kundeserviceprosessen. Imidlertid gir den foreslåtte metoden lignende resultater som LRTF-tilnærmingen, ettersom begge metodene er avhengige av prediksjonen av sakssyklustid. Innføring av et servicenivå på maksimalt 60 timers ventetid (for å unngå at kunder blir værende bak i køen) reduserte ytelsen til alle tilnærminger basert på predikert syklustid til å være identisk med førstemann til mølla.
Felles for metodene som er studert i artikkel en og tre er behovet for tilpasning (gjenopplæring) dersom den datagenererende prosessen endres over tid. Dette blir også referert til som konseptdrift, og kan i stor grad redusere ytelsen til prediktive og foreskrivende metoder hvis de ikke blir adressert i tide. Artikkel fire bidrar dermed til dette området ved å utføre en litteraturgjennomgang om metoder for tilpasnins av konseptdrift ved bruk av en familie av optimaliseringsalgoritmer referert til som metaheuristikker. En oversikt over funnet litteratur gis gjennom en kvalitativ analyse av rammeverk i forhold til utvalgt teori innen automatisert maskinlæring, datastrømmining og konseptdrift. Resultatene viser at de mest brukte metaheuristikkene er populasjonsbaserte metoder som genetiske algoritmer og partikkelsvermoptimalisering, og at deres utnyttelse for drifttilpasning varierer fra valg av variable, hyperparameteroptimalisering til datavinduvalg. Generelle problemer når det gjelder modell- og driftevaluering finnes på tvers av den inkluderte litteraturen, og forslag til forbedring i fremtidig forskning blir derved gitt. Ved å analysere den tidsmessige utviklingen på tvers av de funnet studiene, er det funnet at bruken av metaheuristikker har utviklet seg fra enkle maskinlæringsoppgaver som valg av variable til mer avanserte oppgaver som full modellvalg.
Publisher
Norwegian University of Life Sciences, ÅsSeries
PhD Thesis;2022:21
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal
Related items
Showing items related by title, author, creator and subject.
-
Process mining : construction of an event log and process discovery within a return-order process
Magnusson, Miriam Touiti; Magnusson-Sand, Håvard Kopland (Master thesis, 2020)In recent years, organizations have expressed a rapidly growing interest in improving their end-to-end processes by using the powerful tool of Process Mining, taking advantage of data in order to discover their actual ... -
Involvement of employees in change processes : a case study of a change process in Statens vegvesen
Vageesan, Nesanthy (Master thesis, 2018)Today´s business environment requires almost continual changes from organizations if they want to stay competitive. Organizational changes are associated with challenges and opportunities. Therefore, it is important that ... -
Optimal process water supplementation and ratio between corn gluten meal and soy protein concentrate to secure good physical pellet quality and minimize energy use during extrusion processing of fish feed
Milanovic, Igor (Master thesis, 2015-11-05)The objective of this experiment was to find out which combination of water/steam addition and plant protein ingredient mix that gives best physical quality and process economy. The design was, however, restrained by a ...