Siamese Networks for Telecommunication Customer Churn Data in a Few-Shot Learning Context

Alihosseinzadeh, Eljar

dc.contributor.advisor	Fadi Al Machot
dc.contributor.advisor	Martin Thomas Horsch
dc.contributor.author	Alihosseinzadeh, Eljar
dc.date.accessioned	2024-08-23T16:29:14Z
dc.date.available	2024-08-23T16:29:14Z
dc.date.issued	2024
dc.identifier	no.nmbu:wiseflow:7110333:59110547
dc.identifier.uri	https://hdl.handle.net/11250/3147999
dc.description.abstract	Nøyaktig kundeavgangsforutsigelse er avgjørende for bedrifter som ønsker ̊a beholde sine kunder. Maskinlæringsmodeller presenterer en ny metode for ̊a forutsi hvilke kunder som kan komme til ̊a avslutte kundeforholdet. Disse modellene lærer fra tidligere merket data for ̊a gjøre informerte beslutninger. Imidlertid har mange bedrifter, spesielt mindre bedrifter, oppstartsbedrifter eller bedrifter uten tilgang til store mengder data, ogs ̊a behov for ̊a identifisere kunder som kan avslutte kundeforholdet. Few-shot learning, et underfelt in- nen maskinlæring, presenterer en potensiell løsning ved ̊a muliggjøre nøyaktige forutsigelser selv med begrensede mengder merket treningsdata. Siamesiske nettverk er en maskinlæringsmodell som vanligvis er kjent for Few- shot learning innen bildeklassifisering. Denne studien undersøker potensialet for ̊a tilpasse dens Few-shot learning kapasiteter til tabulære data, spesielt innen telekommunikasjonens kundeavgangsprediksjon. Studien tar sikte p ̊a ̊a besvare hvorvidt Siamesiske nettverk er et potensielt al- ternativ for kundeavgangsprediksjon i telekommunikasjon n ̊ar man bruker tab- ulær data. Samt hvor effektive de er til ̊a forbedre nøyaktigheten til Few-shot learning modeller n ̊ar de brukes p ̊a kundeavgang prediksjon innen telekommu- nikasjon. Metodikken som er brukt inneholder forbehandling av egenskapsvariabler, inkludert SMOTE for ̊a adressere den vanlige utfordringen med klasseubal- anse som ofte oppleves n ̊ar man arbeider med kundeavgangsdata. En parings- funksjon ble ogs ̊a laget for ̊a forberede dataene for det siamesiske nettverket i par. Evalueringen ble utført p ̊a to telekommunikasjonskundeavgangsdatasett, Orange og IBM. Modellen ble ogs ̊a sammenlignet med andre tradisjonelle maskinlæringsmodeller for ̊a f ̊a et referansepunkt og gi kontekst for det Siame- siske nettverkets ytelse i forhold til kjente alternativer. Resultatene fra evalueringen viste imponerende resultater fra det siamesiske nettverket p ̊a tabulære data. Det oppn ̊adde 82,4% nøyaktighet p ̊a IBM-datasettet og 93,0% p ̊a Orange-datasettet for den minste utvalgsstørrelsen (5 avgang, 25 ikke-avgang), og overgikk alle andre tradisjonelle modeller med god margin. Det hadde ogs ̊a gode resultater p ̊a hele datasettene, og n ̊adde 83,6% og 94,4% for henholdsvis IBM- og Orange-datasettene (kun overg ̊att av Random Forest i begge tilfeller). Studien konkluderer med at siamesiske nettverk tilbyr en ny tilnærming for tabulær kundeavgangsforutsigelse, spesielt innen Few-shot learning, og utvider dermed anvendelsen utover tradisjonell bildeklassifisering.
dc.description.abstract	Accurate customer churn prediction is important for businesses seeking to retain their valuable customers who might churn. A new method to accurately predict which customer might churn is machine learning models. These models learn from prior labeled data to make informed predictions. However, many businesses, such as smaller- or startups businesses do not have access to an abundance of data for the model to learn from. Few-shot learning, a subfield of machine learning, presents a potential solution by enabling accurate pre- dictions even with limited labeled training data. Siamese networks is a machine learning model, typically known for Few-shot learning scenarios within image classification. This thesis investigates its po- tential to adapt its Few-shot learning capabilities into the realm of tabular data, specifically within telecommunication churn prediction. The thesis will aim to answer whether Siamese networks are a viable option in telecommu- nication churn prediction when using tabular data, as well as, how effective they are in improving the accuracy of Few-shot learning models when applied to telecommunication customer churn prediction. The methodology taken in use involves feature pre processing, consisting of feature encoding, feature scaling and SMOTE. SMOTE addresses the common challenge of class imbalance usually experienced when working with churn pre- diction data. A specialized pairing function was also made to prepare the data for the Siamese network as pairs. The evaluation of the dataset was performed on two telecommunication churn datasets, Orange and IBM. The model was also put up against other traditional machine learning models in a compara- tive analysis to get a benchmark and provide context for the Siamese network performance relative to well-known alternatives. Results from the evaluation showcased impressive results from the Siamese network on tabular data, it achieved 82.4% on the IBM dataset & 93.0% on the Orange dataset for the lowest sample size (5 churn, 25 non-churn) outper- forming all other traditional models with a sizeable margin. It also had good results on the whole datasets reaching 83.6% & 94.4% for the IBM- and Orange datasets respectively (only surpassed by Random Forest on both instances). The study concludes that Siamese networks offer a new approach for tabular churn prediction, especially within the subfield of Few-shot learning. Thereby, the applicability of Siamese networks is extended beyond image classification.
dc.language	eng
dc.publisher	Norwegian University of Life Sciences
dc.title	Siamese Networks for Telecommunication Customer Churn Data in a Few-Shot Learning Context
dc.type	Master thesis

Files in this item

Name:: no.nmbu:wiseflow:7110333:59110 ...
Size:: 1.257Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Master's theses (RealTek) [1826]

Show simple item record