Quali sono i casi di applicazione della data science nel settore finanziario? Esploriamo la data science for finance!
Questo post è indirizzato a te, curioso Data Scientist che intende scoprire in che modo la data science si applichi al settore finanziario, nonché a te che intendi costruirti uno percorso professionale e cerchi di capire quali siano le applicazioni reali di data science.
Allora, senza ulteriori indugi, issiamo le vele e puntiamo verso il freddo nord.
Data Science for Finance
La Data Science applicata può velocizzare il decision making e aiutare a prendere decisioni migliori, nonché aumentare la qualità dei servizi offerti ai clienti.
Non solo. Scopriremo infatti come possa costituire una preziosa arma contro i crimini finanziari.
Prima di poterci godere il viaggio dalla pruda della nostra nave, dobbiamo fare alcune considerazioni.
Le difficoltà della data science for finance
Il settore finanziario è tra più regolamentati settori economici a livello nazionale e internazionale.
Questo tutela i consumatori da un lato e impatta pesantemente nel lavoro di un data scientist dall’altro, ed è quindi un fattore da tenere a mente.
Una buona parte del lavoro consiste nel presentare i risultati agli stakeholders, con chiarezza e precisione, sottolineando non tanto la metodologia adottata quanto piuttosto la soluzione trovata.
Questo perché le regolamentazioni richiedono piena trasparenza sui criteri usati per compiere specifiche azioni sui clienti (e.g. approvazione mutui, etc…)
Non solo.
Nella data science for finance, specie ove questa richieda la creazione di modelli, un piccolo errore può tradursi in grandi potenziali perdite.
La quantità di denaro in gioco è altissima, così un errore banale si traduce in 50-60k dollari persi al giorno, ad esempio.
Per questo motivo i sistemi di monitoraggio sono così importanti e devono essere progettati per gestire simili evenienze.
Infine, la natura dei dati tipicamente disponibili presenta problemi comuni che devono sempre essere presi in considerazione durante ogni fase di un progetto.
Vedremo altri problemi tecnici più avanti.
Ora, iniziamo.
Data Science For finance Use Cases
Quali sono allora le aree concrete di applicazione della data science for finance?
- Prevenzione dei crimini finanziari (Financial Crime Prevention)
- Riconscimento transazioni (Transaction Categorization & Smart Statistics)
- Profilazione del cliente (Know Your Customer, KYC)
- Gestione del rischio di credito (Cedit Risk Management)
- Chatbot e automazione customer experience
Di queste ne esamineremo due.
Per ognuna delle aree identificate intendo poi porre la tua attenzione su tre elementi fondamentali:
- Il business problem
- Le specifiche di un eventuale modello*
- La strategia di messa in produzione del modello*
*(a titolo esemplificativo)
Financial Crime Prevention
Questa applicazione di data science for finance è molto vasta.
Possiamo riassumere il business problem nell’identificare utenti con attività fraudolente.
La natura dei crimini finanziari può però essere diversa, e comprende ad esempio:
- Attività di riciclaggio di denaro, un’area d’interesse complessivamente nota come Anti–money laundering (AML).
- Individuazione frodi finanziarie, Fraud Detection
- Lotta al terrorismo finanziario, counter-terrorist financing (CTF)
Esistono specifiche regolamentazioni nazionali e internazionali che obbligano le banche e gli istituti finanziari a vigilare per prevenire e all’occorrenza segnalare questi illeciti.
L’EU ha esempio emanato la quinta direttiva sul riciclaggio di denaro (Fifth Money Laundering Directive – MLD5) con l’obbligo di essere trasposta agli stati membri entro il gennaio 2020 (sì, non 2021).
Tornando a noi…
In questo caso potremmo definire le specifiche di un possibile modello come segue:
- Classificatore binario, di tipo non supervisionato, attraverso magari un isolation forest (sotto ti indico perché questa scelta così particolare)
- Dataset con feature provenienti da dati dell’utente, transazioni e dati comportamentali.
- ROC-AUC quali metriche di validazione
Questa caso d’uso di data science for finance prosegue con un’indicazione su una possibile messa in produzione del modello.
La messa in produzione del modello potrebbe allora prevedere un re-training giornaliero, per l’aggiornamento con i nuovi dati, e una previsione in modalità batch con integrazione tramite Rest API.
Mi rendo conto che si tratta di una descrizione molto limitata, ma è giusto così: questo post intende fornirti un’infarinatura generale sulle possibili applicazioni.
In futuro, approfondiremo eventualmente una o più di queste aree.
Passiamo alla seconda.
Credit Risk Management
Questo secondo caso d’uso di data science for finance è tra i più comuni.
Dal punto di vista degli stakeholders il problema è chiaro: prevedere il rischio d’insolvenza (credit default) di un cliente nei prossimi 12 mesi.
A questo punto la creazione di un modello segue un attento processo di business understanding che potrebbe portare ad esempio alla definizione delle seguenti caratteristiche:
- Classificatore binario facente uso della regressione logistica bayesiana
- Dataset contenente storico degli account finanziari
- Metrica di valutazione punteggio ROC-AUC
Questo non basta. Occorre definire fin da subito una strategia di messa in produzione del modello, una volta ultimato.
Tale strategia potrebbe prevedere ad esempio un re-training giornaliero e previsioni batch per mantenere aggiornato il modello, e una facile integrazione attraverso Rest API.
Problemi tecnici comuni
Prima di salutarci, lasciami presentarti alcuni problemi tecnici comunemente riscontrati nell’applicazione della data science for finance.
Spesso, i severi controlli di sicurezza limitano l’uso dei software ai soli approvati dal dipartimento IT della banca o istituto finanziario.
Niente, o poco, Open Source: meglio optare per qualcosa che offra un servizio di assistenza h24.
In alcuni casi, persino il download di una libreria aggiuntiva per R può tradursi in un calvario di diverse settimane, che si conclude con un sonoro “non necessario” da parte di chi autorizza tali decisioni.
In questi casi interviene generalmente un buon manager che assicura un flusso quanto più fluido possibile nell’esecuzione dei diversi progetti.
Fuori dall’ambito prettamente tecnico, due gravi problemi che dobbiamo considerare nella data science for finance sono:
- Imbalanced dataset
- Feedback loop pitfall
Entrambi possono essere considerati una forma di selection bias.
Imbalanced datasets
Effettivamente nel nostro storico di post, ne manca uno che tratti i bias cognitivi nell’analisi dati.
Penso possa essere molto interessante.
Mentre aspettiamo la pubblicazione, vediamo allora un importante bias cognitivo che può impattare un progetto.
La maggior parte dei dataset nel settore finanziario sono fortemente sbilanciati, con poche classi positive (e.g. attività fraudolente) e moltissime classi negative (e.g. attività legittime).
Una delle soluzioni usate per risolvere questo tipo di problema è l’inserimento di un learning parameter dato dal rapporto tra classi negative e classi positive.
Interessante.
Feedback loop pitfall
Una complicazione esistente qualora si preveda un re-training del modello sugli stessi dati predetti dal modello stesso.
Immaginiamo di aver creato un modello che identifichi truffatori.
I dati, una volta labellati, finirebbero nuovamente nel modello che apprenderebbe di fatto dalle precedenti versioni del modello stesso.
All’atto pratico, significa che i truffatori inizialmente non identificati dal modello non verrebbero mai individuati.
Ancora peggio, il modello imparerebbe come non identificare i truffatori.
Soluzione? Ricordi l‘isolation forest che ti avevo presentato poco fa?
Questo approccio non supervisionato all’apprendimento ci consente di cercare per outliers, mitigando il problema.
Infine, è fondamentale introdurre sistemi multipli indipendenti in aggiunta al modello per la revisione dei clienti e il riconoscimento del loro stato.
Per il momento è tutto.
Per aspera, ad astra.
Un caldo abbraccio, Andrea