Blog.

Data Science for Finance | Use Cases per il Data Scientist


Autore
Andrea Provino
Data
Tempo di lettura
6 minuti
Categoria
Business, Data Science, machine-learning

data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases

Quali sono i casi di applicazione della data science nel settore finanziario? Esploriamo la data science for finance!

Questo post è indirizzato a te, curioso Data Scientist che intende scoprire in che modo la data science si applichi al settore finanziario, nonché a te che intendi costruirti uno percorso professionale e cerchi di capire quali siano le applicazioni reali di data science.

Allora, senza ulteriori indugi, issiamo le vele e puntiamo verso il freddo nord.

Data Science for Finance

La Data Science applicata può velocizzare il decision making e aiutare a prendere decisioni migliori, nonché aumentare la qualità dei servizi offerti ai clienti.

Non solo. Scopriremo infatti come possa costituire una preziosa arma contro i crimini finanziari.

Prima di poterci godere il viaggio dalla pruda della nostra nave, dobbiamo fare alcune considerazioni.

Le difficoltà della data science for finance

Il settore finanziario è tra più regolamentati settori economici a livello nazionale e internazionale.

Questo tutela i consumatori da un lato e impatta pesantemente nel lavoro di un data scientist dall’altro, ed è quindi un fattore da tenere a mente.

Una buona parte del lavoro consiste nel presentare i risultati agli stakeholders, con chiarezza e precisione, sottolineando non tanto la metodologia adottata quanto piuttosto la soluzione trovata.

Questo perché le regolamentazioni richiedono piena trasparenza sui criteri usati per compiere specifiche azioni sui clienti (e.g. approvazione mutui, etc…)

Non solo.

Nella data science for finance, specie ove questa richieda la creazione di modelli, un piccolo errore può tradursi in grandi potenziali perdite.

La quantità di denaro in gioco è altissima, così un errore banale si traduce in 50-60k dollari persi al giorno, ad esempio.

Per questo motivo i sistemi di monitoraggio sono così importanti e devono essere progettati per gestire simili evenienze.

Infine, la natura dei dati tipicamente disponibili presenta problemi comuni che devono sempre essere presi in considerazione durante ogni fase di un progetto.

Vedremo altri problemi tecnici più avanti.

Ora, iniziamo.

Data Science For finance Use Cases

Quali sono allora le aree concrete di applicazione della data science for finance?

  • Prevenzione dei crimini finanziari (Financial Crime Prevention)
  • Riconscimento transazioni (Transaction Categorization & Smart Statistics)
  • Profilazione del cliente (Know Your Customer, KYC)
  • Gestione del rischio di credito (Cedit Risk Management)
  • Chatbot e automazione customer experience

Di queste ne esamineremo due.

Per ognuna delle aree identificate intendo poi porre la tua attenzione su tre elementi fondamentali:

  • Il business problem
  • Le specifiche di un eventuale modello*
  • La strategia di messa in produzione del modello*

*(a titolo esemplificativo)

Financial Crime Prevention

Questa applicazione di data science for finance è molto vasta.

Possiamo riassumere il business problem nell’identificare utenti con attività fraudolente.

La natura dei crimini finanziari può però essere diversa, e comprende ad esempio:

  • Attività di riciclaggio di denaro, un’area d’interesse complessivamente nota come Antimoney laundering (AML).
  • Individuazione frodi finanziarie, Fraud Detection
  • Lotta al terrorismo finanziario, counter-terrorist financing (CTF)

Esistono specifiche regolamentazioni nazionali e internazionali che obbligano le banche e gli istituti finanziari a vigilare per prevenire e all’occorrenza segnalare questi illeciti.

L’EU ha esempio emanato la quinta direttiva sul riciclaggio di denaro (Fifth Money Laundering Directive – MLD5) con l’obbligo di essere trasposta agli stati membri entro il gennaio 2020 (sì, non 2021).

Tornando a noi…

In questo caso potremmo definire le specifiche di un possibile modello come segue:

  • Classificatore binario, di tipo non supervisionato, attraverso magari un isolation forest (sotto ti indico perché questa scelta così particolare)
  • Dataset con feature provenienti da dati dell’utente, transazioni e dati comportamentali.
  • ROC-AUC quali metriche di validazione

Questa caso d’uso di data science for finance prosegue con un’indicazione su una possibile messa in produzione del modello.

La messa in produzione del modello potrebbe allora prevedere un re-training giornaliero, per l’aggiornamento con i nuovi dati, e una previsione in modalità batch con integrazione tramite Rest API.

Mi rendo conto che si tratta di una descrizione molto limitata, ma è giusto così: questo post intende fornirti un’infarinatura generale sulle possibili applicazioni.

In futuro, approfondiremo eventualmente una o più di queste aree.

Passiamo alla seconda.

Credit Risk Management

Questo secondo caso d’uso di data science for finance è tra i più comuni.

Dal punto di vista degli stakeholders il problema è chiaro: prevedere il rischio d’insolvenza (credit default) di un cliente nei prossimi 12 mesi.

A questo punto la creazione di un modello segue un attento processo di business understanding che potrebbe portare ad esempio alla definizione delle seguenti caratteristiche:

  • Classificatore binario facente uso della regressione logistica bayesiana
  • Dataset contenente storico degli account finanziari
  • Metrica di valutazione punteggio ROC-AUC

Questo non basta. Occorre definire fin da subito una strategia di messa in produzione del modello, una volta ultimato.

Tale strategia potrebbe prevedere ad esempio un re-training giornaliero e previsioni batch per mantenere aggiornato il modello, e una facile integrazione attraverso Rest API.

Problemi tecnici comuni

Prima di salutarci, lasciami presentarti alcuni problemi tecnici comunemente riscontrati nell’applicazione della data science for finance.

Spesso, i severi controlli di sicurezza limitano l’uso dei software ai soli approvati dal dipartimento IT della banca o istituto finanziario.

Niente, o poco, Open Source: meglio optare per qualcosa che offra un servizio di assistenza h24.

In alcuni casi, persino il download di una libreria aggiuntiva per R può tradursi in un calvario di diverse settimane, che si conclude con un sonoro “non necessario” da parte di chi autorizza tali decisioni.

In questi casi interviene generalmente un buon manager che assicura un flusso quanto più fluido possibile nell’esecuzione dei diversi progetti.

Fuori dall’ambito prettamente tecnico, due gravi problemi che dobbiamo considerare nella data science for finance sono:

  • Imbalanced dataset
  • Feedback loop pitfall

Entrambi possono essere considerati una forma di selection bias.

Imbalanced datasets

Effettivamente nel nostro storico di post, ne manca uno che tratti i bias cognitivi nell’analisi dati.

Penso possa essere molto interessante.

Mentre aspettiamo la pubblicazione, vediamo allora un importante bias cognitivo che può impattare un progetto.

La maggior parte dei dataset nel settore finanziario sono fortemente sbilanciati, con poche classi positive (e.g. attività fraudolente) e moltissime classi negative (e.g. attività legittime).

Una delle soluzioni usate per risolvere questo tipo di problema è l’inserimento di un learning parameter dato dal rapporto tra classi negative e classi positive.

Interessante.

Feedback loop pitfall

Una complicazione esistente qualora si preveda un re-training del modello sugli stessi dati predetti dal modello stesso.

Immaginiamo di aver creato un modello che identifichi truffatori.

I dati, una volta labellati, finirebbero nuovamente nel modello che apprenderebbe di fatto dalle precedenti versioni del modello stesso.

All’atto pratico, significa che i truffatori inizialmente non identificati dal modello non verrebbero mai individuati.

Ancora peggio, il modello imparerebbe come non identificare i truffatori.

Soluzione? Ricordi l‘isolation forest che ti avevo presentato poco fa?

Questo approccio non supervisionato all’apprendimento ci consente di cercare per outliers, mitigando il problema.

Infine, è fondamentale introdurre sistemi multipli indipendenti in aggiunta al modello per la revisione dei clienti e il riconoscimento del loro stato.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea

Taggeddata sciencedata scientistfinance-fintechuse cases


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum