Blog.

Machine Learning Credit Score: Privacy Preserving e Federated Learning


Autore
Andrea Provino
Data
Tempo di lettura
6 minuti
Categoria
AI, Privacy Preserving

credit-score-non-iid-consulenza-privacy-preserving-machine-learning-fintech-guida-italia

Il machine learning è oggi usato per calcolare il credit score, l’indicatore del merito creditizio dei richiedenti un prestito finanziario, impiegato per valutare la sua eventuale insolvibilità.

In questo post vediamo insieme come tecniche di tutela della privacy possano essere concretamente impiegate per maggiore sicurezza!

Un requisito fondamentale per ogni data scientist e machine learning engineer che si rispetti è il domain knwoledge sul business in cui si opera.

Prim di procedere dobbiamo quindi acculturarci un po’

Credit Score e Cultura finanziaria

Per capire correttamente questo post dobbiamo infondere un po’ di cultura finanziare nelle nostre giovane abili menti.

Devi sapere una cosa.

Nel 1962, l’Italia istituì la prima Centrale Rischi (CR).

Diede così vita a un sistema informativo, gestito dalla Banca d’Italia, cui ricorrono le banche e le società finanziarie per ottenere informazioni riguardo alla situazione d’indebitamento dei loro clienti nei confronti delle stesse banche e società finanziare, nonché il loro merito di credito.

Il servizio che le Centrali Rischi offrono viene definito credit bureau: è un database sulle notizie relative alla storia creditizia di chi ha richiesto denaro in prestito.

Esistono anche credit bureau di natura privata e chiamati SIC (Sistema d’Informazioni Creditizie); i più noti sono:

  • CRIF (Centrale Rischi d’Intermediazione Finanziaria)
  • Cerved Group
  • Experian

I sistemi si basano su un continuo scambio d’informazioni, normalmente a cadenza mensile, tra banche e Centrale Rischi

In questo modo è possibile conoscere, pressoché in tempo reale, tutte le informazioni concernenti le posizioni debitorie dei singoli clienti.

In che modo viene effettivamente impiegato tutto ciò?

Facciamo un esempio.

Qualora il pagamento di una, o più rate di un prestito subisse ritardi, o peggio non venisse effettuata, gli istituti di credito procederebbero all’iscrizione del cliente nelle liste della Centrale Rischi come cattivo pagatore.

I cattivi pagatori potrebbero vedersi rifiutata la richiesta di un eventuale finanziamento futuro o comunque sarebbero tenuti a pagare tassi d’interesse più alto, a copertura di un maggiore rischio.

Gli operatori finanziari e le banche possono dunque sfruttare i dati della Centrale Rischi per calcolare l’affidabilità creditizia di chiunque richieda un finanziamento.

Si genera così un bureau score, o credit score.

Ti esorto a guardare questo documento, un po’ datato ma interessante, relativo alla situazione oltre oceano.

La situazione attuale: calcolo del credit score

Lo storico dati è estremamente utile per valutare la situazione finanziaria di vecchi clienti; come possiamo però gestire quelli nuovi, privi di record?

Entra in gioco il machine learning.

Giovani persone con una breve storia creditizia possono avere accesso a prestiti.

Con i dati centralizzati forniti dal credit bureau è infatti possibile creare dei modelli che producano il credit score per un eventuale nuovo cliente.

Questa informazione è poi passata alle banche o istituti finanziari per determinare il rischio d’insolvibilità, stabilendo se sia possibile procedere con le pratiche ed eventualmente fissando i termini del credito (e.g. il tasso d’interesse).

Questa architettura ha però un grave problema di sicurezza: i dati sono situati in un unico database centralizzato che costituisce il single point of failure della filiera.

Un malintenzionato avrebbe facile accesso a molti dati privati, violando una sola volta i sistemi di sicurezza.

Al contrario le Centrali Rischi potrebbero fornire il Credit Bureau, che da quanto mi pare di capire produce il credit score per i clienti desiderati, attraverso l’ausilio del federated learning.

In questo modo la privacy dei clienti sarebbe tutelata dai singoli istituti finanziari, dal momento che i dati non sarebbero inviati esternamente.

Sappiamo che il federated learning consente di ottimizzare un modello di machine learning usando dati distribuiti su molteplici macchine (i.e. device, o istituzioni / aziende).

Federated Learning System

Accoppiando questa tecnica con protocolli di sicurezza avanzati e metodi di differential privacy è possibile tutelare la privacy dei clienti e ridurre il rischio di data leak.

Un sistema federato funzionerebbe in questo modo:

  1. I fornitori di dati (data furnischers), come banche e istituti finanziari, mantengono il controllo sui dati dei propri clienti senza doverli mai condividere esternamente
  2. L’ausilio del federated learning consente alle Centrali Rischi di creare un singolo, olistico, modello di credit scoring senza accedere in modo diretto ai dati dei consumatori.
  3. In caso di domanda da parte di un’istituzione, le Centrali Rischi calcolano il credit score attraverso un’inferenza sicura, usando unicamente i dati del cliente interessato per mezzo di una richiesta criptata.

Win-Win

Nella teoria dei giochi l’espressione Win-Win, è usata per indicare quei giochi normalmente cooperativi, con struttura e regole tali per cui non esistono vinti ma tutti i giocatori vincono.

In ambito economico delinea una trattativa nella quale entrambe le parti soddisfano i propri interessi.

Capiamo dunque in che modo il Federated Learning applicato al calcolo del credit score si configura come tale:

Consumatore

Ecco i benefici che avrebbero i clienti:

  • Nessun single point of failure. I dati dei clienti sono maggiormente protetti da attacchi di esfiltrazione dati. A essere colpita sarebbe la banca dati di una singola istituzione, circoscrivendo il danno a un numero limitato di clienti.
  • Portabilità internazionale del credito. Sarebbe tecnologicamente possibile per i governi e le istituzioni private eseguire analisi su dati stranieri di terze parti attraverso l’ausilio del federated learning. Così facendo espatriati e immigrati non dovrebbero creare un nuovo storico finanziario.

Istituti Finanziari

Gli istituti finanziari semplificherebbero le procedure:

  • Controllo semplificato e compliance. Il federated learning consente alle istituzioni finanziarie di gestire i dati dei propri clienti, evitando dispendiose e vulnerabili operazioni di trasferimento.

Centrali Rischio

  • Posizionamento strategico e competitivo. Una Centrale Rischio con tali tecnologie attive detiene una posizione competitiva nel mercato, in grado di sopportare le pressioni di startup e competitors. Il vantaggio strategico garantito dalle analisi sicure, affidabili e private è difficilmente eguagliabile.

Credit score: Non-IID Problem

Volendo l’apprendimento federato per il calcolo del credit score mettiamo in conto la gestione di non-IID: vale a dire i dati non indipendenti e identicamente distribuiti.

È molto utile approfondire il loro studio, qualora ti fossero nuovi!

Nel nostro caso, il problema di non-IIDness si presenta sotto forma di:

  • Nuove istituzioni finanziarie con pochi dati sui propri clienti (quantity skew)
  • Istituti di credito che autorizzano prestiti con un periodo di rimborso breve, contrapposti ai più lunghi mutui. (distribution skew)

Come abbiamo imparato, la presenza di non-IID ostacola la convergenza del modello.

Questo fenomeno è particolarmente preoccupante e annoso quando un istituto finanziario, o un gruppo di essi, contiene un numero sproporzionato di dati relativi a una specifica classe di persone.

I modelli istruiti su tali dati verrebbero offuscati da quelli allenati negli altri data silos, dall’operazione di media del server coordinatore.

Nel peggior caso delineabile (worst case scenario) il modello conterebbe bias verso una classe di persone, sotto forma di razza, genere, preferenze religiose od orientamento sessuale, andando a violare i principi di AI Fairness. e le vigenti norme legali.

Negli Stati Uniti, tale legge è l’Equal Credit Opportunity Act.

Per il momento è tutto.

Un caldo abbraccio, Andrea.

P.S.: Articolo nato da una collaborazione tra openmined e Datafleets, qui tradotto e integrato in italiano.

Taggedai fairnessdifferential privacyprivacy


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum