Il machine learning è oggi usato per calcolare il credit score, l’indicatore del merito creditizio dei richiedenti un prestito finanziario, impiegato per valutare la sua eventuale insolvibilità.
In questo post vediamo insieme come tecniche di tutela della privacy possano essere concretamente impiegate per maggiore sicurezza!
Un requisito fondamentale per ogni data scientist e machine learning engineer che si rispetti è il domain knwoledge sul business in cui si opera.
Prim di procedere dobbiamo quindi acculturarci un po’
Credit Score e Cultura finanziaria
Per capire correttamente questo post dobbiamo infondere un po’ di cultura finanziare nelle nostre giovane abili menti.
Devi sapere una cosa.
Nel 1962, l’Italia istituì la prima Centrale Rischi (CR).
Diede così vita a un sistema informativo, gestito dalla Banca d’Italia, cui ricorrono le banche e le società finanziarie per ottenere informazioni riguardo alla situazione d’indebitamento dei loro clienti nei confronti delle stesse banche e società finanziare, nonché il loro merito di credito.
Il servizio che le Centrali Rischi offrono viene definito credit bureau: è un database sulle notizie relative alla storia creditizia di chi ha richiesto denaro in prestito.
Esistono anche credit bureau di natura privata e chiamati SIC (Sistema d’Informazioni Creditizie); i più noti sono:
- CRIF (Centrale Rischi d’Intermediazione Finanziaria)
- Cerved Group
- Experian
I sistemi si basano su un continuo scambio d’informazioni, normalmente a cadenza mensile, tra banche e Centrale Rischi
In questo modo è possibile conoscere, pressoché in tempo reale, tutte le informazioni concernenti le posizioni debitorie dei singoli clienti.
In che modo viene effettivamente impiegato tutto ciò?
Facciamo un esempio.
Qualora il pagamento di una, o più rate di un prestito subisse ritardi, o peggio non venisse effettuata, gli istituti di credito procederebbero all’iscrizione del cliente nelle liste della Centrale Rischi come cattivo pagatore.
I cattivi pagatori potrebbero vedersi rifiutata la richiesta di un eventuale finanziamento futuro o comunque sarebbero tenuti a pagare tassi d’interesse più alto, a copertura di un maggiore rischio.
Gli operatori finanziari e le banche possono dunque sfruttare i dati della Centrale Rischi per calcolare l’affidabilità creditizia di chiunque richieda un finanziamento.
Si genera così un bureau score, o credit score.
Ti esorto a guardare questo documento, un po’ datato ma interessante, relativo alla situazione oltre oceano.
La situazione attuale: calcolo del credit score
Lo storico dati è estremamente utile per valutare la situazione finanziaria di vecchi clienti; come possiamo però gestire quelli nuovi, privi di record?
Entra in gioco il machine learning.
Giovani persone con una breve storia creditizia possono avere accesso a prestiti.
Con i dati centralizzati forniti dal credit bureau è infatti possibile creare dei modelli che producano il credit score per un eventuale nuovo cliente.
Questa informazione è poi passata alle banche o istituti finanziari per determinare il rischio d’insolvibilità, stabilendo se sia possibile procedere con le pratiche ed eventualmente fissando i termini del credito (e.g. il tasso d’interesse).
Questa architettura ha però un grave problema di sicurezza: i dati sono situati in un unico database centralizzato che costituisce il single point of failure della filiera.
Un malintenzionato avrebbe facile accesso a molti dati privati, violando una sola volta i sistemi di sicurezza.
Al contrario le Centrali Rischi potrebbero fornire il Credit Bureau, che da quanto mi pare di capire produce il credit score per i clienti desiderati, attraverso l’ausilio del federated learning.
In questo modo la privacy dei clienti sarebbe tutelata dai singoli istituti finanziari, dal momento che i dati non sarebbero inviati esternamente.
Sappiamo che il federated learning consente di ottimizzare un modello di machine learning usando dati distribuiti su molteplici macchine (i.e. device, o istituzioni / aziende).
Federated Learning System
Accoppiando questa tecnica con protocolli di sicurezza avanzati e metodi di differential privacy è possibile tutelare la privacy dei clienti e ridurre il rischio di data leak.
Un sistema federato funzionerebbe in questo modo:
- I fornitori di dati (data furnischers), come banche e istituti finanziari, mantengono il controllo sui dati dei propri clienti senza doverli mai condividere esternamente
- L’ausilio del federated learning consente alle Centrali Rischi di creare un singolo, olistico, modello di credit scoring senza accedere in modo diretto ai dati dei consumatori.
- In caso di domanda da parte di un’istituzione, le Centrali Rischi calcolano il credit score attraverso un’inferenza sicura, usando unicamente i dati del cliente interessato per mezzo di una richiesta criptata.
Win-Win
Nella teoria dei giochi l’espressione Win-Win, è usata per indicare quei giochi normalmente cooperativi, con struttura e regole tali per cui non esistono vinti ma tutti i giocatori vincono.
In ambito economico delinea una trattativa nella quale entrambe le parti soddisfano i propri interessi.
Capiamo dunque in che modo il Federated Learning applicato al calcolo del credit score si configura come tale:
Consumatore
Ecco i benefici che avrebbero i clienti:
- Nessun single point of failure. I dati dei clienti sono maggiormente protetti da attacchi di esfiltrazione dati. A essere colpita sarebbe la banca dati di una singola istituzione, circoscrivendo il danno a un numero limitato di clienti.
- Portabilità internazionale del credito. Sarebbe tecnologicamente possibile per i governi e le istituzioni private eseguire analisi su dati stranieri di terze parti attraverso l’ausilio del federated learning. Così facendo espatriati e immigrati non dovrebbero creare un nuovo storico finanziario.
Istituti Finanziari
Gli istituti finanziari semplificherebbero le procedure:
- Controllo semplificato e compliance. Il federated learning consente alle istituzioni finanziarie di gestire i dati dei propri clienti, evitando dispendiose e vulnerabili operazioni di trasferimento.
Centrali Rischio
- Posizionamento strategico e competitivo. Una Centrale Rischio con tali tecnologie attive detiene una posizione competitiva nel mercato, in grado di sopportare le pressioni di startup e competitors. Il vantaggio strategico garantito dalle analisi sicure, affidabili e private è difficilmente eguagliabile.
Credit score: Non-IID Problem
Volendo l’apprendimento federato per il calcolo del credit score mettiamo in conto la gestione di non-IID: vale a dire i dati non indipendenti e identicamente distribuiti.
È molto utile approfondire il loro studio, qualora ti fossero nuovi!
Nel nostro caso, il problema di non-IIDness si presenta sotto forma di:
- Nuove istituzioni finanziarie con pochi dati sui propri clienti (quantity skew)
- Istituti di credito che autorizzano prestiti con un periodo di rimborso breve, contrapposti ai più lunghi mutui. (distribution skew)
Come abbiamo imparato, la presenza di non-IID ostacola la convergenza del modello.
Questo fenomeno è particolarmente preoccupante e annoso quando un istituto finanziario, o un gruppo di essi, contiene un numero sproporzionato di dati relativi a una specifica classe di persone.
I modelli istruiti su tali dati verrebbero offuscati da quelli allenati negli altri data silos, dall’operazione di media del server coordinatore.
Nel peggior caso delineabile (worst case scenario) il modello conterebbe bias verso una classe di persone, sotto forma di razza, genere, preferenze religiose od orientamento sessuale, andando a violare i principi di AI Fairness. e le vigenti norme legali.
Negli Stati Uniti, tale legge è l’Equal Credit Opportunity Act.
Per il momento è tutto.
Un caldo abbraccio, Andrea.
P.S.: Articolo nato da una collaborazione tra openmined e Datafleets, qui tradotto e integrato in italiano.