Privacy Preserving Record Linkage (PPRL)

Autore

Andrea Provino

Data

13 giugno 2020

Tempo di lettura

4 minuti

Categoria

AI, Privacy Preserving

privacy-preserving-record-linkage-privacy-preserving-machine-learning

Il Privacy Preserving Record Linkage è l’operazione d’identificazione, abbinamento (matching) e fusione (merging) di record appartenenti alla stessa entità e provenienti da differenti, o dal medesimo, database. Il tutto avviene senza tuttavia rivelare alcuna informazione privata delle parti coinvolte.

Esistono molteplici espressioni che riconducono alla medesima pratica.

Devi infatti sapere che il Record Linkage è conosciuto anche come:

Data Matching
Data Linkage
Entity Resolutions
Object identification
Field Matching

I due scopi principali dell’applicazione di questo processo sono:

Quello di data integration, per la creazione di un unico file e successive analisi sui dati integrati
Quello di step intermedio per la creazione di un file su cui eseguire calcoli futuri.

Con il crescente interesse per soluzioni di Privacy Preserving e il costante aumento del volume dei dati in gioco, ecco la nascita del Privacy Preserving Record Linkage.

Facciamo una breve riflessione.

Big Data e Privacy

I Big Data rappresentano enormi opportunità per le aziende intente a sviluppare una filosofia data-driven volta a un costante miglioramento dei propri prodotti.

Non solo.

Cercando esempi specifici, il settore dell’ healthcare potrebbe trarre enormi benefici attraverso la condivisione dei dati ospedalieri, accelerando le ricerche e velocizzando le diagnosi.

Il principale ostacolo è però rappresentato dalla necessità di tutelare la privacy delle istanze coinvolte nelle operazioni di condivisione e analisi.

A livello corporate, questo limita sia l’interazione interaziendale, sia quella intraziendale, qualora i dati fossero contenuti in data silos di singoli dipartimenti o team.

Il Privacy Preserving Record Linkage è allora una valida soluzione a queste problematiche.

Dobbiamo però considerare che l’applicazione del Record Linkage ai Big Data ha fatto emergere alcune sfide:

Problemi di scalabilità, da imputarsi principalmente al volume di dati generato dalle ingenti dimensioni di database multipli
Mediocri risultati, dovuti alla Variabilità (varierty) e Veridicità (veracity) dei dati (i.e. Dati provenienti da diverse fonti, in altrettanti formati, e contenenti bias e anomalie)

Record Linkage

Prima di concentrarci sui meccanismi di tutela della privacy è opportuno chiarire il funzionamento, seppur in modo approssimativo, del processo di Record Linkage.

Devi allora conoscere un concetto chiave.

La maggior parte delle tecniche moderne di Record Linkage fa ricorso a un approccio probabilistico noto come metodo di Fellegi-Sunter, basato su un modello decisionale.

Questo metodo è raccomandato nei casi in cui manchino unique identifiers per ogni record, o quelli presenti siano affetti da errori.

Della serie… se su due dataset in fase di raccolta dati è stato previsto un ID comune ben venga: possiamo unire i record. In caso contrario, ci occorre una strategia.

Nello specifico dobbiamo presupporre che, affinché il metodo di Fellegi-Sunter possa essere applicato:

I record delle data sources descrivano osservazioni di entità appartenenti a una popolazione particolare.
I record contengano alcuni attributi identificanti entità individuali (e.g. Nome, indirizzo, età per persone fisiche, o turnover, numero d’impiegati per le aziende).

Sulla base di queste premesse, date due o più fonti dati, le coppie determinate dal prodotto cartesiano (Cartesian product) delle data sources devono essere classificate in tre gruppi indipendenti e mutualmente esclusivi (mutually exclusive):

Gruppo di corrispondenze (set of matches)
Gruppo di non corrispodenze (set of non-matches)
Insieme da controllare manualmente

Ora compariamo gli attributi simili generando un punteggio probabilistico di appartenenza di ogni coppia a ciascun gruppo.

Il modello mira a minimizzare sia l’errore di classificazione che la probabilità che una data coppia appartenga all’insieme di controllo manuale.

Su questo documento, peraltro curato dalla comunità europea, possiamo trovare maggiori informazioni a riguardo.

Privacy Preserving Record Linkage

Eviteremo di scendere troppo in particolari tecnici per almeno tre ragioni:

La natura divulgativa del post, che non intende trattare formule matematiche complesse bensì fornire una overview generale sul processo.
La complessità dell’argomento, per cui ho trovato fonti valide ma molto prolisse.
Le particolari applicazioni del Record Linkage che lo rendono difficilmente utile in contesti comuni.

Ho comunque scelto di presentarti uno spunto utile su cui ragionare.

Anonlink è una suite di tecnologie ideata dall’azienda australiana Data61 che consente a due organizzazioni di eseguire il processo di Privacy Preserving Record Linkage, senza dunque far trapelare in alcun momento qualsivoglia PII (Personally Identifiable Information).

Utilizzando il client Anonlink, peraltro open source, è possibile creare dei linking code criptati, anche a partire da informazioni private, e inviarli a un servizio centrale che ne esegue l’entity resolution restituendo l’eventuale collegamento esistente.

A sovraintendere la procedura di matching è in questo caso una tecnica probabilistica, che calcola la similarità (similarity score) per ogni coppia di associazioni plausibili offrendo all’utente finale la possibilità di scegliere tra il risultato raw e l’accoppiamento migliore definito da un threshold.

In questo modo è persino possibile gestire il tradeoff tra precisione e accuratezza

Per il momento è tutto!

Un caldo abbraccio, Andrea.

Blog.

Privacy Preserving Record Linkage (PPRL)

Big Data e Privacy

Record Linkage

Privacy Preserving Record Linkage

Ultimi post