Blog.

Privacy Preserving Record Linkage (PPRL)


Autore
Andrea Provino
Data
Tempo di lettura
4 minuti
Categoria
AI, Privacy Preserving

privacy-preserving-record-linkage-privacy-preserving-machine-learning

Il Privacy Preserving Record Linkage è l’operazione d’identificazione, abbinamento (matching) e fusione (merging) di record appartenenti alla stessa entità e provenienti da differenti, o dal medesimo, database. Il tutto avviene senza tuttavia rivelare alcuna informazione privata delle parti coinvolte.

Esistono molteplici espressioni che riconducono alla medesima pratica.

Devi infatti sapere che il Record Linkage è conosciuto anche come:

  • Data Matching
  • Data Linkage
  • Entity Resolutions
  • Object identification
  • Field Matching

I due scopi principali dell’applicazione di questo processo sono:

  • Quello di data integration, per la creazione di un unico file e successive analisi sui dati integrati
  • Quello di step intermedio per la creazione di un file su cui eseguire calcoli futuri.

Con il crescente interesse per soluzioni di Privacy Preserving e il costante aumento del volume dei dati in gioco, ecco la nascita del Privacy Preserving Record Linkage.

Facciamo una breve riflessione.

Big Data e Privacy

I Big Data rappresentano enormi opportunità per le aziende intente a sviluppare una filosofia data-driven volta a un costante miglioramento dei propri prodotti.

Non solo.

Cercando esempi specifici, il settore dell’ healthcare potrebbe trarre enormi benefici attraverso la condivisione dei dati ospedalieri, accelerando le ricerche e velocizzando le diagnosi.

Il principale ostacolo è però rappresentato dalla necessità di tutelare la privacy delle istanze coinvolte nelle operazioni di condivisione e analisi.

A livello corporate, questo limita sia l’interazione interaziendale, sia quella intraziendale, qualora i dati fossero contenuti in data silos di singoli dipartimenti o team.

Il Privacy Preserving Record Linkage è allora una valida soluzione a queste problematiche.

Dobbiamo però considerare che l’applicazione del Record Linkage ai Big Data ha fatto emergere alcune sfide:

  • Problemi di scalabilità, da imputarsi principalmente al volume di dati generato dalle ingenti dimensioni di database multipli
  • Mediocri risultati, dovuti alla Variabilità (varierty) e Veridicità (veracity) dei dati (i.e. Dati provenienti da diverse fonti, in altrettanti formati, e contenenti bias e anomalie)

Record Linkage

Prima di concentrarci sui meccanismi di tutela della privacy è opportuno chiarire il funzionamento, seppur in modo approssimativo, del processo di Record Linkage.

Devi allora conoscere un concetto chiave.

La maggior parte delle tecniche moderne di Record Linkage fa ricorso a un approccio probabilistico noto come metodo di Fellegi-Sunter, basato su un modello decisionale.

Questo metodo è raccomandato nei casi in cui manchino unique identifiers per ogni record, o quelli presenti siano affetti da errori.

Della serie… se su due dataset in fase di raccolta dati è stato previsto un ID comune ben venga: possiamo unire i record. In caso contrario, ci occorre una strategia.

Nello specifico dobbiamo presupporre che, affinché il metodo di Fellegi-Sunter possa essere applicato:

  • I record delle data sources descrivano osservazioni di entità appartenenti a una popolazione particolare.
  • I record contengano alcuni attributi identificanti entità individuali (e.g. Nome, indirizzo, età per persone fisiche, o turnover, numero d’impiegati per le aziende).

Sulla base di queste premesse, date due o più fonti dati, le coppie determinate dal prodotto cartesiano (Cartesian product) delle data sources devono essere classificate in tre gruppi indipendenti e mutualmente esclusivi (mutually exclusive):

  • Gruppo di corrispondenze (set of matches)
  • Gruppo di non corrispodenze (set of non-matches)
  • Insieme da controllare manualmente

Ora compariamo gli attributi simili generando un punteggio probabilistico di appartenenza di ogni coppia a ciascun gruppo.

Il modello mira a minimizzare sia l’errore di classificazione che la probabilità che una data coppia appartenga all’insieme di controllo manuale.

Su questo documento, peraltro curato dalla comunità europea, possiamo trovare maggiori informazioni a riguardo.

Privacy Preserving Record Linkage

Eviteremo di scendere troppo in particolari tecnici per almeno tre ragioni:

  • La natura divulgativa del post, che non intende trattare formule matematiche complesse bensì fornire una overview generale sul processo.
  • La complessità dell’argomento, per cui ho trovato fonti valide ma molto prolisse.
  • Le particolari applicazioni del Record Linkage che lo rendono difficilmente utile in contesti comuni.

Ho comunque scelto di presentarti uno spunto utile su cui ragionare.

Anonlink è una suite di tecnologie ideata dall’azienda australiana Data61 che consente a due organizzazioni di eseguire il processo di Privacy Preserving Record Linkage, senza dunque far trapelare in alcun momento qualsivoglia PII (Personally Identifiable Information).

Utilizzando il client Anonlink, peraltro open source, è possibile creare dei linking code criptati, anche a partire da informazioni private, e inviarli a un servizio centrale che ne esegue l’entity resolution restituendo l’eventuale collegamento esistente.

A sovraintendere la procedura di matching è in questo caso una tecnica probabilistica, che calcola la similarità (similarity score) per ogni coppia di associazioni plausibili offrendo all’utente finale la possibilità di scegliere tra il risultato raw e l’accoppiamento migliore definito da un threshold.

In questo modo è persino possibile gestire il tradeoff tra precisione e accuratezza

Per il momento è tutto!

Un caldo abbraccio, Andrea.

Taggedprivacyprivacy preserving machine learningteoria


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum