Blog.

Anonimizzazione dati personali: perché è difficile?


Autore
Andrea Provino
Data
Tempo di lettura
2 minuti
Categoria
Data Science, machine-learning, Privacy Preserving

anonimizzazione-perché-difficile-data-privacy-protection-guida-italiano

Oggi scopriamo i motivi per cui l’anonimizzazione dati personali (personal data anonymization) risulta particolarmente difficile da mettere in pratica.

Un attimo di contesto.

Nel nostro precedente articolo abbiamo esaminato la sottile differenza tra anonimizzazione e pseudonimizzazione.

Spesso considerate due facce della stessa medaglia, sono in realtà procedure differenti riconosciute a livello legale.

Chiarendo poi il significato degli identificatori diretti e indiretti, abbiamo ulteriormente approfondito l’ambito della data anonymization e sappiamo ora perché questo problema è oggi così impellente.

Ora però ci chiediamo: perché l’anonimizzazione dei dati personali sia così difficile?

Scopriamolo!

Anonimizzazione dati personali: insidie

Anonimizzare un dataset è un’operazione complessa.

Consideriamo ad esempio una tecnica comune, definita k-anonimity

Il k-anonymity è robusto contro la re-identificazione (re-identification) di singoli sample, poiché assicura che ciascun attributo descriva una popolazione di almeno k individui.

Questo significa che, matematicamente, sono necessari almeno k-1 samples del dataset per poter distinguere un campione dal gruppo.

La procedura richiede che vengano soppressi identificatori diretti e generalizzati quelli indiretti.

Quindi l’attributo age dei pazienti, indiretto e continuo, potrebbe essere generalizzato in categorie discrete come 21-30, 31-40 etc.

Esistono però degli attacchi avversari noti come homogeneity attacks a cui questa tecnica è vulnerabile.

Inoltre è necessario essere in possesso di tutti i dati della distribuzione affinché i metodi di cui sopra non riducano la capacità del modello di generalizzare, impattando altrimenti sulle prestazioni.

Quindi escludiamo pure le applicazioni con real-time data.

Non è chiaro poi come applicare questi metodi a formati dati testuali.

Ulteriori difficoltà

Considera poi che per assicurare una corretta anonimizzazione:

  • Devi garantire robustezza contro la re-identificazione
  • Potresti rimuovere informazioni critiche per le tue analisi ipergeneralizzando
  • Non esiste un processo standard per l’anonimizzazione dati personali

Date queste premesse, potrebbe sembrare una procedura da evitare.

In realtà, abbiamo margine operativo. Ti faccio vedere.

Primo, conoscendo le debolezze di ciascuna tecnica di de-identificazione (i.e. da anonimo a noto, mi rendo conto che i termini sono un po tricky) è comunque possibile usarle con successo su specifici progetti mantenendo sufficienti garanzie di privacy.

Secondo, l’avanzamento del machine learning in settori chiave come l’healthcare e il banking ha permesso di spostare il problema privacy dai dati ai modelli e alle analisi compiute su di essi.

Ad esempio, possiamo applicare tecniche di differential privacy all’output del modello anziché sui dati, che possono anche essere generalizzati, evitando di perdere così informazioni chiave.

Maggiori info? Dai una lettura a questo post!

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Taggeddata scienceprivacy preserving machine learning


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum