Blog.

Anonymization vs Pseudonymization in Semplice Italiano


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
Data Science, Privacy Preserving

reidentification-anonymization-vs-preudonimization-privacy-preserving-machine-learning-data-science-ai-italia-arkhn

Due concetti simili e dalla sottile differenza: Anonymization vs Pseudonymization, spiegato semplicemente in italiano, con alcuni pratici esempi.

Negli ultimi anni le tecnologie di Anonymization o Pseudonymization di dati sensibili si sono sviluppate trovando applicazione in alcuni contesti reali ed effettivi.

Il problema è che spesso la definizione di questi termini rimane poco chiara, e alcuni giungono persino a considerare la pseudonimizzazione una sofisticata variante dell’anonimizzazione benché sia in realtà il contrario.

Vediamo dunque, in sintesi e con due semplici esempi, la differenza tra anonymization vs pseudonymization citando direttamente il GDPR.

Anonymization vs Pseudonymization | Definizione

Qui ci affidiamo direttamente alla fonte primaria: il GDPR.

Per pseudonimizzazione o presudonymization ci riferiamo al:

[…] trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’ausilio di informazioni aggiuntive […]

GDPR – Articolo 4 comma 5

Molto chiaro!

Intendo porre la tua attenzione su un punto particolare.

L’ultima parte della definizione è fondamentale poiché in essa risiede la differenza tra Anonymization vs Pseudonymization.

In particolare i dati pseudonimizzati possono, teoricamente, essere ricostruiti con il supporto di informazione aggiuntiva.

Questo fatto presenta tre grandi implicazioni.

Vediamo insieme!

Pseudonimizzazione dati: implicazioni.

La prima dipende da un rischio interno all’azienda.

Se le identità del dataset fossero modificate con ID casuali, e una index table venisse preservata per ricostruire all’occorrenza le identità, allora il dataset non sarebbe anonimizzato ma pseudonimizzato.

Sarebbe allora interessante capire quante aziende siano a conoscenza di questo particolare.

La seconda implicazione riguarda invece l’esterno.

Se gli identificatori più ovvi fossero cancellati da un dataset, ma fosse comunque possibile ricostruire alcuni record sfruttando dati pubblici, allora il set dati sarebbe ancora una volta solamente pseudonimizzato.

La terza riguarda la natura del dato.

Un’informazione pseudo anonima rimane personale e quindi soggetta alle stesse norme in materia di tutela dati sensibili.

L’anonimizzazione è allora il trattamento dei dati in modo tale che i singoli soggetti non siano più identificabili, non importa quale fonte dati esterna sia impiegata.

Tutto questo fa sì che risulti particolarmente ostico e annoso dimostrare che i dati siano effettivamente anonimizzati.

Persino Netflix cadde in questo inganno nel 2006, quando rilasciando alcuni dati, a loro detta anonimi, fu possibile determinare tendenze politiche di certi utenti ricostruendone l’identità con l’ausilio delle recensioni di IMDB, in un dataset pubblico.

Fu compiuto un attacco avversario di re-identificazione, molto interessante.

Allora perché questo metodo è comunque impiegato?

Il vantaggio chiave è il riconoscimento dei dati anonimizzati a livello legale, e in accordo al GDPR, come non personali, ergo per cui la legislazione in materia di tutela dei dati non è più applicabile.

Questa è una delle principali ragioni per l’interesse nelle tecniche di anonimizzazione è oggi sempre più vivo.

Open Questions

Ecco allora una domanda semplice.

Come possiamo avere la certezza che un dataset sia realmente anonimizzato?

Per rispondere, dobbiamo prima capire cosa sono gli identificatori diretti e quelli indiretti!

Qui puoi invece trovare maggiori dettagli in materia di Anonymization vs Pseudonymization.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Taggeddata scienceprivacyprivacy preserving machine learningteoria


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum