Anonymization vs Pseudonymization in Semplice Italiano

Autore

Andrea Provino

Data

27 settembre 2020

Tempo di lettura

3 minuti

Categoria

Data Science, Privacy Preserving

reidentification-anonymization-vs-preudonimization-privacy-preserving-machine-learning-data-science-ai-italia-arkhn

Due concetti simili e dalla sottile differenza: Anonymization vs Pseudonymization, spiegato semplicemente in italiano, con alcuni pratici esempi.

Negli ultimi anni le tecnologie di Anonymization o Pseudonymization di dati sensibili si sono sviluppate trovando applicazione in alcuni contesti reali ed effettivi.

Il problema è che spesso la definizione di questi termini rimane poco chiara, e alcuni giungono persino a considerare la pseudonimizzazione una sofisticata variante dell’anonimizzazione benché sia in realtà il contrario.

Vediamo dunque, in sintesi e con due semplici esempi, la differenza tra anonymization vs pseudonymization citando direttamente il GDPR.

Anonymization vs Pseudonymization | Definizione

Qui ci affidiamo direttamente alla fonte primaria: il GDPR.

Per pseudonimizzazione o presudonymization ci riferiamo al:

[…] trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’ausilio di informazioni aggiuntive […]
GDPR – Articolo 4 comma 5

Molto chiaro!

Intendo porre la tua attenzione su un punto particolare.

L’ultima parte della definizione è fondamentale poiché in essa risiede la differenza tra Anonymization vs Pseudonymization.

In particolare i dati pseudonimizzati possono, teoricamente, essere ricostruiti con il supporto di informazione aggiuntiva.

Questo fatto presenta tre grandi implicazioni.

Vediamo insieme!

Pseudonimizzazione dati: implicazioni.

La prima dipende da un rischio interno all’azienda.

Se le identità del dataset fossero modificate con ID casuali, e una index table venisse preservata per ricostruire all’occorrenza le identità, allora il dataset non sarebbe anonimizzato ma pseudonimizzato.

Sarebbe allora interessante capire quante aziende siano a conoscenza di questo particolare.

La seconda implicazione riguarda invece l’esterno.

Se gli identificatori più ovvi fossero cancellati da un dataset, ma fosse comunque possibile ricostruire alcuni record sfruttando dati pubblici, allora il set dati sarebbe ancora una volta solamente pseudonimizzato.

La terza riguarda la natura del dato.

Un’informazione pseudo anonima rimane personale e quindi soggetta alle stesse norme in materia di tutela dati sensibili.

L’anonimizzazione è allora il trattamento dei dati in modo tale che i singoli soggetti non siano più identificabili, non importa quale fonte dati esterna sia impiegata.

Tutto questo fa sì che risulti particolarmente ostico e annoso dimostrare che i dati siano effettivamente anonimizzati.

Persino Netflix cadde in questo inganno nel 2006, quando rilasciando alcuni dati, a loro detta anonimi, fu possibile determinare tendenze politiche di certi utenti ricostruendone l’identità con l’ausilio delle recensioni di IMDB, in un dataset pubblico.

Fu compiuto un attacco avversario di re-identificazione, molto interessante.

Allora perché questo metodo è comunque impiegato?

Il vantaggio chiave è il riconoscimento dei dati anonimizzati a livello legale, e in accordo al GDPR, come non personali, ergo per cui la legislazione in materia di tutela dei dati non è più applicabile.

Questa è una delle principali ragioni per l’interesse nelle tecniche di anonimizzazione è oggi sempre più vivo.