Direct vs Indirect Identifiers

Autore

Andrea Provino

Data

28 settembre 2020

Tempo di lettura

2 minuti

Categoria

Data Science, Privacy Preserving

anonymization-data-science-direct-vs-indirect-identifiers

La differenza tra Direct vs Indirect Identifiers è fondamentale per educarci alla privacy dei nostri dati personali.

Questo post è il naturale proseguimento di quello inerente alla differenza tra anonymization e preudonymization.

Lo trovi qui.

Cominciamo!

Direct vs Indirect Identifiers | Definizioni

Quando si parla di privacy la prima cosa che ci viene in mente è violazione dei dati, i nostri amati dati personali.

Serve un po’ di chiarezza.

La violazione della privacy è spesso associata limitatamente alla pubblicazione o divulgazione di dati privati quali nome, cognome, indirizzo di residenza, numero di telefono, o codice fiscale.

In realtà il problema è molto più ampio.

Facciamo un passo indietro.

Prima di parlare di violazione dei dati, dobbiamo chiarire cosa siano i dati privati o personali e come distinguerli.

Per il momento, evitiamo di considerare le rigorose definizioni del GDPR e limitiamoci alle differenze esistenti tra Direct vs Indirect Identifiers.

Direct Identifiers

Gli identificatori diretti sono i classici dati personali quali nome, cognome, codice fiscale e simili.

In un processo di anonimizzazione, questi dati possono facilmente essere rimossi, offuscati e sostituiti con dati casuali.

Il problema reale nella tutela della privacy dal punto di vista di un’azienda è legata ai così detti identificatori indiretti.

Indirect Identifiers

Consideriamo alcune informazioni apparentemente irrilevanti.

Informazioni come il tuo tragitto giornaliero casa – ufficio, che unite al modello dello smartphone, e quello dell’auto, che hai inserito in un’applicazione per il traffico, possono identificarti da altri utenti.

Questi dati sono definiti identificatori indiretti, o indirect identifiers.

Si tratta di tutte quelle informazioni che, prese singolarmente, non consentirebbero alcuna inferenza, ma che combinate tra loro permettono di distinguere più soggetti tra loro.

A un livello macroscopico, gli indirect identifiers sono le connessioni sociali, lo storico medico e la lingua parlata, con le quali è possibile distinguere gruppi limitati di persone.

Il problema è reale poiché gli identificatori non sono facili da individuare in un dataset

Supponendo che io sia un’azienda intenta a pubblicare alcune informazioni.

Come faccio a sapere quante di queste possano essere rilasciate in sicurezza perché non compromettono la privacy dei soggetti, non consentendone l’identificazione?

Come abbiamo detto, gli identificatori indiretti presi singolarmente sono inutili, sebbene alcuni di loro possano essere usati per de-anonimizzare un dataset.

Qui puoi trovare maggiori info.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Blog.

Direct vs Indirect Identifiers

Direct vs Indirect Identifiers | Definizioni

Direct Identifiers

Indirect Identifiers

Ultimi post