Blog.

Direct vs Indirect Identifiers


Autore
Andrea Provino
Data
Tempo di lettura
2 minuti
Categoria
Data Science, Privacy Preserving

anonymization-data-science-direct-vs-indirect-identifiers

La differenza tra Direct vs Indirect Identifiers è fondamentale per educarci alla privacy dei nostri dati personali.

Questo post è il naturale proseguimento di quello inerente alla differenza tra anonymization e preudonymization.

Lo trovi qui.

Cominciamo!

Direct vs Indirect Identifiers | Definizioni

Quando si parla di privacy la prima cosa che ci viene in mente è violazione dei dati, i nostri amati dati personali.

Serve un po’ di chiarezza.

La violazione della privacy è spesso associata limitatamente alla pubblicazione o divulgazione di dati privati quali nome, cognome, indirizzo di residenza, numero di telefono, o codice fiscale.

In realtà il problema è molto più ampio.

Facciamo un passo indietro.

Prima di parlare di violazione dei dati, dobbiamo chiarire cosa siano i dati privati o personali e come distinguerli.

Per il momento, evitiamo di considerare le rigorose definizioni del GDPR e limitiamoci alle differenze esistenti tra Direct vs Indirect Identifiers.

Direct Identifiers

Gli identificatori diretti sono i classici dati personali quali nome, cognome, codice fiscale e simili.

In un processo di anonimizzazione, questi dati possono facilmente essere rimossi, offuscati e sostituiti con dati casuali.

Il problema reale nella tutela della privacy dal punto di vista di un’azienda è legata ai così detti identificatori indiretti.

Indirect Identifiers

Consideriamo alcune informazioni apparentemente irrilevanti.

Informazioni come il tuo tragitto giornaliero casa – ufficio, che unite al modello dello smartphone, e quello dell’auto, che hai inserito in un’applicazione per il traffico, possono identificarti da altri utenti.

Questi dati sono definiti identificatori indiretti, o indirect identifiers.

Si tratta di tutte quelle informazioni che, prese singolarmente, non consentirebbero alcuna inferenza, ma che combinate tra loro permettono di distinguere più soggetti tra loro.

A un livello macroscopico, gli indirect identifiers sono le connessioni sociali, lo storico medico e la lingua parlata, con le quali è possibile distinguere gruppi limitati di persone.

Il problema è reale poiché gli identificatori non sono facili da individuare in un dataset

Supponendo che io sia un’azienda intenta a pubblicare alcune informazioni.

Come faccio a sapere quante di queste possano essere rilasciate in sicurezza perché non compromettono la privacy dei soggetti, non consentendone l’identificazione?

Come abbiamo detto, gli identificatori indiretti presi singolarmente sono inutili, sebbene alcuni di loro possano essere usati per de-anonimizzare un dataset.

Qui puoi trovare maggiori info.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Taggeddata scienceprivacy


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum