Blog.

Privacy Preserving Data Mining (PPDM)


Autore
Andrea Provino
Data
Tempo di lettura
4 minuti
Categoria
AI, Privacy Preserving

privacy-preserving-data-mining-differential-privacy-guida-machine-learning-italia

Con l’espressione Privacy Preserving Data Mining intendiamo quell’insieme di attività, e tecniche, con le quali estrarre informazioni garantendo la privacy dei record coinvolti.

Molto semplicemente, questo articolo rappresenta il filo conduttore a legame degli argomenti trattati nei precedenti mesi.

Le tecniche che abbiamo sin’ora esplorato possono infatti essere inserite in un contesto più ampio che definiamo appunto di data mining con tutela della privacy.

Per organizzare meglio i nostri discorsi, abbiamo quindi bisogno di un comune denominatore.

Partiamo!

Taxonomy of Privacy Preserving Data Mining

In State-of-the-art in Privacy Preserving Data Mining di Verykios et Al. troviamo un’interessante riflessione su una possibile tassonomia per classificare i vari approcci adottati nella tutela della privacy.

Vediamoli insieme!

Data Distribution

La prima dimensione fa riferimento alla distribuzione dei dati, che possono essere centralizzati o distribuiti su molteplici piattaforme.

Sappi poi che un distributed data scenario può ulteriormente essere classificato in:

  • distribuzione orizzontale (Horizontal distribution), in cui database record differenti risiedono in posti diversi
  • distribuzione verticale (Vertical distribution), in cui tutti i valori dei differenti attributi sono localizzati di posti diversi.

Non è una definizione chiarissima, anche se per il momento può andare bene.

Data Modification

La seconda dimensione fa riferimento allo schema di modifica dati.

Sappiamo che una delle metodologie convenzionali di tutela della privacy è l’alterazione dei record, che consente la pubblicazione del dataset.

I metodi di modifica possono quindi essere classificati in macrocategorie quali:

  • Perturbazione, l’alterazione del valore di un attributo attraverso sostituzione (i.e. 1-value in 0-value) o aggiunta di rumore
  • Blocco, la sostituzione di un valore con il simbolo ‘?’
  • Aggregazione o Unione, la combinazione di più valori in una categoria grossolana (coarser category)
  • Scambio, l’intercambio dei valori di record individuali
  • Campionatura, il rilascio dei dati per un solo campione della popolazione

Passiamo alla prossima dimensione!

Data Mining Algorithm

Questa dimensione si riferisce all’algoritmo impiegato per l’alterazione dei valori.

Fine.

Ok forse dovremmo trovare cercare qualche informazione aggiuntiva…

Data or Rule Hiding

Sarò onesto con te: non mi è molto chiaro cosa indichi questa dimensione. Prendi quindi con molta leggerezza quello che segue, e integra eventualmente con altre fonti.

Questo è quanto ho capito.

Interagendo con Big Data capita sovente di voler individuare relazioni tra i dati. Questo problema è risolto attraverso regole di associazione, in inglese association rule.

Le association rule trovano ad esempio applicazione nell’individuazione di correlazioni per le vendite, all’interno di transactionl dataset.

Volendo estendere il discorso di tutela della privacy a questo ambito, dobbiamo assicurarci di nascondere regole di associazione sensibili presenti all’interno dei dati.

La quarta dimensione si riferisce allora alla scelta di nascondere direttamente i dati grezzi oppure quelli aggregati, sotto forma di regole di associazione.

La complessità di nascondere dati aggregati nella forma di regole è certamente più alta: per questo sono stati sviluppati metodi euristici.

Questo costoso e tecnico libro può essere utile.

In generale possiamo dire che la diminuzione dell’informazione resa pubblica, produce regole d’inferenza più deboli sui valori confidenziali.

Questo processo viene definito nell’articolo accademico rule confusion

Privacy Preservation

Siamo finalmente arrivati alla quinta e ultima dimensione, non per questo meno importante.

Prendiamo qui in esame le tecniche di tutela della privacy effettivamente adottate per la modifica selettiva dei dati.

L’obiettivo ultimo è impedire che la privacy sia compromessa assicurando al contempo la massima utilità.

Ovviamente è il Privacy-vs-utility tradeoff.

Le tecniche impiegate possono essere classificate in tre macrocategorie:

  • heuristic-based techniques, attraverso le quali alterare in modo adattivo specifici valori minimizzando l’utility loss, invece di estendere la modifica a tutti i record.
  • cryptography-based techniques, come la Secure MultiParty computation in cui, al termine dei calcoli, le parti interessate conoscono solo il loro relativo input e il risultato finale
  • reconstruction-based techniques, in cui la distribuzione originale dei dati è ricostruita da dati casuali, contenenti nessuna PII.

Tante informazioni.

Calma.

Ragioniamoci assieme.

Considerazioni finali

Riflettiamo assieme su alcuni punti legati al Privacy Preserving Data Mi ning.

È fondamentale tenere a mente che qualsiasi modifica sia effettuata sul dataset originale ne degrada l’utilità.

Quindi le performance di eventuali modelli e la qualità delle analisi è intaccata.

Per quantificare la degradazione dei dati possiamo impiegare almeno due metriche:

  • la prima misura la protezione garantita ai dati privati
  • la seconda la loss of functionality

Un post complesso, certamente non definitivo e completo, ma comunque interessante e utile per futuri necessari approfondimenti.

Per il momento è tutto.

Un caldo abbraccio, Andrea.

Taggeddatasetprivacyprivacy preserving machine learningteoria


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum