Con l’espressione Privacy Preserving Data Mining intendiamo quell’insieme di attività, e tecniche, con le quali estrarre informazioni garantendo la privacy dei record coinvolti.
Molto semplicemente, questo articolo rappresenta il filo conduttore a legame degli argomenti trattati nei precedenti mesi.
Le tecniche che abbiamo sin’ora esplorato possono infatti essere inserite in un contesto più ampio che definiamo appunto di data mining con tutela della privacy.
Per organizzare meglio i nostri discorsi, abbiamo quindi bisogno di un comune denominatore.
Partiamo!
Taxonomy of Privacy Preserving Data Mining
In State-of-the-art in Privacy Preserving Data Mining di Verykios et Al. troviamo un’interessante riflessione su una possibile tassonomia per classificare i vari approcci adottati nella tutela della privacy.
Vediamoli insieme!
Data Distribution
La prima dimensione fa riferimento alla distribuzione dei dati, che possono essere centralizzati o distribuiti su molteplici piattaforme.
Sappi poi che un distributed data scenario può ulteriormente essere classificato in:
- distribuzione orizzontale (Horizontal distribution), in cui database record differenti risiedono in posti diversi
- distribuzione verticale (Vertical distribution), in cui tutti i valori dei differenti attributi sono localizzati di posti diversi.
Non è una definizione chiarissima, anche se per il momento può andare bene.
Data Modification
La seconda dimensione fa riferimento allo schema di modifica dati.
Sappiamo che una delle metodologie convenzionali di tutela della privacy è l’alterazione dei record, che consente la pubblicazione del dataset.
I metodi di modifica possono quindi essere classificati in macrocategorie quali:
- Perturbazione, l’alterazione del valore di un attributo attraverso sostituzione (i.e. 1-value in 0-value) o aggiunta di rumore
- Blocco, la sostituzione di un valore con il simbolo ‘?’
- Aggregazione o Unione, la combinazione di più valori in una categoria grossolana (coarser category)
- Scambio, l’intercambio dei valori di record individuali
- Campionatura, il rilascio dei dati per un solo campione della popolazione
Passiamo alla prossima dimensione!
Data Mining Algorithm
Questa dimensione si riferisce all’algoritmo impiegato per l’alterazione dei valori.
Fine.
Ok forse dovremmo trovare cercare qualche informazione aggiuntiva…
Data or Rule Hiding
Sarò onesto con te: non mi è molto chiaro cosa indichi questa dimensione. Prendi quindi con molta leggerezza quello che segue, e integra eventualmente con altre fonti.
Questo è quanto ho capito.
Interagendo con Big Data capita sovente di voler individuare relazioni tra i dati. Questo problema è risolto attraverso regole di associazione, in inglese association rule.
Le association rule trovano ad esempio applicazione nell’individuazione di correlazioni per le vendite, all’interno di transactionl dataset.
Volendo estendere il discorso di tutela della privacy a questo ambito, dobbiamo assicurarci di nascondere regole di associazione sensibili presenti all’interno dei dati.
La quarta dimensione si riferisce allora alla scelta di nascondere direttamente i dati grezzi oppure quelli aggregati, sotto forma di regole di associazione.
La complessità di nascondere dati aggregati nella forma di regole è certamente più alta: per questo sono stati sviluppati metodi euristici.
Questo costoso e tecnico libro può essere utile.
In generale possiamo dire che la diminuzione dell’informazione resa pubblica, produce regole d’inferenza più deboli sui valori confidenziali.
Questo processo viene definito nell’articolo accademico rule confusion
Privacy Preservation
Siamo finalmente arrivati alla quinta e ultima dimensione, non per questo meno importante.
Prendiamo qui in esame le tecniche di tutela della privacy effettivamente adottate per la modifica selettiva dei dati.
L’obiettivo ultimo è impedire che la privacy sia compromessa assicurando al contempo la massima utilità.
Ovviamente è il Privacy-vs-utility tradeoff.
Le tecniche impiegate possono essere classificate in tre macrocategorie:
- heuristic-based techniques, attraverso le quali alterare in modo adattivo specifici valori minimizzando l’utility loss, invece di estendere la modifica a tutti i record.
- cryptography-based techniques, come la Secure MultiParty computation in cui, al termine dei calcoli, le parti interessate conoscono solo il loro relativo input e il risultato finale
- reconstruction-based techniques, in cui la distribuzione originale dei dati è ricostruita da dati casuali, contenenti nessuna PII.
Tante informazioni.
Calma.
Ragioniamoci assieme.
Considerazioni finali
Riflettiamo assieme su alcuni punti legati al Privacy Preserving Data Mi ning.
È fondamentale tenere a mente che qualsiasi modifica sia effettuata sul dataset originale ne degrada l’utilità.
Quindi le performance di eventuali modelli e la qualità delle analisi è intaccata.
Per quantificare la degradazione dei dati possiamo impiegare almeno due metriche:
- la prima misura la protezione garantita ai dati privati
- la seconda la loss of functionality
Un post complesso, certamente non definitivo e completo, ma comunque interessante e utile per futuri necessari approfondimenti.
Per il momento è tutto.
Un caldo abbraccio, Andrea.
No Comment