• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
AI, Privacy Preserving

Privacy Preserving Data Mining (PPDM)

Privacy Preserving Data Mining (PPDM)

Con l’espressione Privacy Preserving Data Mining intendiamo quell’insieme di attività, e tecniche, con le quali estrarre informazioni garantendo la privacy dei record coinvolti.

Molto semplicemente, questo articolo rappresenta il filo conduttore a legame degli argomenti trattati nei precedenti mesi.

Le tecniche che abbiamo sin’ora esplorato possono infatti essere inserite in un contesto più ampio che definiamo appunto di data mining con tutela della privacy.

Per organizzare meglio i nostri discorsi, abbiamo quindi bisogno di un comune denominatore.

Partiamo!

Taxonomy of Privacy Preserving Data Mining

In State-of-the-art in Privacy Preserving Data Mining di Verykios et Al. troviamo un’interessante riflessione su una possibile tassonomia per classificare i vari approcci adottati nella tutela della privacy.

Vediamoli insieme!

Data Distribution

La prima dimensione fa riferimento alla distribuzione dei dati, che possono essere centralizzati o distribuiti su molteplici piattaforme.

Sappi poi che un distributed data scenario può ulteriormente essere classificato in:

  • distribuzione orizzontale (Horizontal distribution), in cui database record differenti risiedono in posti diversi
  • distribuzione verticale (Vertical distribution), in cui tutti i valori dei differenti attributi sono localizzati di posti diversi.

Non è una definizione chiarissima, anche se per il momento può andare bene.

Data Modification

La seconda dimensione fa riferimento allo schema di modifica dati.

Sappiamo che una delle metodologie convenzionali di tutela della privacy è l’alterazione dei record, che consente la pubblicazione del dataset.

I metodi di modifica possono quindi essere classificati in macrocategorie quali:

  • Perturbazione, l’alterazione del valore di un attributo attraverso sostituzione (i.e. 1-value in 0-value) o aggiunta di rumore
  • Blocco, la sostituzione di un valore con il simbolo ‘?’
  • Aggregazione o Unione, la combinazione di più valori in una categoria grossolana (coarser category)
  • Scambio, l’intercambio dei valori di record individuali
  • Campionatura, il rilascio dei dati per un solo campione della popolazione

Passiamo alla prossima dimensione!

Data Mining Algorithm

Questa dimensione si riferisce all’algoritmo impiegato per l’alterazione dei valori.

Fine.

Ok forse dovremmo trovare cercare qualche informazione aggiuntiva…

Data or Rule Hiding

Sarò onesto con te: non mi è molto chiaro cosa indichi questa dimensione. Prendi quindi con molta leggerezza quello che segue, e integra eventualmente con altre fonti.

Questo è quanto ho capito.

Interagendo con Big Data capita sovente di voler individuare relazioni tra i dati. Questo problema è risolto attraverso regole di associazione, in inglese association rule.

Le association rule trovano ad esempio applicazione nell’individuazione di correlazioni per le vendite, all’interno di transactionl dataset.

Volendo estendere il discorso di tutela della privacy a questo ambito, dobbiamo assicurarci di nascondere regole di associazione sensibili presenti all’interno dei dati.

La quarta dimensione si riferisce allora alla scelta di nascondere direttamente i dati grezzi oppure quelli aggregati, sotto forma di regole di associazione.

La complessità di nascondere dati aggregati nella forma di regole è certamente più alta: per questo sono stati sviluppati metodi euristici.

Questo costoso e tecnico libro può essere utile.

In generale possiamo dire che la diminuzione dell’informazione resa pubblica, produce regole d’inferenza più deboli sui valori confidenziali.

Questo processo viene definito nell’articolo accademico rule confusion

Privacy Preservation

Siamo finalmente arrivati alla quinta e ultima dimensione, non per questo meno importante.

Prendiamo qui in esame le tecniche di tutela della privacy effettivamente adottate per la modifica selettiva dei dati.

L’obiettivo ultimo è impedire che la privacy sia compromessa assicurando al contempo la massima utilità.

Ovviamente è il Privacy-vs-utility tradeoff.

Le tecniche impiegate possono essere classificate in tre macrocategorie:

  • heuristic-based techniques, attraverso le quali alterare in modo adattivo specifici valori minimizzando l’utility loss, invece di estendere la modifica a tutti i record.
  • cryptography-based techniques, come la Secure MultiParty computation in cui, al termine dei calcoli, le parti interessate conoscono solo il loro relativo input e il risultato finale
  • reconstruction-based techniques, in cui la distribuzione originale dei dati è ricostruita da dati casuali, contenenti nessuna PII.

Tante informazioni.

Calma.

Ragioniamoci assieme.

Considerazioni finali

Riflettiamo assieme su alcuni punti legati al Privacy Preserving Data Mi ning.

È fondamentale tenere a mente che qualsiasi modifica sia effettuata sul dataset originale ne degrada l’utilità.

Quindi le performance di eventuali modelli e la qualità delle analisi è intaccata.

Per quantificare la degradazione dei dati possiamo impiegare almeno due metriche:

  • la prima misura la protezione garantita ai dati privati
  • la seconda la loss of functionality

Un post complesso, certamente non definitivo e completo, ma comunque interessante e utile per futuri necessari approfondimenti.

Per il momento è tutto.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Maggio 29, 2020
Tags | dataset, privacy, privacy preserving machine learning, teoria

You Might Also Like

secure-multiparty-computation-machine-learning-privacy-preserving-company-guida-data-science-differential-privacy

Secure Multiparty Computation (SMPC) | Privacy Preserving AI

Maggio 24, 2020
optimization-algoritmh-adam-optimizer-deep-learning-neural-network-data-science-machine-learning-guida-italiano-tutorial-blog

Cosa sono Optimization algorithm e Optimizer | Neural Network & Deep Learning

Ottobre 27, 2019
gdpr-trattamento-dati-personali-senza-consenso-consulenza-machine-learning-data-sciecne-guida-italia

GDPR: trattamento senza consenso?

Novembre 5, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino