• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
AI, Privacy Preserving

Privacy Preserving Data Mining (PPDM)

Privacy Preserving Data Mining (PPDM)

Con l’espressione Privacy Preserving Data Mining intendiamo quell’insieme di attività, e tecniche, con le quali estrarre informazioni garantendo la privacy dei record coinvolti.

Molto semplicemente, questo articolo rappresenta il filo conduttore a legame degli argomenti trattati nei precedenti mesi.

Le tecniche che abbiamo sin’ora esplorato possono infatti essere inserite in un contesto più ampio che definiamo appunto di data mining con tutela della privacy.

Per organizzare meglio i nostri discorsi, abbiamo quindi bisogno di un comune denominatore.

Partiamo!

Taxonomy of Privacy Preserving Data Mining

In State-of-the-art in Privacy Preserving Data Mining di Verykios et Al. troviamo un’interessante riflessione su una possibile tassonomia per classificare i vari approcci adottati nella tutela della privacy.

Vediamoli insieme!

Data Distribution

La prima dimensione fa riferimento alla distribuzione dei dati, che possono essere centralizzati o distribuiti su molteplici piattaforme.

Sappi poi che un distributed data scenario può ulteriormente essere classificato in:

  • distribuzione orizzontale (Horizontal distribution), in cui database record differenti risiedono in posti diversi
  • distribuzione verticale (Vertical distribution), in cui tutti i valori dei differenti attributi sono localizzati di posti diversi.

Non è una definizione chiarissima, anche se per il momento può andare bene.

Data Modification

La seconda dimensione fa riferimento allo schema di modifica dati.

Sappiamo che una delle metodologie convenzionali di tutela della privacy è l’alterazione dei record, che consente la pubblicazione del dataset.

I metodi di modifica possono quindi essere classificati in macrocategorie quali:

  • Perturbazione, l’alterazione del valore di un attributo attraverso sostituzione (i.e. 1-value in 0-value) o aggiunta di rumore
  • Blocco, la sostituzione di un valore con il simbolo ‘?’
  • Aggregazione o Unione, la combinazione di più valori in una categoria grossolana (coarser category)
  • Scambio, l’intercambio dei valori di record individuali
  • Campionatura, il rilascio dei dati per un solo campione della popolazione

Passiamo alla prossima dimensione!

Data Mining Algorithm

Questa dimensione si riferisce all’algoritmo impiegato per l’alterazione dei valori.

Fine.

Ok forse dovremmo trovare cercare qualche informazione aggiuntiva…

Data or Rule Hiding

Sarò onesto con te: non mi è molto chiaro cosa indichi questa dimensione. Prendi quindi con molta leggerezza quello che segue, e integra eventualmente con altre fonti.

Questo è quanto ho capito.

Interagendo con Big Data capita sovente di voler individuare relazioni tra i dati. Questo problema è risolto attraverso regole di associazione, in inglese association rule.

Le association rule trovano ad esempio applicazione nell’individuazione di correlazioni per le vendite, all’interno di transactionl dataset.

Volendo estendere il discorso di tutela della privacy a questo ambito, dobbiamo assicurarci di nascondere regole di associazione sensibili presenti all’interno dei dati.

La quarta dimensione si riferisce allora alla scelta di nascondere direttamente i dati grezzi oppure quelli aggregati, sotto forma di regole di associazione.

La complessità di nascondere dati aggregati nella forma di regole è certamente più alta: per questo sono stati sviluppati metodi euristici.

Questo costoso e tecnico libro può essere utile.

In generale possiamo dire che la diminuzione dell’informazione resa pubblica, produce regole d’inferenza più deboli sui valori confidenziali.

Questo processo viene definito nell’articolo accademico rule confusion

Privacy Preservation

Siamo finalmente arrivati alla quinta e ultima dimensione, non per questo meno importante.

Prendiamo qui in esame le tecniche di tutela della privacy effettivamente adottate per la modifica selettiva dei dati.

L’obiettivo ultimo è impedire che la privacy sia compromessa assicurando al contempo la massima utilità.

Ovviamente è il Privacy-vs-utility tradeoff.

Le tecniche impiegate possono essere classificate in tre macrocategorie:

  • heuristic-based techniques, attraverso le quali alterare in modo adattivo specifici valori minimizzando l’utility loss, invece di estendere la modifica a tutti i record.
  • cryptography-based techniques, come la Secure MultiParty computation in cui, al termine dei calcoli, le parti interessate conoscono solo il loro relativo input e il risultato finale
  • reconstruction-based techniques, in cui la distribuzione originale dei dati è ricostruita da dati casuali, contenenti nessuna PII.

Tante informazioni.

Calma.

Ragioniamoci assieme.

Considerazioni finali

Riflettiamo assieme su alcuni punti legati al Privacy Preserving Data Mi ning.

È fondamentale tenere a mente che qualsiasi modifica sia effettuata sul dataset originale ne degrada l’utilità.

Quindi le performance di eventuali modelli e la qualità delle analisi è intaccata.

Per quantificare la degradazione dei dati possiamo impiegare almeno due metriche:

  • la prima misura la protezione garantita ai dati privati
  • la seconda la loss of functionality

Un post complesso, certamente non definitivo e completo, ma comunque interessante e utile per futuri necessari approfondimenti.

Per il momento è tutto.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Maggio 29, 2020
Tags | dataset, privacy, privacy preserving machine learning, teoria

You Might Also Like

syntethic-data-machine-learning-deep-learning-data-science-privacy-preserving-machine-learning

Synthetic Data: Machine Learning for Privacy Preserving

Luglio 24, 2020
artificial_neural_network_explanation_spiegazione_semplice_rete_neurale_artificiale_data_science_machine_learning_blog_guida_italiano_backpropagation_perceptron_bias

Artificial Neural Network – ANN| Rete Neurale Artificiale

Gennaio 22, 2020
mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio

Mean-Shift Clustering

Dicembre 3, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino