• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning, Privacy Preserving

Anonimizzazione dati personali: perché è difficile?

Anonimizzazione dati personali: perché è difficile?

Oggi scopriamo i motivi per cui l’anonimizzazione dati personali (personal data anonymization) risulta particolarmente difficile da mettere in pratica.

Un attimo di contesto.

Nel nostro precedente articolo abbiamo esaminato la sottile differenza tra anonimizzazione e pseudonimizzazione.

Spesso considerate due facce della stessa medaglia, sono in realtà procedure differenti riconosciute a livello legale.

Chiarendo poi il significato degli identificatori diretti e indiretti, abbiamo ulteriormente approfondito l’ambito della data anonymization e sappiamo ora perché questo problema è oggi così impellente.

Ora però ci chiediamo: perché l’anonimizzazione dei dati personali sia così difficile?

Scopriamolo!

Anonimizzazione dati personali: insidie

Anonimizzare un dataset è un’operazione complessa.

Consideriamo ad esempio una tecnica comune, definita k-anonimity

Il k-anonymity è robusto contro la re-identificazione (re-identification) di singoli sample, poiché assicura che ciascun attributo descriva una popolazione di almeno k individui.

Questo significa che, matematicamente, sono necessari almeno k-1 samples del dataset per poter distinguere un campione dal gruppo.

La procedura richiede che vengano soppressi identificatori diretti e generalizzati quelli indiretti.

Quindi l’attributo age dei pazienti, indiretto e continuo, potrebbe essere generalizzato in categorie discrete come 21-30, 31-40 etc.

Esistono però degli attacchi avversari noti come homogeneity attacks a cui questa tecnica è vulnerabile.

Inoltre è necessario essere in possesso di tutti i dati della distribuzione affinché i metodi di cui sopra non riducano la capacità del modello di generalizzare, impattando altrimenti sulle prestazioni.

Quindi escludiamo pure le applicazioni con real-time data.

Non è chiaro poi come applicare questi metodi a formati dati testuali.

Ulteriori difficoltà

Considera poi che per assicurare una corretta anonimizzazione:

  • Devi garantire robustezza contro la re-identificazione
  • Potresti rimuovere informazioni critiche per le tue analisi ipergeneralizzando
  • Non esiste un processo standard per l’anonimizzazione dati personali

Date queste premesse, potrebbe sembrare una procedura da evitare.

In realtà, abbiamo margine operativo. Ti faccio vedere.

Primo, conoscendo le debolezze di ciascuna tecnica di de-identificazione (i.e. da anonimo a noto, mi rendo conto che i termini sono un po tricky) è comunque possibile usarle con successo su specifici progetti mantenendo sufficienti garanzie di privacy.

Secondo, l’avanzamento del machine learning in settori chiave come l’healthcare e il banking ha permesso di spostare il problema privacy dai dati ai modelli e alle analisi compiute su di essi.

Ad esempio, possiamo applicare tecniche di differential privacy all’output del modello anziché sui dati, che possono anche essere generalizzati, evitando di perdere così informazioni chiave.

Maggiori info? Dai una lettura a questo post!

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Ottobre 9, 2020
Tags | data science, privacy preserving machine learning

You Might Also Like

One Versus All (OvA) vs One Versus One (OvO) | Multiclass Classifiers

Settembre 30, 2019
data-mining-crisp-dm-data-science-machine-learning-company-ibm-process-standard-open-defacto-blog-italia

CRISP-DM: Cross-industry standard process for data mining in Italiano

Aprile 18, 2020
differential-privacy-by-shuffling-data-science-machine-learning-privacy-preserving-ai

Differential Privacy by Shuffling in Italiano

Agosto 3, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino