• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning, Privacy Preserving

Anonimizzazione dati personali: perché è difficile?

Anonimizzazione dati personali: perché è difficile?

Oggi scopriamo i motivi per cui l’anonimizzazione dati personali (personal data anonymization) risulta particolarmente difficile da mettere in pratica.

Un attimo di contesto.

Nel nostro precedente articolo abbiamo esaminato la sottile differenza tra anonimizzazione e pseudonimizzazione.

Spesso considerate due facce della stessa medaglia, sono in realtà procedure differenti riconosciute a livello legale.

Chiarendo poi il significato degli identificatori diretti e indiretti, abbiamo ulteriormente approfondito l’ambito della data anonymization e sappiamo ora perché questo problema è oggi così impellente.

Ora però ci chiediamo: perché l’anonimizzazione dei dati personali sia così difficile?

Scopriamolo!

Anonimizzazione dati personali: insidie

Anonimizzare un dataset è un’operazione complessa.

Consideriamo ad esempio una tecnica comune, definita k-anonimity

Il k-anonymity è robusto contro la re-identificazione (re-identification) di singoli sample, poiché assicura che ciascun attributo descriva una popolazione di almeno k individui.

Questo significa che, matematicamente, sono necessari almeno k-1 samples del dataset per poter distinguere un campione dal gruppo.

La procedura richiede che vengano soppressi identificatori diretti e generalizzati quelli indiretti.

Quindi l’attributo age dei pazienti, indiretto e continuo, potrebbe essere generalizzato in categorie discrete come 21-30, 31-40 etc.

Esistono però degli attacchi avversari noti come homogeneity attacks a cui questa tecnica è vulnerabile.

Inoltre è necessario essere in possesso di tutti i dati della distribuzione affinché i metodi di cui sopra non riducano la capacità del modello di generalizzare, impattando altrimenti sulle prestazioni.

Quindi escludiamo pure le applicazioni con real-time data.

Non è chiaro poi come applicare questi metodi a formati dati testuali.

Ulteriori difficoltà

Considera poi che per assicurare una corretta anonimizzazione:

  • Devi garantire robustezza contro la re-identificazione
  • Potresti rimuovere informazioni critiche per le tue analisi ipergeneralizzando
  • Non esiste un processo standard per l’anonimizzazione dati personali

Date queste premesse, potrebbe sembrare una procedura da evitare.

In realtà, abbiamo margine operativo. Ti faccio vedere.

Primo, conoscendo le debolezze di ciascuna tecnica di de-identificazione (i.e. da anonimo a noto, mi rendo conto che i termini sono un po tricky) è comunque possibile usarle con successo su specifici progetti mantenendo sufficienti garanzie di privacy.

Secondo, l’avanzamento del machine learning in settori chiave come l’healthcare e il banking ha permesso di spostare il problema privacy dai dati ai modelli e alle analisi compiute su di essi.

Ad esempio, possiamo applicare tecniche di differential privacy all’output del modello anziché sui dati, che possono anche essere generalizzati, evitando di perdere così informazioni chiave.

Maggiori info? Dai una lettura a questo post!

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Ottobre 9, 2020
Tags | data science, privacy preserving machine learning

You Might Also Like

syntethic-data-machine-learning-deep-learning-data-science-privacy-preserving-machine-learning

Synthetic Data: Machine Learning for Privacy Preserving

Luglio 24, 2020
data-visualization-tools-python-machine-learning-data-science-tutorial

Data Visualization Tools Python: Area Plots, Histograms, Bar Chart

Novembre 7, 2019
the-normal-equation-linear-regression-formula-data-science-data-scientist-teoria-guida-italiano-regressione-lineare

Linear Regression e The Normal Equation | Italiano

Novembre 25, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • fully-homomorphic-encryption-crittografia-completamente-omomorfica Privacy Preserving

    Cos’è la Crittografia Omomorfica | Homomorphic Encryption (HE)

    Marzo 4, 2021
  • data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases Business, Data Science, machine-learning

    Data Science for Finance | Use Cases per il Data Scientist

    Febbraio 13, 2021
  • differential-privacy-example-privacy-differenziale-esempio-italiano-applicazioni-reali Business, Data Science, Privacy Preserving

    Differential Privacy Example | Esempi di privacy differenziale

    Febbraio 10, 2021
  • privacy-enhancing-technologies-techniques-machine-learning-data-science-pets-guida-italiano-spiegazione-semplice Business, Data Science, machine-learning, Privacy Preserving

    Cosa sono le Privacy-enhancing technologies o techniques (PETs)

    Febbraio 7, 2021
  • condivisione-dati-finance-fintech-problems-machine-learning-for-finance-data-science-deep-learning-case-study Business

    Problemi della condivisione dati in finanza | Finance data sharing problems

    Febbraio 4, 2021
  • finance-privacy-settore-finanziario-dati-privacy-enhancing-technologies-ai Business

    Il legame tra Privacy Dati AI nel settore finanziario

    Febbraio 1, 2021
  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino