• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning, Privacy Preserving

Anonimizzazione dati personali: perché è difficile?

Anonimizzazione dati personali: perché è difficile?

Oggi scopriamo i motivi per cui l’anonimizzazione dati personali (personal data anonymization) risulta particolarmente difficile da mettere in pratica.

Un attimo di contesto.

Nel nostro precedente articolo abbiamo esaminato la sottile differenza tra anonimizzazione e pseudonimizzazione.

Spesso considerate due facce della stessa medaglia, sono in realtà procedure differenti riconosciute a livello legale.

Chiarendo poi il significato degli identificatori diretti e indiretti, abbiamo ulteriormente approfondito l’ambito della data anonymization e sappiamo ora perché questo problema è oggi così impellente.

Ora però ci chiediamo: perché l’anonimizzazione dei dati personali sia così difficile?

Scopriamolo!

Anonimizzazione dati personali: insidie

Anonimizzare un dataset è un’operazione complessa.

Consideriamo ad esempio una tecnica comune, definita k-anonimity

Il k-anonymity è robusto contro la re-identificazione (re-identification) di singoli sample, poiché assicura che ciascun attributo descriva una popolazione di almeno k individui.

Questo significa che, matematicamente, sono necessari almeno k-1 samples del dataset per poter distinguere un campione dal gruppo.

La procedura richiede che vengano soppressi identificatori diretti e generalizzati quelli indiretti.

Quindi l’attributo age dei pazienti, indiretto e continuo, potrebbe essere generalizzato in categorie discrete come 21-30, 31-40 etc.

Esistono però degli attacchi avversari noti come homogeneity attacks a cui questa tecnica è vulnerabile.

Inoltre è necessario essere in possesso di tutti i dati della distribuzione affinché i metodi di cui sopra non riducano la capacità del modello di generalizzare, impattando altrimenti sulle prestazioni.

Quindi escludiamo pure le applicazioni con real-time data.

Non è chiaro poi come applicare questi metodi a formati dati testuali.

Ulteriori difficoltà

Considera poi che per assicurare una corretta anonimizzazione:

  • Devi garantire robustezza contro la re-identificazione
  • Potresti rimuovere informazioni critiche per le tue analisi ipergeneralizzando
  • Non esiste un processo standard per l’anonimizzazione dati personali

Date queste premesse, potrebbe sembrare una procedura da evitare.

In realtà, abbiamo margine operativo. Ti faccio vedere.

Primo, conoscendo le debolezze di ciascuna tecnica di de-identificazione (i.e. da anonimo a noto, mi rendo conto che i termini sono un po tricky) è comunque possibile usarle con successo su specifici progetti mantenendo sufficienti garanzie di privacy.

Secondo, l’avanzamento del machine learning in settori chiave come l’healthcare e il banking ha permesso di spostare il problema privacy dai dati ai modelli e alle analisi compiute su di essi.

Ad esempio, possiamo applicare tecniche di differential privacy all’output del modello anziché sui dati, che possono anche essere generalizzati, evitando di perdere così informazioni chiave.

Maggiori info? Dai una lettura a questo post!

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Ottobre 9, 2020
Tags | data science, privacy preserving machine learning

You Might Also Like

github-tensorflow-js-models-javascript-machine-learning-browser

GitHub Machine Learning: 9 Pre-trained TensorFlow.js models

Marzo 20, 2020
data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases

Data Science for Finance | Use Cases per il Data Scientist

Febbraio 13, 2021
logistic-regression-data-science-machine-learning-linear-regression-guida-italiano-regressione-logistica-formula-matematica-italiano-scaled

Logistic Regression

Dicembre 6, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino