Oggi scopriamo i motivi per cui l’anonimizzazione dati personali (personal data anonymization) risulta particolarmente difficile da mettere in pratica.
Un attimo di contesto.
Nel nostro precedente articolo abbiamo esaminato la sottile differenza tra anonimizzazione e pseudonimizzazione.
Spesso considerate due facce della stessa medaglia, sono in realtà procedure differenti riconosciute a livello legale.
Chiarendo poi il significato degli identificatori diretti e indiretti, abbiamo ulteriormente approfondito l’ambito della data anonymization e sappiamo ora perché questo problema è oggi così impellente.
Ora però ci chiediamo: perché l’anonimizzazione dei dati personali sia così difficile?
Scopriamolo!
Anonimizzazione dati personali: insidie
Anonimizzare un dataset è un’operazione complessa.
Consideriamo ad esempio una tecnica comune, definita k-anonimity
Il k-anonymity è robusto contro la re-identificazione (re-identification) di singoli sample, poiché assicura che ciascun attributo descriva una popolazione di almeno k individui.
Questo significa che, matematicamente, sono necessari almeno k-1 samples del dataset per poter distinguere un campione dal gruppo.
La procedura richiede che vengano soppressi identificatori diretti e generalizzati quelli indiretti.
Quindi l’attributo age dei pazienti, indiretto e continuo, potrebbe essere generalizzato in categorie discrete come 21-30, 31-40 etc.
Esistono però degli attacchi avversari noti come homogeneity attacks a cui questa tecnica è vulnerabile.
Inoltre è necessario essere in possesso di tutti i dati della distribuzione affinché i metodi di cui sopra non riducano la capacità del modello di generalizzare, impattando altrimenti sulle prestazioni.
Quindi escludiamo pure le applicazioni con real-time data.
Non è chiaro poi come applicare questi metodi a formati dati testuali.
Ulteriori difficoltà
Considera poi che per assicurare una corretta anonimizzazione:
- Devi garantire robustezza contro la re-identificazione
- Potresti rimuovere informazioni critiche per le tue analisi ipergeneralizzando
- Non esiste un processo standard per l’anonimizzazione dati personali
Date queste premesse, potrebbe sembrare una procedura da evitare.
In realtà, abbiamo margine operativo. Ti faccio vedere.
Primo, conoscendo le debolezze di ciascuna tecnica di de-identificazione (i.e. da anonimo a noto, mi rendo conto che i termini sono un po tricky) è comunque possibile usarle con successo su specifici progetti mantenendo sufficienti garanzie di privacy.
Secondo, l’avanzamento del machine learning in settori chiave come l’healthcare e il banking ha permesso di spostare il problema privacy dai dati ai modelli e alle analisi compiute su di essi.
Ad esempio, possiamo applicare tecniche di differential privacy all’output del modello anziché sui dati, che possono anche essere generalizzati, evitando di perdere così informazioni chiave.
Maggiori info? Dai una lettura a questo post!
Per il momento è tutto.
Per aspera, ad astra.
Un caldo abbraccio, Andrea.