• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
AI, Privacy Preserving

Randomized Response e Plausible Deniability | Differential Privacy

Randomized Response e Plausible Deniability | Differential Privacy

Randomized response e plausible deniability sono due tecniche statistiche con cui compiere indagini garantendo la privacy dei campioni analizzati.

Ormai è chiaro. Vogliamo diventare dei tuttologi.

Come no? Ah- Non era questo il copione?

Beh perdonami se in un mese abbiamo parlato di Trusting AI Fairness, Deep Neural Network Verification, introducendo solo dopo cosa fossero le Artificial Neural Network e gettandoci subito dopo sulle skills di una data scientist.

Come se non bastasse abbiamo confuso un po’ le acque presentando una libreria chiamata PySyft e siamo partiti in quarta con:

  • Cos’è la differential privacy
  • Global Differential Privacy vs Local DF
  • Cos’è il federated learning
  • Homomorphic Encryption e Additive secret sharing

E ora estendiamo il discorso sulla privacy nelle analisi introducendo il Randomized Response e il Plausible Deniability

Randomized Response

Il nostro problema è: come possiamo ottenere risposte accurate a domande sensibili a cui gli intervistati potrebbero essere riluttanti nel rispondere onestamente?

Un metodo è quello di Randomized Response

Randomized Response è una tecnica usata nella scienza sociale per analizzare statisticamente una popolazione su comportamenti contestabili e controversi (i.e. taboo) garantendo la privacy degli intervistati

Randomized Response

Per cogliere l’estrema utilità di questa fantastica tecnica serviamoci di un esempio.

Sociologist case study: a privacy problem

Mettiamoci nei panni di un sociologo, anzi di una sociologa.

Parità dei sessi cari miei. :O

Il nostro compito è studiare la visione di video riguardanti coppie praticanti coito dietro compenso su piattaforme di streaming online.

Ora rileggi e dimmi che hai capito.

Passiamo oltre.

Selezioniamo una popolazione significativa di 100k persone e iniziamo a fare domande promettendo e assicurando il rispetto della privacy.

È lecito aspettarsi che alcuni individui mentano, trattandosi di una domanda dalle significative implicazioni etiche e morali.

Quindi come possiamo impedire che la distribuzione statistica sia distorta (skewed) a causa delle risposte disoneste?

Ecco il punto in cui questa fantastica tecnica risolve un insidioso problema.

Un certo livello di casualità può essere aggiunto al processo di raccolta affinché ogni campione sia protetto dalla cosiddetta negazione plausibile (plausible deniability).

Plausible Deniability

Il principio sembra intricato ma è semplice: occorre giusto un attimo di logica.

Prima di raccogliere la risposta dal campione, in quanto sociologi esperti in privacy chiediamo al nostro intervistato di lanciare una moneta, tenendo nascosto il lancio.

  • Qualora uscisse croce, chiediamo di rispondere sì
  • Qualora uscisse testa, chiediamo di rispondere onestamente

Questo sistema funziona se la domanda pone il campione in una situazione tale per cui rispondere affermativamente potrebbe comprometterlo in qualche modo, e per questo sarebbe indotto a mentire.

Siamo così in grado di attenuare l’effetto delle risposte disoneste sulla distribuzione finale.

Il punto è che il 50% delle volte abbiamo una risposta onesta, mentre l’altra metà è frutto del caso con una probabilità identica che sia vera o falsa: ecco la negazione plausibile.

Non possiamo dimostrare che l’intervistato abbia detto la verità o mentito su una risposta affermativa.

In questo modo chiunque è protetto da un livello naturale di local differential priavacy.

Global Differential Privacy vs Local Differential Privacy

Questa protezione offre a chiunque la libertà di rispondere onestamente conferendo all’indagine un valore statistico più accurato, garantendo al contempo la privacy dei campioni.

Le sorprese non finiscono qui. L’aspetto più straordinario è la possibilità di rimuovere completamente il rumore casuale (random noise), poiché il processo di randomized response prende il valore statistico reale mediandolo con il lancio della moneta.

Esiste però un problema di fondo. Il random noise che accettiamo d’inserire non compromette l’accuratezza statistica solo in presenza di un elevato numero di campioni. In tutte le altre situazioni dobbiamo fare i conti con un trade-off.

Guadagniamo privacy ma perdiamo accuratezza.

Questo trend è valido all’interno dell’intero campo di Differential Privacy.

Noise – Accuracy Trade-off

Si configura dunque quello che potremmo rapidamente definire come noise-accuracy trade-off.

In altri termini il best-case scenario sarebbe avere le più accurate query sul database con più alto valore di privacy. Nel mondo reale l’utopia è lontana.

Le ricerche in Differential Privacy possono quindi raggrupparsi sotto due grandi temi:

  • goal 1: minimizing the amount of noise and maximizing the amount of privacy.
  • goal 2: Greatest fit with trust models in the actual world (don’t waste trust)

Il secondo punto è probabilmente quello che richiede un minimo di spiegazione aggiuntiva.

Abbiamo chiarito come aumentare la privacy comporti l’aggiunta di rumore e in presenza di campioni ridotti intacchi l’accuratezza statistica.

Tuttavia questo rumore non sempre è necessario: nei contesti in cui due persone si fidano tra loro l’aggiunta del random noise è superflua e dannosa.

D’altro canto, se ci dimenticassimo di aggiungere rumore sui dati condivisi tra due persone che non si fidano (database curator e data subject) metteremmo uno dei due più a rischio.

Occorre quindi studiare le situazioni e capire dove effettivamente sia necessario introdurre misure di tutela della privacy e dove invece queste siano irrilevanti.

Il nostro interesse è minimizzare il noise-accuracy tradeoff. Un modo? Quello di usare flexible differential privacy strategies.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Febbraio 14, 2020
Tags | deep learning, privacy, teoria

You Might Also Like

adversarial-attacks-taxonomy-deep-learning-blog-italia-machine-learning

Adversarial Attack | Cos’è un Attacco Avversario

Maggio 12, 2020
resnet-architecture-diagram-deep-learning-eningeer-italia-skip-connection-guida-italiano-blog-machine-learning-deep-learning-data-science

ResNet CNN Networks | Deep Learning Engineer Italia

Marzo 1, 2020
privacy-preserving-record-linkage-privacy-preserving-machine-learning

Privacy Preserving Record Linkage (PPRL)

Giugno 13, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino