Blog.

Synthetic Data: Machine Learning for Privacy Preserving


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
machine-learning

syntethic-data-machine-learning-deep-learning-data-science-privacy-preserving-machine-learning

Con l’espressione Synthetic Data soliamo riferirci ai dati sintetici generati da una sistema, una macchina.

Una definizione semplice, ma che poco lascia capire di come un simile argomento possa inserirsi in un contesto ben più ampio.

In quel contesto cioè in cui la sfera del machine learning, che tanto apprezziamo, si interseca con la tutela della privacy creando un nuovo insieme: Privacy Preserving Machine Learning.

Attenzione però, perché c’è una sottile sfumatura da cogliere.

Sappiamo bene che alla base di ogni sistema di machine learning ci sia un sufficiente ammontare di dati, troppo spesso considerati scontati.

Oggi però il focus è proprio su quei dati, che possono essere processati con l’ausilio del machine learning ancor prima di essere l’origine di un modello.

Impegnativo da spiegare, ma tradotto in soldoni: in questo post, esploriamo come il machine learning possa giungere in nostro soccorso per tutelare la privacy delle osservazioni di un dataset.

Synthetic Data

I dati sintetici (Syntehtic Data) per loro stessa natura sono artificiali, ergo per cui non contengono alcuna informazione personale soggetta a tutela della privacy.

Questa spiegazione è più che sufficiente a capire perché i synthetic data siano utili.

Vogliamo però approfondire maggiormente l’argomento.

E allora senza indugi, aggiungiamo una nota.

Possiamo dire che i synthetic data si rivelano la soluzione ottimale con cui non solo condividere dati granulari ma anche abbracciare l’innovazione con progetti di AI e coinvolgenti i Big Data.

Solo una cosa: non dobbiamo pensare che sia l’unica o la perfetta soluzione.

In effetti devi sapere che esistono metodi alternativi di anonimizzazione, che approfondiremo in una seconda analisi, seppur manifestino particolari complicazioni quando applicate ai Big Data.

Tecniche come il Data Masking e l’offuscamento (obfuscating) possono essere attaccate con processi di re-identificazione che inficiano i principali sistemi di anonimizzazione.

Ora che hai un quadro generale di questo ambiente, puoi ben comprendere come una piattaforma di Synthetic Data possa generare dati di alta qualità e altamente rappresentativi, e al tempo stesso completamente anonimi.

Surclassando i metodi convenzionali, questo sistema è robusto anche a future nuove regolamentazioni.

Synthetization

Devi sapere che distinguiamo due principali metodologie di generazione dati:

  • Rule-based synthetic data, un metodo computazionalmente costoso e tipicamente generatore di una povera rappresentazione dei dati reali.
  • AI-generated synthetic data, che sfrutta modelli di deep learning all’avanguardia per catturare schemi, strutture e variazioni (pattern, structure and variation) dei dati originali, generandone di nuovi e garantendo al contempo la mancanza di una relazione diretta con quelli preesistenti.

La seconda tipologia di generazione, se ben eseguita, produce dati altamente realistici e statisticamente rappresentativi costituendo dunque un asso nella manica per la gestione dei Big Data.

Ormai dovresti andare a nozze con il concetto di privacy.

Ecco perché l’ausilio del machine learning si rivela efficace.

Questo metodo aggiunge infatti un livello di tutela della privacy per le singole istanze coinvolte: un motivo in più per prendere in considerazione questa pratica.

Synthetic Data Use Cases

I dati sintetici trovano applicazione laddove le informazioni private contenenti dati sensibili, come le PII (Personally Identifiable Information), debbano essere condivise tra collaboratori.

Questo scenario è comune nei processi di development e testing in senso ampio, di Data Analytics, nel training di modelli di machine learning e nelle collaborazioni di ricerca o interaziendali.

In parole povere, questo processo abbatte i muri e agevola l’operato di ogni team.

In un prossimo post vedremo insieme come un’azienda abbia trasformato questi concetti teorici in una realtà di business, esaminando Mostly AI.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Taggeddata sciencedatasetmachine learningprivacy preserving machine learning


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum