Synthetic Data: Machine Learning for Privacy Preserving

Autore

Andrea Provino

Data

24 luglio 2020

Tempo di lettura

3 minuti

Categoria

machine-learning

Con l’espressione Synthetic Data soliamo riferirci ai dati sintetici generati da una sistema, una macchina.

Una definizione semplice, ma che poco lascia capire di come un simile argomento possa inserirsi in un contesto ben più ampio.

In quel contesto cioè in cui la sfera del machine learning, che tanto apprezziamo, si interseca con la tutela della privacy creando un nuovo insieme: Privacy Preserving Machine Learning.

Attenzione però, perché c’è una sottile sfumatura da cogliere.

Sappiamo bene che alla base di ogni sistema di machine learning ci sia un sufficiente ammontare di dati, troppo spesso considerati scontati.

Oggi però il focus è proprio su quei dati, che possono essere processati con l’ausilio del machine learning ancor prima di essere l’origine di un modello.

Impegnativo da spiegare, ma tradotto in soldoni: in questo post, esploriamo come il machine learning possa giungere in nostro soccorso per tutelare la privacy delle osservazioni di un dataset.

Synthetic Data

I dati sintetici (Syntehtic Data) per loro stessa natura sono artificiali, ergo per cui non contengono alcuna informazione personale soggetta a tutela della privacy.

Questa spiegazione è più che sufficiente a capire perché i synthetic data siano utili.

Vogliamo però approfondire maggiormente l’argomento.

E allora senza indugi, aggiungiamo una nota.

Possiamo dire che i synthetic data si rivelano la soluzione ottimale con cui non solo condividere dati granulari ma anche abbracciare l’innovazione con progetti di AI e coinvolgenti i Big Data.

Solo una cosa: non dobbiamo pensare che sia l’unica o la perfetta soluzione.

In effetti devi sapere che esistono metodi alternativi di anonimizzazione, che approfondiremo in una seconda analisi, seppur manifestino particolari complicazioni quando applicate ai Big Data.

Tecniche come il Data Masking e l’offuscamento (obfuscating) possono essere attaccate con processi di re-identificazione che inficiano i principali sistemi di anonimizzazione.

Ora che hai un quadro generale di questo ambiente, puoi ben comprendere come una piattaforma di Synthetic Data possa generare dati di alta qualità e altamente rappresentativi, e al tempo stesso completamente anonimi.

Surclassando i metodi convenzionali, questo sistema è robusto anche a future nuove regolamentazioni.

Synthetization

Devi sapere che distinguiamo due principali metodologie di generazione dati:

Rule-based synthetic data, un metodo computazionalmente costoso e tipicamente generatore di una povera rappresentazione dei dati reali.
AI-generated synthetic data, che sfrutta modelli di deep learning all’avanguardia per catturare schemi, strutture e variazioni (pattern, structure and variation) dei dati originali, generandone di nuovi e garantendo al contempo la mancanza di una relazione diretta con quelli preesistenti.

La seconda tipologia di generazione, se ben eseguita, produce dati altamente realistici e statisticamente rappresentativi costituendo dunque un asso nella manica per la gestione dei Big Data.

Ormai dovresti andare a nozze con il concetto di privacy.

Ecco perché l’ausilio del machine learning si rivela efficace.

Questo metodo aggiunge infatti un livello di tutela della privacy per le singole istanze coinvolte: un motivo in più per prendere in considerazione questa pratica.

Synthetic Data Use Cases

I dati sintetici trovano applicazione laddove le informazioni private contenenti dati sensibili, come le PII (Personally Identifiable Information), debbano essere condivise tra collaboratori.

Questo scenario è comune nei processi di development e testing in senso ampio, di Data Analytics, nel training di modelli di machine learning e nelle collaborazioni di ricerca o interaziendali.

In parole povere, questo processo abbatte i muri e agevola l’operato di ogni team.

In un prossimo post vedremo insieme come un’azienda abbia trasformato questi concetti teorici in una realtà di business, esaminando Mostly AI.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Blog.

Synthetic Data: Machine Learning for Privacy Preserving

Synthetic Data

Synthetization

Synthetic Data Use Cases

Ultimi post