• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning

Synthetic Data: Machine Learning for Privacy Preserving

Synthetic Data: Machine Learning for Privacy Preserving

Con l’espressione Synthetic Data soliamo riferirci ai dati sintetici generati da una sistema, una macchina.

Una definizione semplice, ma che poco lascia capire di come un simile argomento possa inserirsi in un contesto ben più ampio.

In quel contesto cioè in cui la sfera del machine learning, che tanto apprezziamo, si interseca con la tutela della privacy creando un nuovo insieme: Privacy Preserving Machine Learning.

Attenzione però, perché c’è una sottile sfumatura da cogliere.

Sappiamo bene che alla base di ogni sistema di machine learning ci sia un sufficiente ammontare di dati, troppo spesso considerati scontati.

Oggi però il focus è proprio su quei dati, che possono essere processati con l’ausilio del machine learning ancor prima di essere l’origine di un modello.

Impegnativo da spiegare, ma tradotto in soldoni: in questo post, esploriamo come il machine learning possa giungere in nostro soccorso per tutelare la privacy delle osservazioni di un dataset.

Synthetic Data

I dati sintetici (Syntehtic Data) per loro stessa natura sono artificiali, ergo per cui non contengono alcuna informazione personale soggetta a tutela della privacy.

Questa spiegazione è più che sufficiente a capire perché i synthetic data siano utili.

Vogliamo però approfondire maggiormente l’argomento.

E allora senza indugi, aggiungiamo una nota.

Possiamo dire che i synthetic data si rivelano la soluzione ottimale con cui non solo condividere dati granulari ma anche abbracciare l’innovazione con progetti di AI e coinvolgenti i Big Data.

Solo una cosa: non dobbiamo pensare che sia l’unica o la perfetta soluzione.

In effetti devi sapere che esistono metodi alternativi di anonimizzazione, che approfondiremo in una seconda analisi, seppur manifestino particolari complicazioni quando applicate ai Big Data.

Tecniche come il Data Masking e l’offuscamento (obfuscating) possono essere attaccate con processi di re-identificazione che inficiano i principali sistemi di anonimizzazione.

Ora che hai un quadro generale di questo ambiente, puoi ben comprendere come una piattaforma di Synthetic Data possa generare dati di alta qualità e altamente rappresentativi, e al tempo stesso completamente anonimi.

Surclassando i metodi convenzionali, questo sistema è robusto anche a future nuove regolamentazioni.

Synthetization

Devi sapere che distinguiamo due principali metodologie di generazione dati:

  • Rule-based synthetic data, un metodo computazionalmente costoso e tipicamente generatore di una povera rappresentazione dei dati reali.
  • AI-generated synthetic data, che sfrutta modelli di deep learning all’avanguardia per catturare schemi, strutture e variazioni (pattern, structure and variation) dei dati originali, generandone di nuovi e garantendo al contempo la mancanza di una relazione diretta con quelli preesistenti.

La seconda tipologia di generazione, se ben eseguita, produce dati altamente realistici e statisticamente rappresentativi costituendo dunque un asso nella manica per la gestione dei Big Data.

Ormai dovresti andare a nozze con il concetto di privacy.

Ecco perché l’ausilio del machine learning si rivela efficace.

Questo metodo aggiunge infatti un livello di tutela della privacy per le singole istanze coinvolte: un motivo in più per prendere in considerazione questa pratica.

Synthetic Data Use Cases

I dati sintetici trovano applicazione laddove le informazioni private contenenti dati sensibili, come le PII (Personally Identifiable Information), debbano essere condivise tra collaboratori.

Questo scenario è comune nei processi di development e testing in senso ampio, di Data Analytics, nel training di modelli di machine learning e nelle collaborazioni di ricerca o interaziendali.

In parole povere, questo processo abbatte i muri e agevola l’operato di ogni team.

In un prossimo post vedremo insieme come un’azienda abbia trasformato questi concetti teorici in una realtà di business, esaminando Mostly AI.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Luglio 24, 2020
Tags | data science, dataset, machine learning, privacy preserving machine learning

You Might Also Like

Supervised, Unsupervised, Semisupervised e Reinforcement Learning

Settembre 7, 2019
privacy-preserving-tracking-app-immuni-italia-bending-spoons-guida-italia-machine-learning-data-science-blog

Privacy Preserving Tracing App: cosa significa davvero?

Aprile 24, 2020
deep-learning-reinforcement-learning-markov-decision-process-processes-markov-chain-example-markov-process-example-italiano-spiegazione-processo-decisionale-markov

Tutto sul Markov Decision Process (MDP) | Reinforcement Learning

Agosto 9, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino