• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning

Synthetic Data: Machine Learning for Privacy Preserving

Synthetic Data: Machine Learning for Privacy Preserving

Con l’espressione Synthetic Data soliamo riferirci ai dati sintetici generati da una sistema, una macchina.

Una definizione semplice, ma che poco lascia capire di come un simile argomento possa inserirsi in un contesto ben più ampio.

In quel contesto cioè in cui la sfera del machine learning, che tanto apprezziamo, si interseca con la tutela della privacy creando un nuovo insieme: Privacy Preserving Machine Learning.

Attenzione però, perché c’è una sottile sfumatura da cogliere.

Sappiamo bene che alla base di ogni sistema di machine learning ci sia un sufficiente ammontare di dati, troppo spesso considerati scontati.

Oggi però il focus è proprio su quei dati, che possono essere processati con l’ausilio del machine learning ancor prima di essere l’origine di un modello.

Impegnativo da spiegare, ma tradotto in soldoni: in questo post, esploriamo come il machine learning possa giungere in nostro soccorso per tutelare la privacy delle osservazioni di un dataset.

Synthetic Data

I dati sintetici (Syntehtic Data) per loro stessa natura sono artificiali, ergo per cui non contengono alcuna informazione personale soggetta a tutela della privacy.

Questa spiegazione è più che sufficiente a capire perché i synthetic data siano utili.

Vogliamo però approfondire maggiormente l’argomento.

E allora senza indugi, aggiungiamo una nota.

Possiamo dire che i synthetic data si rivelano la soluzione ottimale con cui non solo condividere dati granulari ma anche abbracciare l’innovazione con progetti di AI e coinvolgenti i Big Data.

Solo una cosa: non dobbiamo pensare che sia l’unica o la perfetta soluzione.

In effetti devi sapere che esistono metodi alternativi di anonimizzazione, che approfondiremo in una seconda analisi, seppur manifestino particolari complicazioni quando applicate ai Big Data.

Tecniche come il Data Masking e l’offuscamento (obfuscating) possono essere attaccate con processi di re-identificazione che inficiano i principali sistemi di anonimizzazione.

Ora che hai un quadro generale di questo ambiente, puoi ben comprendere come una piattaforma di Synthetic Data possa generare dati di alta qualità e altamente rappresentativi, e al tempo stesso completamente anonimi.

Surclassando i metodi convenzionali, questo sistema è robusto anche a future nuove regolamentazioni.

Synthetization

Devi sapere che distinguiamo due principali metodologie di generazione dati:

  • Rule-based synthetic data, un metodo computazionalmente costoso e tipicamente generatore di una povera rappresentazione dei dati reali.
  • AI-generated synthetic data, che sfrutta modelli di deep learning all’avanguardia per catturare schemi, strutture e variazioni (pattern, structure and variation) dei dati originali, generandone di nuovi e garantendo al contempo la mancanza di una relazione diretta con quelli preesistenti.

La seconda tipologia di generazione, se ben eseguita, produce dati altamente realistici e statisticamente rappresentativi costituendo dunque un asso nella manica per la gestione dei Big Data.

Ormai dovresti andare a nozze con il concetto di privacy.

Ecco perché l’ausilio del machine learning si rivela efficace.

Questo metodo aggiunge infatti un livello di tutela della privacy per le singole istanze coinvolte: un motivo in più per prendere in considerazione questa pratica.

Synthetic Data Use Cases

I dati sintetici trovano applicazione laddove le informazioni private contenenti dati sensibili, come le PII (Personally Identifiable Information), debbano essere condivise tra collaboratori.

Questo scenario è comune nei processi di development e testing in senso ampio, di Data Analytics, nel training di modelli di machine learning e nelle collaborazioni di ricerca o interaziendali.

In parole povere, questo processo abbatte i muri e agevola l’operato di ogni team.

In un prossimo post vedremo insieme come un’azienda abbia trasformato questi concetti teorici in una realtà di business, esaminando Mostly AI.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Luglio 24, 2020
Tags | data science, dataset, machine learning, privacy preserving machine learning

You Might Also Like

eep-learning-machine-learning-learning-rate-how-to-set-learning-rate-guida-italiano

How to set Learning Rate Deep Learning Neural Networks

Marzo 5, 2020
python-differential-privacy-machine-learning-data-science-analytics-federated-learning-homorphic-encryption

PyDP: Python Differential Privacy | Italiano

Settembre 1, 2020

One Versus All (OvA) vs One Versus One (OvO) | Multiclass Classifiers

Settembre 30, 2019

No Comment

Please Post Your Comments & Reviews
Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain

    Patricia Merkle Trie

    Maggio 30, 2023
  • Artistic representation of a tree Blockchain

    Tree Data Structure: cos’è un Merkle Tree

    Maggio 26, 2023
  • Cover image for Bitcoin UTXO explanation post Blockchain

    UTXO: come funziona il modello Unspent Transaction Outputs

    Maggio 23, 2023
  • Blockchain

    Cos’è Ethereum

    Maggio 15, 2023
  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino