• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning, Privacy Preserving

Cross-Silo Federated Learning

Cross-Silo Federated Learning

Il Cross-Silo Federated Learning è la soluzione ottimale laddove diverse organizzazioni o aziende abbiano l’obiettivo comune di allenare un modello di machine learning, non potendo però condividere dati per motivi legali o confidenziali.

Pensiamo ad esempio al caso in cui alcuni istituti bancari intendano sviluppare un modello di credit scoring.

I vantaggi di questa tecnologia non terminano qui.

Considera infatti che la configurazione cross-silo non riguarda solo le relazioni interaziendali, e può essere applicata anche all’interno della stessa azienda (i.e. dati intra-aziendali) quando ad esempio non è possibile centralizzare i dati di differenti aree geografiche o giurisdizioni.

Con la proliferazione delle regolamentazioni in materia di tutela dei dati personali sono necessari nuovi strumenti.

Ecco le ragioni per cui il Cross-Silo Federated Learning acquisisce un’importanza sempre maggiore!

La spedizione esplorativa è pronta: carichiamo le utile provviste, e partiamo alla scoperta di questa affascinante configurazione!

Prima però, ripassiamo insieme cosa sia il Federaded Learning.

Perfetto!

Cross-Silo Federated Learning

Quando parliamo di Cross-Silo Federated Learning, dobbiamo considerare 4 elementi fondamentali:

  • Partizionamento dei dati
  • Meccanismi d’incentivazione
  • Privacy Differenziale (sempre presente)
  • Fattorizzazione dei tensori

Ora che ho perso la tua attenzione con questi termini così complessi e faticosi da digerire, procediamo!

Devi sapere una cosa fondamentale.

Grazie a queste considerazioni saremo in grado d’identificare propriamente lo scenario, il problema da risolvere, attuando dunque la strategia ottimale.

Sono dunque importanti nozioni da tenere a mente.

Non temere, ti accompagno io in questo viaggio: esploreremo ogni elemento con semplicità, allontanando il tedio se necessario.

Data Partitioning

In una configurazione Cross-Silo i dati possono essere partizionati per campione (i.e. User) o per caratteristica (i.e. Feature).

L’esempio più comune è a quello di due aziende con business differenti e dati identici o sovrapponibili, come una banca e un’azienda di vendita al dettaglio in una stessa città.

Sappi poi un’altra cosa, utile per sembrare ancora più colti al tuo gruppo di amici del Pub.

Questa distinzione è spesso identificata da una nomenclatura elaborata da Yang et Al che prevede il riconoscimento di:

  • dati partizionati orizzontalmente (per campione, sample-based)
  • dati partizionati verticalmente (per caratteristica, feature-based)

Approfondiremo le differenze le loro differenze in un prossimo articolo.

Per il momento è sufficiente sapere che esistano.

Chiudiamo ora il cerchio, e comprendiamo il motivo per cui è stato necessario considerare la loro esistenza.

In base alla conformazione dei dati cambiano infatti le accortezze da tenere a mente.

Dati verticali

Applicando il Cross-Silo Federated Learning a dati partizionati verticalmente potrebbe essere necessario definire un server centrale neutro.

Inoltre, in base alla tipologia di algoritmo di training designato, le informazioni scambiate potrebbero limitarsi a specifici risultati intermedi anziché completi parametri del modello.

In queste circostanze l’ausilio della Secure Multi-Parti Computation o della Homomorphic Encryption è necessario per assicurare opportune garanzie di sicurezza.

Dati orizzontali

Quando un’azienda non può centralizzare i dati per motivi legali (i.e. differenti giurisdizioni, come molteplici aree geografiche) o più compagnie con un obiettivo comune decidano di collaborare per migliorare il proprio modello, dobbiamo considerare questo scenario.

Un esempio concreto? Subito!

Possiamo pensare a diverse banche che decidano di allenare un modello di fraud detection o anomaly detection, oppure ancora ospedali che vogliano creare modelli diagnostici di qualità superiore.

Federated Transfer Learning

Questo approccio è utile negli scenari in cui esiste solo una parziale sovrapposizione dei dati condivisi delle parti.

Tuttavia, le soluzioni oggi esistenti si limitano alla casistica con due clients.

Passiamo al secondo grande elemento per chiarire un problema di Cross-Silo Fedearated Learning.

Incentive mechanisms

I meccanismi d’incentivazione rappresentano un concetto molto importante.

Perché mai le diverse parti dovrebbero partecipare nella risoluzione del problema, mettendo in compartecipazione i propri dati?

Per poter vendere delle soluzioni di cross-silo federated learning a diverse aziende, anche in competizione (i.e. Business competitors), è necessario che siano spronate a partecipare attivamente.

A ogni problema, una soluzione. Soluzione che in questo caso si chiama: incentive mechanisms

Occorre dunque trovare degli incentivi che spingano le parti a rimanere nel gioco per lungo tempo, invece d’interrompere la collaborazione.

Quando il modello è rilasciato in produzione, possono essere misurate le perfomance e registrate su supporti dati permanenti, ad esempio la Blockchain*.

In questo modo, le aziende che forniranno maggiori dati potranno beneficiare maggiormente del modello, poiché come sappiamo l’efficacia dipende dalla mole di dati su cui è allenato.

Quello che potresti non sapere è che l’efficacia stessa del modello è distribuita alle parti attraverso meccanismi federati, ergo per cui questo sistema riuscirebbe a motivare le parti a rimanere e convincerne di nuove a entrare nel loop.

Differential Privacy

Definire l’architettura di allenamento del modello è solo uno dei molteplici nodi da risolvere: occorre anche assicurare la privacy dei dati.

La privacy differenziale si rivela dunque ottimale per questo scopo.

Infine, l’elemento apparentemente più ostico.

Tensor factorization

Qualora i dati fossero orizzontalmente partizionati, con molteplici dataset contenenti dati con le stesse caratteristiche partizionati per campione, la fattorizzazione dei tensori permette di condividere con il server centrale meno informazioni.

Più nel dettaglio, solo i fattori intermedi vengono condivisi, tenendo i dati di ogni sito privati.

Mi rendo conto che si tratti di elementi un po’ astratti, ma avremo modo di capirne sempre di più.

Continua a seguirmi, e ti consiglio di attivare le notifiche con il grosso bottone rosso che trovi in basso a sinistra della pagina home!

Qualora volessi approfondire, ti rimando a questa pubblicazione ricca d’informazioni aggiuntive.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Ottobre 11, 2020
Tags | federated learning, machine learning, privacy preserving machine learning

You Might Also Like

open-ai-safety-gym-cover-italiano-data-science-blog-guida-machine-learning-deep-reinforcement-learning

Open AI Safety Gym per Reinforcement Learning

Novembre 23, 2019
migliori-libri-sul-machine-learning-best-machine-lerning-books-data-science-guida-acquisto-amazon

Migliori libri sul machine learning

Novembre 2, 2020

R for Data Science | Comandi utili RStudio

Gennaio 9, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino