• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning, Privacy Preserving

Horizontal vs Vertical vs Transfer Federated Learning

Horizontal vs Vertical vs Transfer Federated Learning

Quali sono le differenze tra Horizontal Federated Learning, Vertical Federated Learning e Transfer Federated Learing?

In questo post le esaminiamo insieme, trovando importarti casi d’uso per approfondire questi affascinanti mondi.

Vele ammainate capitano. Siamo pronti a una nuova traversata!

Cosa centrano le vele, un capitano e una traversata?

Te lo spiego subito.

Sappi che in questo post riprenderò la metafora del marinaio e del capitano, in un ipotetico viaggio verso l’irraggiungibile conoscenza suprema.

Sono sicuro che questo appunto risparmierà alla tua mente estenuanti tentativi di ragionamento su parole e significati apparentemente sconnessi: oggi vestiamo i panni di ambiziosi marinai bramanti di conoscenza.

Il viaggio attraverso gli aspetti del Federated Learning sarà la nostra conquista.

Categorie di Federated Learning

Siamo in grado di distinguere diverse architetture di apprendimento federato attraverso le caratteristiche del set di dati impiegato.

Continua a leggere…

Prima di procedere, occorre però allineare il nostro linguaggio, così da evitare di perderci preziose informazioni e nozioni lungo la rotta.

Nel briefing (ricordati che prima di salpare è fondamentale!) abbiamo compreso il significato di Federated Learning.

Non temere, ho trascritto le comunicazioni e puoi trovarle qui.

Ora completiamo il nostro vocabolario comune con altri termini tecnici.

Definiamo allora matrice Di i dati posseduti da ciascun data owner i.

Ciascuna riga della matrice rappresenta un campione o sample, mentre ogni colonna una caratteristica del campione, o feature.

Chiaramente, alcuni data set possono contenere anche una label, la caratteristica chiave che assumiamo essere legata da una funzione matematica alle feature.

L’insieme, o meglio lo spazio (space) delle feature lo indicheremo come X, il label space come Y e infine il sample ID space con I.

Ora il punto del Federated Learning è che le cose sono spesso meno rosee di come appaiano.

Quando ci troviamo a confrontarci con dati generati da diverse parti, è chiaro che il feature spaces possono variare notevolmente, determinando una variazione nell’approccio del loro handling.

Sulla base del feature space e sample ID space distinguiamo dunque:

  • Horizontal Federated Learning
  • Vertical Federated Learning
  • Transfer Federated Learning

Per ogni metodo ne esamineremo i tratti salienti, considerando anche il delicato e importante tema della definizione di sicurezza.

Studiamo il primo.

Horizontal FL

L’apprendimento federato orizzontale si adatta alle situazioni in cui i set di dati considerati condividono lo stesso feature space ma differiscono nel sample space.

Un esempio veloce?

Due banche site in regioni differenti raccolgono gli stessi dati sui clienti, che chiaramente apparterranno ad altrettanti gruppi utenti delle rispettive regioni.

L’intersezione degli utenti è quindi evidentemente piccola, con pochi o nessun campione in comune.

Che tradotto significa: è verosimile ritenere che ci siano pochissime persone con due conti in altrettante regioni in cui la stessa banca opera.

Piccolo appunto, il termine regione si riferisce in senso lato ad area geografica e non a mera differenza tra Lombardia e Piemonte ad esempio.

Teniamo poi presente che l’applicazione dell’Horizontal Federated Learning può essere estesa a due aziende che operino in un business simile, non necessariamente in competizione, con clienti differenti ma stessi parametri chiave, quindi identico fetaure space.

Security Definition

Vediamo un primo modello di sicurezza applicabile.

Un sistema di horizontal federated learning assume tipicamente che i partecipanti siano onesti e una certa sicurezza contro un server centrale definito onesto ma curioso.

Al termine del training, il modello generale e i tutti parametri sono esposti a ogni partecipante.

Date queste considerazioni, solamente il server centrale può potenzialmente compromettere la privacy dei dati dei partecipanti.

Per questo sono adottate tecniche crittografiche come l‘homomorphic encryption che forniscono un layer di sicurezza aggiuntivo sul server centrale per l’aggregazione dei parametri in fase di training.

Un altro modello di sicurezza, proposto in una pubblicazione del 2017 ammette invece la presenza di un utente malevolo che apre le porte a nuove altre considerazioni.

Le approfondiremo in un secondo momento, quando valuteremo con più attenzione gli attacchi a questi sistemi.

Vertical FL

Il sistema di apprendimento federato verticale assume che i dati considerati abbiano lo stesso sample space ma diverso feature space.

Formalmente dunque: feature e label differiscono, seppur con stessi sample ID, per ogni campione dei dataset delle parti considerate, con parti diverse tra loro.

Un sistema di questo tipo risulta pertanto applicabile laddove due diverse aziende (due parti) operino nella stessa regione, avendo dunque business anche differenti ma rivolti ai medesimi clienti.

Consideriamo un caso d’uso reale tra una banca, con dati relativi alla capacità di acquisto e ai movimenti bancari dei clienti, e un e-commerce, con dati storici relativi ai prodotti visualizzati e quelli acquistati, che codificano gli interessi dei clienti.

Il sistema di vertical federated learning consentirebbe alle parti di sviluppare un modello condiviso sulla probabilità di acquisto prodotti, e dunque spesa sostenuta, attraverso i dati utente e prodotto.

Un progetto win-win in cui tutti beneficiano del risultato.

L’apprendimento federato verticale consente dunque di aggregare le differenti feature e calcolare il training loss e i gradients con un approccio privacy-preserving.

Attraverso questo sistema e considerando le attuali misure applicabile, è possibile compiere task di :

  • Cooperative Statistical Analysis
  • Association rule mining
  • Secure linear regression, classification e gradient descent

Secure definition

Un primo modello di sicurezza assume che i partecipanti siano onesti ma curiosi. Nel caso in cui due parti siano coinvolte, consideriamo che queste non colludano e almeno una sia compromessa da un avversario.

La definizione di sicurezza assicura dunque che l’avversario possa apprendere solo i dati della parte compromessa, e nulla dell’altra al di fuori di quelli in input e output.

Per agevolare la comunicazione sicura tra le parti, è possibile definire una così detta Semi-honest Third Party (STP), che assumiamo non colluda con alcuna altra parte e fornisca prove formali di privacy per i protocolli.

Al termine dell’allenamento ciascuna parte possiede solamente i parametri relativi alle proprie features. Dunque l’inferenza deve essere eseguita con approccio collaborativo.

Passiamo ora all’ultimo sistema

Transfer Federated Learning

Il Federated Transfer Learning è il sistema attraverso cui gestire i casi che non rientrano nei precedenti scenari.

Più nello specifico è applicabile laddove i dati delle due parti considerate differiscano non solo a livello di sample space ma anche nel feature space.

Consideriamo due istituzione: una banca cinese e un’azienda di e-commerce statunitense.

Le restrizione geografiche fanno si che i gruppi utenti abbiano una piccola interesezione e le caratteristiche del dataset, a causa del diverso business, si sovrappongono solo parzialmente.

Tecnicamente questo è quello che avviene.

Una rappresentazione comune dei due feature space è rappresentata in un modello usando l’intersezione comune degli utenti e successivamente usata per asserire i dati mancanti nei campioni con solamente un gruppo di caratteristiche.

Secure definition

Possiamo qui estendere le considerazione del Vertical Federated Learning

Questa pubblicazione è ricca di spunti e ulteriori approfondimenti.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea

Written by Andrea Provino - Ottobre 17, 2020
Tags | federated learning, machine learning, privacy preserving machine learning

You Might Also Like

self-taught-come-diventare-machine-learning-engineers-data-science-italia

Self-Taught Machine Learning Engineers

Ottobre 25, 2020
guida-italiano-AUROC-AUC-receiver-operating-characteristic-example-graphics-true-positive-rate-recall-sensitivity-false-positive-rate-fall-out-fallout-specificty-true-negative-rate-roc-curve

The ROC Curve | Receiver Operating Characteristic

Settembre 29, 2019
global-differential-privacy-local-differential-privacy-deep-learning-data-science-scaled

Global Differential Privacy vs Local Differential Privacy

Febbraio 13, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino