Blog.

Apheris AI: analisi su dati distribuiti e tutela della privacy


Autore
Andrea Provino
Data
Tempo di lettura
6 minuti
Categoria
AI, Business, Privacy Preserving

apheris-ai-machine-learning-deep-leaniing-data-science-deep-learning-differential-privacy-distributed-analysis-federated-learning

Apheris AI è un’azienda tedesca specializzata nell’analisi su dati distribuiti, attraverso tecniche che consentono la tutela della privacy, con focus nell’healthcare.

In questo post, analizziamo Apheris AI per capire meglio come le tecniche di privacy-preserving possano essere impiegate concretamente per distribuire valore alle aziende.

In una parola: Business!

Prima, una breve introduzione.

Machine Learning Companies

Da gennaio, abbiamo ristretto il focus di ricerca e studio attorno a 5 temi:

  • fairness
  • verification
  • privacy
  • adversarial
  • security

Da allora abbiamo trattato insieme, in modo teorico, alcuni dei concetti chiave che ci permettono di analizzare i sistemi di machine learning, e le reti neurali in particolare, sulla base degli elementi di cui sopra.

Limitarci a consultare qualche codice GitHub, e leggere gli articoli accademici, non basta.

Per sviluppare una visione a 360° in questo complesso e meraviglioso panorama dobbiamo saper scrutare oltre l’orizzonte.

Sulla base di queste premesse, oggi diamo il via a un nuovo format che ci avvicinerà al mondo business: analizzeremo le aziende operanti in questi settori, studiandone i prodotti, le missioni e i servizi offerti.

Ancora gettata capitano. Esploriamo quest’isola!

Apheris AI: Unlocking value from
distributed data

Robin Röhm and Michael Höh fondarono Apheris AI con il sogno di conferire alle aziende l’abilità di eseguire analisi su dati decentralizzati.

Ecco che iniziano i primi problemi.

Le aziende non sono pronte.

Il passaggio da una mentalità verticale e chiusa a una più aperta e votata alla circolazione delle informazioni, sappiamo essere una tappa fondamentale nel processo d’innovazione digitale aziendale.

Questa affermazione è valida tanto all’interno della singola azienda, quanto nei rapporti tra compagnie.

Esiste però una grossa barriera che limita il progresso nelle industrie data driven, quelle cioè che intendono farsi guidare dai dati nelle decisioni strategiche.

I dati sono generalmente gestiti all’interno di silos, archivi isolati posti sotto al controllo di singoli reparti, e la maggior parte delle aziende opera in closed data ecosystems.

Tradotto in soldoni….

Attualmente le aziende non possono condividere i dati.

I motivi per cui questo succede sono almeno due:

  • Le compagnie hanno speso milioni per produrre grandi e robusti dataset, che costituiscono la loro Intellectual Property (IP): non intendono condividere.
  • Le attuali regolamentazioni (e.g GDPR) sono particolarmente stringenti e impediscono la condivisione di dati contenenti le famigerate Personally Identifiable Information (PII)

Cosa ne pensi?

Queste sono condizioni sfavorevoli alla nascita e lo sviluppo di sistemi di machine learning.

Apheris AI si pone dunque l’obiettivo di abbattere i muri, connettendo i dati per estrarne insights migliori.

Con un escamotage: i dati non vengono toccati, rimangono là dove sono sempre stati.

Perfetto!

Ci siamo fatti un’idea generale del perché. Comprendiamo il come: quali tecnologie vengono usate?

Technology

L’azienda fa ricorso alle seguenti tecnologie per consentire privacy-preserving data analytics:

Ottimo.

Quali sono invece le figure professionali in grado di gestire questo insieme di elementi?

Opportunità di carriera

Studiare i ruoli disponibili in un’azienda è utile per almeno due motivi:

  • Siamo in grado di comprendere l’organico aziendale necessario per fornire determinati servizi.
  • Possiamo capire quali competenze occorrano per operare in questo settore.

Proseguiamo nell’esplorazione!

Data Engineering / Data Scientist

A livello tecnico, le hard-skill necessarie secondo l’azienda sono le seguenti:

  • Python (Pandas, Numpy, scikit-learn, Tensorflow, PyTorch)
  • Conoscenza di database SQL e NoSQL
  • Web Technology (HTTP, TCP)
  • Applicazione algoritmi di articoli accademici
  • Conoscenze di architettura a microservizi (e.g. Kubernetes) e sistemi di deployment (e.g. Docker)

Nulla di nuovo. Nell’analisi d’inizio anno era chiaro che un data scientist avrebbe dovuto conoscere anche le tecnologie per il rilascio in produzione dei sistemi.

Cyber Security Engineer

Un ruolo che possa operare nell’intersezione tra crittografia, AI e privacy engineering.

Un professionalità rara e senz’altro accattivante.

Nello specifico il cyber security engineer assicura che i dati del proprietario non vengano compromessi, sovrintendendo l’impiego di tecnologie per la protezione dati, facenti uso dei più alti standard di sicurezza.

Per un posizione di simili responsabilità sono necessarie:

  • Conoscenza di crittografia, software engineering o cybersecurity
  • Esperienza multi livello nella difesa di sistemi IT, da singole macchine, a intere reti passando per quelli distribuiti.
  • Conoscenze di paradigmi di programmazione sicura ed esperienze di ethical hacking, l’attacco ai sistemi volto a scoprirne vulnerabilità
  • Capacità di lavorare sotto pressione e velocemente (il mindset è qui fondamentale)
  • Forte attenzione ai dettagli e costante propensione allo studio di nuovi cybersecurity trends e hacking techniques 

Insomma dettagli piuttosto generici, che testimonino forse una scarsa conoscenza del mestiere e delle reali e concrete necessità.

Expert in Privacy Preserving Computation

Una delle punte di diamante di un team operante in un settore così peculiare è certamente l’esperto nelle tecnologie fondamentali.

Una bussola, capace di consigliare, guidare e correggere la rotta ove necessario.

Gli inglesi hanno un termine per indicare una figura simile: è il thought-leader.

Quella persona cioè il cui pensiero è considerato autorevole e influente.

Immagino già sappia le competenze che dovrebbe mostrare:

  • Esperta conoscenza di tecniche di tutela della privacy, nello specifico differentially private algorithms
  • Profonda conoscenza di matematica, e sistemi di machine learning e deep learning.
  • Abilità di applicare i più innovativi concetti di privacy preserving su nuovi dati.
  • Conoscenza di Python e best-practice (uso dei sistemi di controllo versione, scrittura documentazione e chiarezza nel codice)
  • Esperienze nell’applicare gli algoritmi aldilà delle ricerche accademiche, su scenari reali
  • Microservizi e Deployment (Kubernetes e Docker)

Ho scelto di condividere con te queste tre personalità, poiché le ritengo maggiormente significative.

Per un elenco completo delle professioni, ti esorto comunque a consultare questo link.

A questo punto facciamo una brevissima sosta.

Abbiamo raccolto sufficienti informazioni per capire il problema che Apheris AI intende risolvere. A conoscenza del perché, ci siamo spostati sul capire come si possa risolvere e individuato le figure chiave senza le quali questa missione sarebbe impossibile.

Ora, ci siamo.

Quasi sulla punta più alta dell’isola: cosa fa Apheris AI?

Cosa

Apheris AI sta costruendo un’infrastruttura per eseguire operazioni, principalmente di analisi e creazione modelli di ML, su una rete di dati federati (federated data network) preservando la privacy delle istanze.

Procedono su almeno due lunghezze d’onda.

La prima, è di analisi.

Usano dati sintetici (synthetic data, a breve svilupperemo un post a riguardo) come preview tool, per permettere ai data scientist di esplorare i dati originali e abbozzare delle analisi su dati non direttamente accessibili.

Non solo.

Sfruttando un approccio proprietario, accompagnano l’analisi su dati sintetici (con problemi che vedremo in seguito) a quella su dati originali, protetti attraverso le tecniche di cui sopra.

Ovviamente anche loro si trovano a dover gestire il Privacy-vs-utility tradeoff.

La seconda lunghezza d’onda riguarda l’integrazione di queste avanzate tecniche ai workflow aziendali preesistenti.

Queste tecnologie consentono di fatto la realizzazione di efficienti e accurati sistemi da integrare in ambienti di produzione reali, per conferire valori senza pari e giovare tanto alle aziende quanto agli utenti finali.

Il punto è proprio questo.

Sin’ora, solamente grandi colossi, come Facebook, Google e Apple, hanno giovato dall’integrazione di queste tecnologie nei loro servizi, andando a operare nel contesto B2C, Business to Consumer.

Apheris AI intende portare i vantaggi delle analisi con tutela della privacy ai contesti interaziendali, in gergo nel B2B: il business to business

Ecco il sito dell’azienda.

Un caldo abbraccio, Andrea.

Taggeddata sciencedifferential privacyprivacy


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum