• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

Machine Learning Pipelines cosa sono? In italiano

Machine Learning Pipelines cosa sono? In italiano

In questo post introduciamo il concetto di pipeline e vediamo in cosa consistono le machine learning pipelines!

Dopo esserci rinfrescati la memoria con la definzione che Arthur Samuel diede di machine learning nel 1959, siamo pronti per capire come e in che modo le pipelines entrano in scena.

Abbiamo dati. Tanti dati. Troppi dati.

Dati che devono essere processati, analizzati e opportunamente gestiti.

Non possiamo certo metterci ad eseguire manualmente ogni singola operazione. Parola chiave: automatizzazione.

Entrano in gioco le machine learning pipelines

Machine Lerning Pipelines

Una machine learning pipeline altro non è che una sequenza ordinata e definita di componenti che processano i dati.

Sono molto comuni all’interno dei sistemi di machine learning dato l’elevato numero di dati da gestire e di trasformazioni da applicare.

Abbiamo quindi spiegato che nascono dal bisogno di automatizzare il workflow. Ma qual è il reale vantaggio?

Considera che ciasun componente è tipicamente asincrono, cioè la sua esecuzione è indipendente dalle altre.

I dati in ingresso nella pipeline sono alterati da un componente che produce un output salvato in un elemento definito data store. Il data store è il punto di collegamento tra i componenti.

Machine Learning Pipelines from Hands-On Machine Learning With Scikit-Learn & Tensorflow

Dopo un certo tempo, variabile ma definito, il componente di valle (downstream component) preleva i dati gestiti dal precedente coponente, quello a monte (upstream component) eseguendo nuove trasformazioni. L’output, come avrai inutito, è salvato in un nuovo data store.

Da qui, dopo un certo tempo, variabile ma definito… il ciclo continua fino all’utlimo data store della pipeline.

Vantaggi

Un sistema simile offre il vantaggio di essere facilmente comprensibile, grazie anche all’astrazione effetuata con grafici e illustrazioni.

Più team possono lavorare alla stessa pipeline, curando ciascuno un componente differente.

Inoltre, se un componente dovesse malfunzionare il downstream component può continuare ad operare normalmente, almeno fino a completa elaborazione dei dati nello store condiviso.

Svantaggi

Un componente malfunzionante, a causa della vantaggiosa e robusta struttura con cui la pipeline è progetatta, può tuttavia essere un problema, risultando difficile da individuare.

Ecco perché è importante sviluppare opportuni sistemi di monitorazione, per assicurarsi che tutto proceda a dovere. In caso contrario i dati diventano obsoleti e le performance si riducono drasticamente.

Memory tips

Per ricordare facilmente questo argomento, ho preparato per te alcune key word con cui riassumere il contentuo del post:

  • pipeline
  • automazione
  • data store
  • componente
  • asincronia
  • downstream e upstream
  • monitorazione

Machine Learning Pipeline | Aspetto

Ok.

Abbiamo visto cosa sono in linea teorica.

Sappiamo perché sono utili e quali vantaggi e svantaggi abbiano.

Ma senza una comprensione palpabile della loro natura, questo post avrebbe poco senso.

Ad un macro livello, un componente, alla fine il principale elemento della pipeline, è un progetto di data science. Ad esempio un supervised regression problem con metodo di batch learning.

Il data store? L’output del modello di machine learning: una o più variabili discrete, o categoriche.

Possiamo trovare pipeline anche ad un micro livello, all’interno cioé di ciascun macro progetto di machine learning.

A questo livello una pipeline è formata da componenti che passano in rassegna le fasi della Data Science Methodology:

Pipeline di Machine Learning in Azure Machine Learning

In questo modo data scientist, data engineer, professionisti IT possono collaborare alle fasi di:

  • preparazione dei dati, normalizzazioni e trasformazioni
  • Training dei modelli
  • valutazione del modello
  • distribuzione

Per il momento è tutto!

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Settembre 21, 2019
Tags | data science, data scientist, machine learning, teoria

You Might Also Like

tensorflow-developer-certificate-deep-learning-italia-course

TensorFlow Developer Certificate

Maggio 7, 2020
github-tensorflow-js-models-javascript-machine-learning-browser

GitHub Machine Learning: 9 Pre-trained TensorFlow.js models

Marzo 20, 2020
privacy-preserving-record-linkage-privacy-preserving-machine-learning

Privacy Preserving Record Linkage (PPRL)

Giugno 13, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino