Blog.

Project Planning Funnel | Machine Learning Portfolio Projects


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
Data Science, machine-learning

project-planning-funnel-machine-learning-guida-come-fare-data-scientist-italiano-machine-learning-portfolio

L’obiettivo di oggi è definire il Project Planning Funnel, ossia il percorso ideale (letteralmente l’imbuto) per pianificare i tuoi progetti da inserire nel porfolio da Data Scientist.

Inziamo dalle basi.

Prima una ripassata al concetto di Machine Learning.

Ora che abbiamo le idee chiare. Passiamo al funnel

Project Planning Funnel | Cos’è?

Il project planning funnel è una serie di step chiave, che rappresentanto delle guide lines per pianificare in modo ordinato e sequenziale la fasi preliminari di ogni progetto che andremo a realizzare.

E’ quindi una best practice da seguire per strutturare omogeneamente ciascun portfolio project.

Sono 5 step:

  • Domain
  • Topic
  • Datasets
  • ML Task
  • Win Condition

Domain Knownledge

Il primo obiettivo è individuare un dominio di interesse. Ad esempio l’E-commerce, o l’immobiliare, e ancora la biologia o il settore automotive.

I risultati migliori si ottengono quando competrenze personali in un dato dominio sono fuse con le tecniche di data analysis.

Questo perché conoscenze altamente verticali fanno la differenza nel processo più delicato del machine learning in ambito data science: feature engineering.

Topic | Find your challenges

Individuato il dominio, occore trovare delle sfide, o problemi, che si vuole superare.

E’ bene fare un minimo di brain storming e focalizzare l’attenzione su almeno 3 topics.

Il punto è capire quali soluzioni un sistema di machine learning potrebbe trovare a problemi complessi o per cui non esiste oggi un dato algoritmo.

Chi beneficerebbe maggiormente grazie a queste soluzioni?

Cosa renderebbe felice il nostro stakeholder?

Un esempio, considerando il settore automotive:

  • prevedere il costo di un auto elettrica
  • prevedere quando l’auto deve andare dal meccanico
  • individuare i cluster di automobilisti in Italia

Datasets | Find Yoour Data

Scelto il dominio, e individuati i problemi che intendiamo risolvere, inizia la ricerca dei dati.

Dobbiamo prestare attenzione alla ricchezza delle features, e alla loro qualità: numero sufficiente di osservazioni e presenza della variabile target.

Ricorda che è fondamentale avere dati di buona qualità.

Se non dovessimo trovare dati di nostro interesse, torniamo indietro e facciamo nuovi brain stroming.

Il Project Planning Funnel è un processo iterativo.

ML Task | Confirm Machine Learning Task

Da bravi Data Scientist con una mente ordinata e schematica: confermiamo il task di machine learning che intendiamo portare a termine:

  • classificazione
  • regressione
  • clustering

Poiché l’obiettivo è generare dei progetti utili da inserire nel nostro portfolio, sono i dati che ci guidano.

Ad esempio, se il nostro dataset contiene una label discreta, il sistema di machine learning sarà di classification learning.

Win Condition | When you project should end

E’ mandatorio definire una win condition.

Si tratta di una condizione fissata a priori, anche in modo generico, per determinare la fine del progetto.

E’ importante poiché in sua assenza potremmo procedere ad oltranza senza un chiaro obiettivo in testa… no buono!

Una win condition può essere:

  • quantitativa, performare al di sotto di un certo errore
  • temporale, lavorare al progetto per due settimane sviluppando il miglior modello possibile.

Questi sono i più importanti punti da tenere a mente per iniziare con successo il progetto da inserire nel portfolio personale.

Un caldo abbraccio, Andrea.

Taggedmachine learning


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum