Project Planning Funnel | Machine Learning Portfolio Projects

Autore

Andrea Provino

Data

11 settembre 2019

Tempo di lettura

3 minuti

Categoria

Data Science, machine-learning

project-planning-funnel-machine-learning-guida-come-fare-data-scientist-italiano-machine-learning-portfolio

L’obiettivo di oggi è definire il Project Planning Funnel, ossia il percorso ideale (letteralmente l’imbuto) per pianificare i tuoi progetti da inserire nel porfolio da Data Scientist.

Inziamo dalle basi.

Prima una ripassata al concetto di Machine Learning.

Ora che abbiamo le idee chiare. Passiamo al funnel

Project Planning Funnel | Cos’è?

Il project planning funnel è una serie di step chiave, che rappresentanto delle guide lines per pianificare in modo ordinato e sequenziale la fasi preliminari di ogni progetto che andremo a realizzare.

E’ quindi una best practice da seguire per strutturare omogeneamente ciascun portfolio project.

Sono 5 step:

Domain
Topic
Datasets
ML Task
Win Condition

Domain Knownledge

Il primo obiettivo è individuare un dominio di interesse. Ad esempio l’E-commerce, o l’immobiliare, e ancora la biologia o il settore automotive.

I risultati migliori si ottengono quando competrenze personali in un dato dominio sono fuse con le tecniche di data analysis.

Questo perché conoscenze altamente verticali fanno la differenza nel processo più delicato del machine learning in ambito data science: feature engineering.

Topic | Find your challenges

Individuato il dominio, occore trovare delle sfide, o problemi, che si vuole superare.

E’ bene fare un minimo di brain storming e focalizzare l’attenzione su almeno 3 topics.

Il punto è capire quali soluzioni un sistema di machine learning potrebbe trovare a problemi complessi o per cui non esiste oggi un dato algoritmo.

Chi beneficerebbe maggiormente grazie a queste soluzioni?

Cosa renderebbe felice il nostro stakeholder?

Un esempio, considerando il settore automotive:

prevedere il costo di un auto elettrica
prevedere quando l’auto deve andare dal meccanico
individuare i cluster di automobilisti in Italia

Datasets | Find Yoour Data

Scelto il dominio, e individuati i problemi che intendiamo risolvere, inizia la ricerca dei dati.

Dobbiamo prestare attenzione alla ricchezza delle features, e alla loro qualità: numero sufficiente di osservazioni e presenza della variabile target.

Ricorda che è fondamentale avere dati di buona qualità.

Se non dovessimo trovare dati di nostro interesse, torniamo indietro e facciamo nuovi brain stroming.

Il Project Planning Funnel è un processo iterativo.

ML Task | Confirm Machine Learning Task

Da bravi Data Scientist con una mente ordinata e schematica: confermiamo il task di machine learning che intendiamo portare a termine:

classificazione
regressione
clustering

Poiché l’obiettivo è generare dei progetti utili da inserire nel nostro portfolio, sono i dati che ci guidano.

Ad esempio, se il nostro dataset contiene una label discreta, il sistema di machine learning sarà di classification learning.

Win Condition | When you project should end

E’ mandatorio definire una win condition.

Si tratta di una condizione fissata a priori, anche in modo generico, per determinare la fine del progetto.

E’ importante poiché in sua assenza potremmo procedere ad oltranza senza un chiaro obiettivo in testa… no buono!

Una win condition può essere:

quantitativa, performare al di sotto di un certo errore
temporale, lavorare al progetto per due settimane sviluppando il miglior modello possibile.

Questi sono i più importanti punti da tenere a mente per iniziare con successo il progetto da inserire nel portfolio personale.

Un caldo abbraccio, Andrea.

Blog.