Blog.

Fine siesta: data scientist? Ancora tanto da fare. Partiamo!


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
Logs

blanket-2941857_1920

Buongiorno!

Oggi cambiano un po’ di cose!

Posizione più scomoda non potevo trovarla.

Il contesto

Mi trovo a bordo di un treno direzione Milano. Oggi, sarà il mio primo giorno di lavoro; ma questa è un’altra storia.

Il problema è che il computer, spesso quanto un foglio di carta e realizzato in lamiera particolarmente propense alle curvature è posto a metà strada tra un porta biccchieri e il bordo del tavolo.

In pratica, tra 50 minuti quando arriverò a Milano, mi troverò un banana PC.

Passiamo al motivo di questo post.

Ricominciamo

Dal 10 gennaio le cose sul sito si sono bloccate. Stavamo conducendo l’EDA sul Big Mart Sales dataset, e quello potrebbe essere un ottimo punto di partenza per riprendere le redini del progetto.

Dobbiamo tuttavia tenere anche a mente che, ad oggi, non abbiamo un programma a lungo termine per:

  • il sito;
  • il percorso da aspiranti data scientist.

E questo non va bene…

Mi sono fermato un attimo per riflettere. Ecco la conclusione a cui sono giunto.

Le conclusioni

  • questo post è incredibilmente breve, e non sarà mai indicizzato da Google.
  • il mio computer sta diventando un bananone dal display curvo. It’s a feature
  • prima di iniziare un nuovo progetto, dobbiamo finire quelli aperti. Quindi? riprendiamo l’articolo sul Big Mart e cominciamo.

Dunque, risolviamo il primo e l’ultimo punto in un unico articolo!

Big Mart Dataset: cosa facciamo?

Ci siamo lasciati con questo articolo, che fornisce una panoramica generale delle informazioni emerse dall’EDA, delle domande sorte e alcune prime ipotesi generate nel tentativo di spiegare anomalie e alimentare il ciclo iterativo proprio dell’Exploratory Data Analysis.

Ora però mi trovo davanti un problema che ti illustro rapidamente.

Quello che faccio in questi post e spiegarti sostanzialmente il mio personale approcio a diversi problemi nel tentativo di trovare una soluzione da condividere con te. Sono però il primo ad ammettere che non so nulla di machine learning e tecniche di data science.

Ecco perché le mie primarie fonti di apprendimento sono siti specializzati alle cui spalle spero ci sia qualcuno che ne capisca più di me. Ed ecco il punto.

Ho iniziato questo progetto seguendo una semi-guida che spiegava come procedere usando R. Ora ne ho trovata una migliore e più dettagliata che usa Python. Quindi… o procediamo seguendo la nuova guida rielaborando i contenuti in modo tale che il progetto sia compatibile con R, oppure passiamo a python perché in fondo quello che abbiamo fatto fin’ora è limitarci a condurre l’EDA.

Nel dubbio? Facciamo tutti e due!

Questo è stato un post riepilogativo che mi ha permesso di chiarire un attimo la strada da percorrere nei prossimo giorni. Dal post successivo le cose si fanno serie! Si torna al lavoro. Zaino in spalla. La vetta è alta!

Alla prossima!

Un caldo abbraccio, Andrea

Taggeddata sciencedata scientist


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum