Blog.

Data Requirments e Data Collection | Data Science Methodology


Autore
Andrea Provino
Data
Tempo di lettura
2 minuti
Categoria
Data Science, Guide, machine-learning

data-collections-data-requirments-data-science-methodology-guida-italiano-machine-learning-italia-blog

Il nostro percorso sulla data science methodology, iniziato con il Business Understarning e seguito dall’Analytic Approach, prosegue ora con la definizione del data requirments e del data collection.

La Data Science Methodology è una metodologia, cioé un sistema di metodi che, usati in una particolare area di studi, permettono di organizzare ordinatamente i task da completare per raggiungere uno specifico obiettivo.

Nel precedente post abbiamo individuato i primi due step:

  • Business Understaning
  • Analytic Approach

Ora vediamone altri due.

Data Requirments

L’ Analytic Approach scelto determina i requisiti che i dati devono avere da un punto di vista:

  • contenutistico
  • strutturale e rappresentativo

A questo punto il domain knownledge gioca un ruolo fondamentale.

Individuare quali siano i dati necessari alla soluzione del problema soddisfa questa fase della data science methodology.

Data Collection

In una fase preliminare, siamo chiamati a identificare e raccogliere tutti i dati disponibili. Possono presentarsi come dati:

  • strutturati
  • non strutturati
  • semi-strutturati

E’ fondamentale chiarire da quali fonti vengano raccolti i dati, ed è assolutamente naturale rimandare decisioni su quelli non disponibili, tentandone la raccolta in una successiva fase. (ad esempio per migliorare le performance del modello, se necessario).

Utile a questo proposito è la collaborazione con i DBA (Data Base Admins) per coordinare l’attività di raccolta, e merging dei dati, volta ad eliminare inutili ridondanze.

Inoltre, è spesso possibile automatizzare determinati processi all’interno dei database così da facilitare il data collection.

Nel prossimo post analizziamo le successive fasi della data science methodology:

Un caldo abbraccio, Andrea

Taggeddata sciencedata scientistteoria


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum