• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

Data Visualization Tools Python: Area Plots, Histograms, Bar Chart

Data Visualization Tools Python: Area Plots, Histograms, Bar Chart

In questo esploriamo tre Data Visualization Tools in Python: Area Plots, Histograms e Bar Charts.

Data Visualization

Per Data Visualization si intende quella tecnica che consente di esplorare e rappresentare i dati sotto forma di grafici e rapporti, con l’intento di svilupparne una conoscenza globale.

È buona prassi procedere a visualizzare i dati solo dopo aver diviso il dataset in training e testing. Il nostro cervello è infatti un sofisticato sistema d’individuazione di pattern: così facendo eviteremo di creare pericolosi bias sui dati.

La parte pratica farà uso di un comune dataset canadese che fornisce indicazioni sull’immigrazione dal 1980 al 2013.

Trattandosi di un file xlsx, useremo un metodo di pandas.

Avviamo un jupyter notebook in locale, o su Google Colab, e prepariamoci all’esplorazione importando il dataset:

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
# use the inline backend to generate the plots within the browser
%matplotlib inline 
df = pd.read_excel('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',
                       sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skipfooter=2
                      )
df.head()

Con l’ultima funzione di assicuriamo di aver correttamente importato il dataset!

Vediamo adesso il primo Data Visualization Tools in Ptyhon

Area Plot

Area Plot sono usati comunemente per rappresentare totali cumulativi usando numeri o percentuali nel tempo.

Si basano sui più semplici Line Plot, non riportati nell’articolo a facilmente consultabili dal notebook allegato in fondo.

Inoltre, ti consiglio di fare riferimento sempre al notebook per la parte pratica, poiché ho intenzionalmente saltato alcuni passaggi per ridurre all’osso il contenuto del post, concentrandoci unicamente sugli aspetti “teorici”.

La prima cosa che devi sapere è che gli Area Plot sono stacked per impostazione predefinita. Per produrre un’area plot tutte le features devono essere o positive o negative, con i valori NaN automaticamente portati a 0.

Per produrre un plot unstacked possiamo passare l’attributo stacked=false.

df_top5.index = df_top5.index.map(int) # let's change the index values of df_top5 to type integer for plotting
df_top5.plot(kind='area', 
             stacked=False,
             alpha=0.25, #deffautl value to .5
             figsize=(20, 10), # pass a tuple (x, y) size
             )

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')

plt.show()

Histograms

Un istogramma è particolarmente utile nel rappresentare la densità frequenza di una distribuzione statistica per una variabile numerica.

L’asse x è banalmente diviso in segmenti (bins) e ciascun datapoint è associato a un bin; quindi viene calcolato il totale di datapoint per ciascun bin e si determina in questo modo l’altezza della colonna: è la frequenza.

L’ampiezza dei bin è determinata automaticamente ma spesso è necessario correggerne il valore per una migliore rappresentazione.

# view 1999 data
df[1999].plot(kind='hist', figsize=(8, 5))

plt.title('Histogram of Immigration from 195 Countries in 2013') # add a title to the histogram
plt.ylabel('Number of Countries') # add y-label
plt.xlabel('Number of Immigrants') # add x-label

plt.show()
Per una migliore visualizzazione si potrebbe standardizzare la feature

Bar Charts

Un grafico a barre consente la rappresentazione di dati numerici e categoriali attraverso una serie di colonne la cui lunghezza esprime la magnitudine della feature.

df_iceland.plot(kind='bar', figsize=(10, 6))

plt.xlabel('Year') # add to x-label to the plot
plt.ylabel('Number of immigrants') # add y-label to the plot
plt.title('Icelandic immigrants to Canada from 1980 to 2013') # add title to the plot

plt.show()

Qui, il link al file.

Buona sperimentazione!

Un caldo abbraccio, Andrea

Written by Andrea Provino - Novembre 7, 2019
Tags | data science, data scientist, dataset, tutorial

You Might Also Like

eep-learning-machine-learning-learning-rate-how-to-set-learning-rate-guida-italiano

How to set Learning Rate Deep Learning Neural Networks

Marzo 5, 2020
business-understanding

Business Understanding e Analytic Approach | Data Science Methodology

Settembre 16, 2019
machine-learning-vs-deep-learning-spiegazione-italiano-blog-intelligenza-artificiale

Machine Learning vs Deep Learning

Settembre 24, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino