• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

Data Visualization Tools Python: Area Plots, Histograms, Bar Chart

Data Visualization Tools Python: Area Plots, Histograms, Bar Chart

In questo esploriamo tre Data Visualization Tools in Python: Area Plots, Histograms e Bar Charts.

Data Visualization

Per Data Visualization si intende quella tecnica che consente di esplorare e rappresentare i dati sotto forma di grafici e rapporti, con l’intento di svilupparne una conoscenza globale.

È buona prassi procedere a visualizzare i dati solo dopo aver diviso il dataset in training e testing. Il nostro cervello è infatti un sofisticato sistema d’individuazione di pattern: così facendo eviteremo di creare pericolosi bias sui dati.

La parte pratica farà uso di un comune dataset canadese che fornisce indicazioni sull’immigrazione dal 1980 al 2013.

Trattandosi di un file xlsx, useremo un metodo di pandas.

Avviamo un jupyter notebook in locale, o su Google Colab, e prepariamoci all’esplorazione importando il dataset:

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
# use the inline backend to generate the plots within the browser
%matplotlib inline 
df = pd.read_excel('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',
                       sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skipfooter=2
                      )
df.head()

Con l’ultima funzione di assicuriamo di aver correttamente importato il dataset!

Vediamo adesso il primo Data Visualization Tools in Ptyhon

Area Plot

Area Plot sono usati comunemente per rappresentare totali cumulativi usando numeri o percentuali nel tempo.

Si basano sui più semplici Line Plot, non riportati nell’articolo a facilmente consultabili dal notebook allegato in fondo.

Inoltre, ti consiglio di fare riferimento sempre al notebook per la parte pratica, poiché ho intenzionalmente saltato alcuni passaggi per ridurre all’osso il contenuto del post, concentrandoci unicamente sugli aspetti “teorici”.

La prima cosa che devi sapere è che gli Area Plot sono stacked per impostazione predefinita. Per produrre un’area plot tutte le features devono essere o positive o negative, con i valori NaN automaticamente portati a 0.

Per produrre un plot unstacked possiamo passare l’attributo stacked=false.

df_top5.index = df_top5.index.map(int) # let's change the index values of df_top5 to type integer for plotting
df_top5.plot(kind='area', 
             stacked=False,
             alpha=0.25, #deffautl value to .5
             figsize=(20, 10), # pass a tuple (x, y) size
             )

plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')

plt.show()

Histograms

Un istogramma è particolarmente utile nel rappresentare la densità frequenza di una distribuzione statistica per una variabile numerica.

L’asse x è banalmente diviso in segmenti (bins) e ciascun datapoint è associato a un bin; quindi viene calcolato il totale di datapoint per ciascun bin e si determina in questo modo l’altezza della colonna: è la frequenza.

L’ampiezza dei bin è determinata automaticamente ma spesso è necessario correggerne il valore per una migliore rappresentazione.

# view 1999 data
df[1999].plot(kind='hist', figsize=(8, 5))

plt.title('Histogram of Immigration from 195 Countries in 2013') # add a title to the histogram
plt.ylabel('Number of Countries') # add y-label
plt.xlabel('Number of Immigrants') # add x-label

plt.show()
Per una migliore visualizzazione si potrebbe standardizzare la feature

Bar Charts

Un grafico a barre consente la rappresentazione di dati numerici e categoriali attraverso una serie di colonne la cui lunghezza esprime la magnitudine della feature.

df_iceland.plot(kind='bar', figsize=(10, 6))

plt.xlabel('Year') # add to x-label to the plot
plt.ylabel('Number of immigrants') # add y-label to the plot
plt.title('Icelandic immigrants to Canada from 1980 to 2013') # add title to the plot

plt.show()

Qui, il link al file.

Buona sperimentazione!

Un caldo abbraccio, Andrea

Written by Andrea Provino - Novembre 7, 2019
Tags | data science, data scientist, dataset, tutorial

You Might Also Like

apheris-ai-machine-learning-deep-leaniing-data-science-deep-learning-differential-privacy-distributed-analysis-federated-learning

Apheris AI: analisi su dati distribuiti e tutela della privacy

Maggio 23, 2020
eep-learning-machine-learning-learning-rate-how-to-set-learning-rate-guida-italiano

How to set Learning Rate Deep Learning Neural Networks

Marzo 5, 2020

Multioutput, Multiclass e Multilabel Classification

Ottobre 2, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino