Gli ultimi post di "dataset"

Test chi quadrato di Pearson | Chi-Square Test for Machine Learning

Cos’è il Test chi quadrato? Il Test chi quadrato è un test di verifica d’ipotesi, che usa la distribuzione chi quadrato per decidere se rifiutare o meno un ipotesi nulla (o null hypothesis), cioè un’affermazione sulla distribuzione di probabilità di una o più variabili casuali (o variabile aleatoria). Benissimo! Ora che è tutto chiaro puoi […]

3 novembre•Andrea Provino

test-chi-square-for-machine-learning-test-chi-quadrato-di-pearson-test-chi-quadro-pearson-data-science

GDPR Definition of Data Processing (Trattamento dati personali)

Qual è la definizione del GDPR per l’elaborazione dati (Data Processing) ? Comprenderla ci aiuta a condurre analisi evitando costose sanzioni amministrative sul trattamento dei dati personali: ecco la GDPR Definition of Data Processing. Nel precedente blogpost abbiamo esaminato la definizione di Personal Data. La nostra serie continua oggi con il data processing, ovvero il trattamento […]

27 ottobre•Andrea Provino

data-processing-data-protection-regulation-gdpr-trattamento-dati-personali-guida-italia-gdpr

Synthetic Data: Machine Learning for Privacy Preserving

Con l’espressione Synthetic Data soliamo riferirci ai dati sintetici generati da una sistema, una macchina. Una definizione semplice, ma che poco lascia capire di come un simile argomento possa inserirsi in un contesto ben più ampio. In quel contesto cioè in cui la sfera del machine learning, che tanto apprezziamo, si interseca con la tutela […]

24 luglio•Andrea Provino

syntethic-data-machine-learning-deep-learning-data-science-privacy-preserving-machine-learning

Dataset Size: Scaling Up vs Scaling Out

Gestendo dataset di grandi dimensioni abbiamo due alternative da valutare: Scaling up e Scaling out. Il nostro obiettivo è fare chiarezza a riguardo. Prima però, un aggiornamento. Nell’ultimo periodo, complice un’annosa pandemia, il nostro buon spirito marinaresco è andato scemando. La bussola pare smarrita e la fioca luce delle stelle da cui un tempo traevamo […]

25 giugno•Andrea Provino

scale-up-scale-out-scaling-up-scaling-down-handle-big-dataset-data-science

Non-IID ness: Non-independently and identically distributed data

La Non-IID ness è un’espressione usata in modo ampio per indicare il complesso di metodologie, algoritmi e approcci per rappresentare, modellare e capire quelle tipologie di dati che definiamo non-independently and identically distributed data. Sarò sincero con te: la traduzione italiana qui crea un pasticcio. Quello che all’apparenza è un post noioso, può rivelarsi di […]

7 giugno•Andrea Provino

non-iid-distribution-spiegazione-italiano-non-indipendentemente-distributi

Privacy Preserving Data Mining (PPDM)

Con l’espressione Privacy Preserving Data Mining intendiamo quell’insieme di attività, e tecniche, con le quali estrarre informazioni garantendo la privacy dei record coinvolti. Molto semplicemente, questo articolo rappresenta il filo conduttore a legame degli argomenti trattati nei precedenti mesi. Le tecniche che abbiamo sin’ora esplorato possono infatti essere inserite in un contesto più ampio che […]

29 maggio•Andrea Provino

privacy-preserving-data-mining-differential-privacy-guida-machine-learning-italia

Privacy Preserving Tracing App: cosa significa davvero?

La privacy è un fattore cruciale da tenere a mente nello sviluppo di nuovi sistemi e applicazioni. In questi giorni di alta preoccupazione, conosciamo più tecnicamente gli approcci che possono, e devono, essere impiegati. A differenza di altri post che puoi trovare in rete, questo è altamente tecnico e denso di contenuto: non demoralizzarti se […]

24 aprile•Andrea Provino

privacy-preserving-tracking-app-immuni-italia-bending-spoons-guida-italia-machine-learning-data-science-blog

Time Series Data: serie storiche

Le serie temporali, o storiche (time-series data) sono sequenze di valori ordinati nel tempo e contrassegnati da un momento storico. Parecchi business producono dati di natura finanziaria e commerciale con un’impronta indelebile: l’esatto momento in cui sono generati. Capiamo perché è importante porre un occhio di riguardo a questa particolare natura dei dati. Time Series […]

20 febbraio•Andrea Provino

time-series-analysis-data-science-machine-learning-blog-model

Elastic Net e Early Stopping | ITA

Elastic Net è una versione regolarizzata della Linear Regression (Regressione Lineare), una via di mezzo tra Ridge Regression e Lasso Regression per caratteristiche. Il termine di regolarizzazione è infatti dato dal rapporto tra la L1 penalty e L2 penalty: Quando il valore è 0, Elastic Net è equivalente a Ridge Regression Quando il valore è […]

5 dicembre•Andrea Provino

elastic-net-early-stopping-gradient-descent-batch-gradient-descent-machine-learning-data-science-guida-italiano-blog-data-science

Folium: geospatial data python

Folium è una python data visualization library creata con l’intento di aiutarci nella visualizzazione di geospatial data, i dati geospaziali. Nei precedenti post abbiamo analizzato dei metodi di data visualziation base, semplici e avanzati. Capita sovente che all’interno del dataset siano presenti coordinate geografiche. Come possiamo rappresentarne il valore al meglio? Scopriamolo! Folium La libreria […]

12 novembre•Andrea Provino

folium-python-tutorial-geospatial-data-representation-data-analysis-tutorial-python-guide