• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, Guide

R for Data Science | Comandi utili RStudio

R for Data Science | Comandi utili RStudio

In questo post ho raccolto una serie di comandi da usare in RStudio per effettuare la manipolazione dei dati.

Impostare la working directory

Prima di ogni progetto occorre settare la working directory:

setwd("C:/Users/...")

Leggere dataset csv

Per caricare in un oggetto un intero dataset si usa:

test = fread("Test.csv")
train = fread("Train.csv")
library(data.table)
---------------------------
test <- read.csv("Test.csv")
train <- read.csv("Train.csv")

Unire due dataset

Se il dataset (o dataframe) di lavoro viene fornito diviso in ‘train’ e ‘test’ è buona norma unirli così da evitare di replicare le modifiche su entrambi.

dataset <- rbind(train,test)

Attenzione | Numero di features
Affinché l’operazione di combinazione avvenga senza errori, è necessario che i due dataset abbiano lo stesso numero di features.

Aggiungere nuova feature

Per aggiungere una feature, e impostare un valore:

dt[,New_feature := NA]

L’operatore := appartiene alla libreria datatable. ‘dt’ deve essere una data table, per conferma usare:

is.data.table(dt)
(and) read.table(dt)

Esplorazione preliminare

Questa serie di comandi consente di ottenere una visione d’insieme del dataset.

QUesto è il comando per individuare il numero di features:

dim(train)

Per visualizzare il loro nome usiamo invece:

names(train)

Infine, per visualizzare le struttura del dataset, (utile per capire qual è la tipologia della variabile):

str(train)

Ridurre ridondanza variazione variabile

Può capitare che lo una stessa features di un sample compaia nel dataset con diversi nomi. Per risolvere la ridondanza si usa:

dt$feature[dt$feature == "old_name"] = "new_name"

Sostiture valori con media

L’Exploratory Data Analysis potrebbe portare alla luce incongruenze tra il dataset e la realtà effettiva. In questo caso sostiture i valori aberranti con la media calcolata sulla variazione della feature è una pratica ricorrente.

zero_index = which(dt$column == 0) 
for(i in zero_index){
item = dt$column[i]
dt$column[i] = mean(dt$column[dt$column == item], na.rm = T)
}

Il codice in esempio sostituisce tutti i valori 0 con la media della feature ‘column’

Written by Andrea Provino - Gennaio 9, 2019
Tags | data science, data scientist, guida, machine learning

You Might Also Like

come-diventare-data-scientist-machine-leanring-data-science-italia-guida

Come diventare Data Scientist: errori da evitare

Ottobre 29, 2020

Project Planning Funnel | Machine Learning Portfolio Projects

Settembre 11, 2019
domino's-pizza-data-visualization-tools-python-machine-learning-data-science-tutorial-pie-charts-box-plots-scatter-plot

Domino’s Pizza & Machine Learning | Business Mindset

Settembre 3, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino