• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, Guide

R for Data Science | Comandi utili RStudio

R for Data Science | Comandi utili RStudio

In questo post ho raccolto una serie di comandi da usare in RStudio per effettuare la manipolazione dei dati.

Impostare la working directory

Prima di ogni progetto occorre settare la working directory:

setwd("C:/Users/...")

Leggere dataset csv

Per caricare in un oggetto un intero dataset si usa:

test = fread("Test.csv")
train = fread("Train.csv")
library(data.table)
---------------------------
test <- read.csv("Test.csv")
train <- read.csv("Train.csv")

Unire due dataset

Se il dataset (o dataframe) di lavoro viene fornito diviso in ‘train’ e ‘test’ è buona norma unirli così da evitare di replicare le modifiche su entrambi.

dataset <- rbind(train,test)

Attenzione | Numero di features
Affinché l’operazione di combinazione avvenga senza errori, è necessario che i due dataset abbiano lo stesso numero di features.

Aggiungere nuova feature

Per aggiungere una feature, e impostare un valore:

dt[,New_feature := NA]

L’operatore := appartiene alla libreria datatable. ‘dt’ deve essere una data table, per conferma usare:

is.data.table(dt)
(and) read.table(dt)

Esplorazione preliminare

Questa serie di comandi consente di ottenere una visione d’insieme del dataset.

QUesto è il comando per individuare il numero di features:

dim(train)

Per visualizzare il loro nome usiamo invece:

names(train)

Infine, per visualizzare le struttura del dataset, (utile per capire qual è la tipologia della variabile):

str(train)

Ridurre ridondanza variazione variabile

Può capitare che lo una stessa features di un sample compaia nel dataset con diversi nomi. Per risolvere la ridondanza si usa:

dt$feature[dt$feature == "old_name"] = "new_name"

Sostiture valori con media

L’Exploratory Data Analysis potrebbe portare alla luce incongruenze tra il dataset e la realtà effettiva. In questo caso sostiture i valori aberranti con la media calcolata sulla variazione della feature è una pratica ricorrente.

zero_index = which(dt$column == 0) 
for(i in zero_index){
item = dt$column[i]
dt$column[i] = mean(dt$column[dt$column == item], na.rm = T)
}

Il codice in esempio sostituisce tutti i valori 0 con la media della feature ‘column’

Written by Andrea Provino - Gennaio 9, 2019
Tags | data science, data scientist, guida, machine learning

You Might Also Like

matrix-factorization-collaborative-filtering-recommender-system-machine-learning-example-italiano-data-science-machine-learning-blog

Matrix Factorization per Sistemi di Raccomandazione

Marzo 25, 2020
reinforcement-learning-deep-learning-data-science-machine-learning-temporal-difference-learning-q-learning-spiegazione-italiano

Temporal Difference Learning and Q-Learning

Agosto 13, 2020
dialogflow-tutorial-chatbot-ai-guida-italiano-mailchimp-api-add-user-mail-list

Dialogflow Tutorial: Chatbot & Mailchimp Api

Novembre 9, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino