• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, Guide

R for Data Science | Comandi utili RStudio

R for Data Science | Comandi utili RStudio

In questo post ho raccolto una serie di comandi da usare in RStudio per effettuare la manipolazione dei dati.

Impostare la working directory

Prima di ogni progetto occorre settare la working directory:

setwd("C:/Users/...")

Leggere dataset csv

Per caricare in un oggetto un intero dataset si usa:

test = fread("Test.csv")
train = fread("Train.csv")
library(data.table)
---------------------------
test <- read.csv("Test.csv")
train <- read.csv("Train.csv")

Unire due dataset

Se il dataset (o dataframe) di lavoro viene fornito diviso in ‘train’ e ‘test’ è buona norma unirli così da evitare di replicare le modifiche su entrambi.

dataset <- rbind(train,test)

Attenzione | Numero di features
Affinché l’operazione di combinazione avvenga senza errori, è necessario che i due dataset abbiano lo stesso numero di features.

Aggiungere nuova feature

Per aggiungere una feature, e impostare un valore:

dt[,New_feature := NA]

L’operatore := appartiene alla libreria datatable. ‘dt’ deve essere una data table, per conferma usare:

is.data.table(dt)
(and) read.table(dt)

Esplorazione preliminare

Questa serie di comandi consente di ottenere una visione d’insieme del dataset.

QUesto è il comando per individuare il numero di features:

dim(train)

Per visualizzare il loro nome usiamo invece:

names(train)

Infine, per visualizzare le struttura del dataset, (utile per capire qual è la tipologia della variabile):

str(train)

Ridurre ridondanza variazione variabile

Può capitare che lo una stessa features di un sample compaia nel dataset con diversi nomi. Per risolvere la ridondanza si usa:

dt$feature[dt$feature == "old_name"] = "new_name"

Sostiture valori con media

L’Exploratory Data Analysis potrebbe portare alla luce incongruenze tra il dataset e la realtà effettiva. In questo caso sostiture i valori aberranti con la media calcolata sulla variazione della feature è una pratica ricorrente.

zero_index = which(dt$column == 0) 
for(i in zero_index){
item = dt$column[i]
dt$column[i] = mean(dt$column[dt$column == item], na.rm = T)
}

Il codice in esempio sostituisce tutti i valori 0 con la media della feature ‘column’

Written by Andrea Provino - Gennaio 9, 2019
Tags | data science, data scientist, guida, machine learning

You Might Also Like

Deep neural network Verification

Gennaio 15, 2020
trusting-ai-fairness-artificial-intelligence-ibm-ai-360-ai-explainability-360-open-source-toolkit-data-science-machine-learning

Trusting AI Fairness

Gennaio 3, 2020
noise-accuracy-tradeoff-differential-privacy-randomized-response-plausible-deniability

Overfitting: spiegazione in italiano | Towards Machine Learning

Marzo 11, 2019

No Comment

Please Post Your Comments & Reviews
Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain

    Patricia Merkle Trie

    Maggio 30, 2023
  • Artistic representation of a tree Blockchain

    Tree Data Structure: cos’è un Merkle Tree

    Maggio 26, 2023
  • Cover image for Bitcoin UTXO explanation post Blockchain

    UTXO: come funziona il modello Unspent Transaction Outputs

    Maggio 23, 2023
  • Blockchain

    Cos’è Ethereum

    Maggio 15, 2023
  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino