Scaletta

  • Presentazioni - 5 minuti
  • Panoramica sulla Data Science - 50 minuti
  • Panoramica su R ed RStudio - 20 minuti
  • Pausa - 10 minuti
  • Parte pratica:
    • Esempi - 30 minuti
    • Esercizi - 30 minuti

Presentazioni

I dati

“Un dato è una descrizione elementare codificata di un’informazione, un’entità, di un fenomeno, di una transazione, di un avvenimento o di altro.”
— Wikipedia

\(~\)

“I dati sono informazione fattuale (come misuarazioni o statistiche), usuate come base per ragionamenti, discussioni e calcoli”
— Joe Martin

Dati digitali

piher.net

miele.it

bresser.de

instagram.it

wired.it

amazon.it

Dati: strutturati e non strutturati

Dati strutturati

Dati non strutturati

Data Science

“La data science é un avvincente disciplina che ti permette di trasformare dati grezzi in, comprensione, intuizione e conoscenza.”
— Hadley Wickham

\(~\) \(~\)

“Invece di usare i dati al solo fine di essere più efficienti, li possiamo usare per diventare più umani e interconnetterci con noi stessi e gli altri ad un livello più profondo.”
— Giorgia Lupi

Lo Scienziato dei Dati

Il workflow della Data Science

Il ciclo di vita della Data Science va dall’importazione dei dati fino alla comunicazione dei risultati

Import

  • Inzialmente si importano i dati in R
  • Tipicamente si caricano i dati presenti in un file, un database o delle web API e li si trasforma in un data frame di R

Esempio di file CSV (Comma-separated values)

City, Country, Population, Lat, Lng, Capital
Udine, Italy, 99341, 46.0693000, 13.2371500, FALSE
Trento, Italy, 117417, 46.0678700, 11.1210800, FALSE
Ljubljana,Slovenia, 279631, 46.0510800, 14.5051300, TRUE
Lugano, Switzerland, 63932, 46.0100800, 8.9600400, FALSE

Tidy

  • Una volta importati i dati è buona norma pulirli e riordinarli
  • Pulire i dati significa immagazzinarli in una forma consistente alla semantiche del dataset e al modo in cui questo é immagazzinato
  • Un dataframe pulito avrà:
    • una variabile per ogni colonna
    • un’osservazione per ogni riga
  • Pulire ed organizzare i dati è importante. Lavorare su una struttura consistente permette di focalizzarsi sulle proprie domande o ipotesi
    • evitando di sprecare tempo ed energie a riorganizzare continuamente i propri dati

Transform

  • Dati puliti e organizzati possono essere trasformati (effettuando delle query)
  • Le trasformazioni includono:
    • Concentrarsi sulle osservazioni di interesse (ad es., tutte le persone di una città; i dati raccolti in un mese specifico in un form)
    • Creare nuove variabili in funzione di variabili esistenti (ad es., calcolare la velocità da distanze e tempi)
    • Utilizzare svariate funzioni statistiche (ad es.,conteggi, somme, medie, mediane)
  • Assieme tidying e transforming vengono anche detti wrangling, dato che spesso si deve “bisticciare” con i dati per trasformali in forma natulare

Visualize e model

  • Completate le fasi precedenti, ci si può concentrare su due forme di generazione delle conoscenza:
    • Visualizzazione
    • Modellizzazione
  • Questi strumenti hanno ruoli complementari, con relativi punti di forza e di debolezza
  • In ogni analisi reale si itera tra le due più e più volte

Visualize

  • La visualizzazione è un attività umana fondamentale

  • Una buona visualizzazione mostra cose insaspettate, o solleva nuove domande relative ai dati

  • Una buona visualizzazione può anche suggerire che ci si sta ponendo le domande sbagliate, o che si devono usare dati diversi

  • Le visualizzazioni non scalano particolarmente bene a causa della limitata capacità umana nell’interpretarle

Visualize

Model

  • I modelli sono degli strumenti complementari alla visualizzazione
  • Si pongono l’obbiettivo di fornire un riassunto dei dati a dimensionalità ridotta
  • Idealmente, un modello cattura un segnale vero (ad es., un pattern generato da un fenomeno d’interesse) e ignora il rumore (ad es., una variazione casuale al quale non siamo interessati)
  • I modelli sono fondamentalmente modelli matematici o computazionali, pertanto scalano molto bene
  • Tuttavia, “la mappa non é il territorio”: ogni modello fa delle assunzioni; questo fa la differenza tra realtà e modellizzazione della realtà

Communicate

  • L’ultima fase della Data Science é la comunicazione
  • Questa é una parte cruciale di ogni progetto di analisi
  • Non importa quanto:
    • buono sia il modello;
    • chiare siano le visualizzazioni;
    • agevolmente questi consentono di comprendere i dati;
    • se poi non li si comunica efficacemente ad altri e al se stessa/o del futuro

Generazione e conferma di ipotesi

  • In un progetto di Data Science si effettuano due attività fondamentali:

    • generazione di ipotesi
    • conferma di ipotesi

Un’ipotesi generata intuitivamente dev’essere confermata (validata) attraverso appropriati strumenti statistici

I big data

“I dati sono il nuovo petrolio”
— Clive Humby, 2006

i-com.it

media.bizj.us

R

R è un ambiente software libero che permette di effettuare calcoli statistici e produzione di visualizzazioni grafiche. R assiste lo scienziato dei dati in tutte le fasi del workflow. I suoi punti di forza sono:

  1. Capacità: offre un vasto insieme di funzionalità
  2. Comunità: vanta una comunità di utenti molto numerosa
  3. Prestazioni: è piuttosto veloce (se eseguito in memoria centrale)

RStudio

RStudio è un ambiente di sviluppo integrato (IDE) per R che include:

  • un terminale
  • un editor di testo con colorazione della sintassi che supporta la diretta esecuzione del codice
  • strumenti per la visualizzazione dei grafici
  • uno storico
  • un debugger
  • supporto alla gestione dello spazio di lavoro

RStudio

Markdown

R and RMarkdown

Kaggle