- Presentazioni - 5 minuti
- Panoramica sulla Data Science - 50 minuti
- Panoramica su R ed RStudio - 20 minuti
- Pausa - 10 minuti
- Parte pratica:
- Esempi - 30 minuti
- Esercizi - 30 minuti
Eddy Maddalena
eddy.maddalena@uniud.it
http://eddymaddalena.net
Kevin Roitero
kevin.roitero@uniud.it
https://kevinroitero.com/
“Un dato è una descrizione elementare codificata di un’informazione, un’entità , di un fenomeno, di una transazione, di un avvenimento o di altro.”
\(~\)
“I dati sono informazione fattuale (come misuarazioni o statistiche), usuate come base per ragionamenti, discussioni e calcoli”
piher.net
miele.it
bresser.de
instagram.it
wired.it
amazon.it
Dati strutturati
Dati non strutturati
“La data science é un avvincente disciplina che ti permette di trasformare dati grezzi in, comprensione, intuizione e conoscenza.”
\(~\) \(~\)
“Invece di usare i dati al solo fine di essere più efficienti, li possiamo usare per diventare più umani e interconnetterci con noi stessi e gli altri ad un livello più profondo.”
Il ciclo di vita della Data Science va dall’importazione dei dati fino alla comunicazione dei risultati
Esempio di file CSV (Comma-separated values)
City, Country, Population, Lat, Lng, Capital Udine, Italy, 99341, 46.0693000, 13.2371500, FALSE Trento, Italy, 117417, 46.0678700, 11.1210800, FALSE Ljubljana,Slovenia, 279631, 46.0510800, 14.5051300, TRUE Lugano, Switzerland, 63932, 46.0100800, 8.9600400, FALSE
La visualizzazione è un attività umana fondamentale
Una buona visualizzazione mostra cose insaspettate, o solleva nuove domande relative ai dati
Una buona visualizzazione può anche suggerire che ci si sta ponendo le domande sbagliate, o che si devono usare dati diversi
Le visualizzazioni non scalano particolarmente bene a causa della limitata capacità umana nell’interpretarle
In un progetto di Data Science si effettuano due attività fondamentali:
Un’ipotesi generata intuitivamente dev’essere confermata (validata) attraverso appropriati strumenti statistici
“I dati sono il nuovo petrolio”
i-com.it
media.bizj.us
R è un ambiente software libero che permette di effettuare calcoli statistici e produzione di visualizzazioni grafiche. R assiste lo scienziato dei dati in tutte le fasi del workflow. I suoi punti di forza sono:
RStudio è un ambiente di sviluppo integrato (IDE) per R che include:
Interfaccia di RStudio ( https://www.rstudio.com/ )