Capitolo 2. Le distribuzioni
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Questo capitolo introduce una delle idee fondamentali della statistica, la distribuzione. Inizieremo con le tabelle di frequenza, che rappresentano i valori di un insieme di dati e il numero di volte in cui ciascuno di essi compare, e le useremo per esplorare i dati dell'Indagine Nazionale sulla Crescita delle Famiglie (NSFG). Cercheremo anche valori estremi o errati, chiamati outlier, e valuteremo come gestirli.
Tabelle di frequenza
Un modo per descrivere una variabile è una tabella di frequenza, che contiene i valori della variabile e le loro frequenze, cioèil numero di volte in cui ogni valore compare. Questa descrizione è chiamata distribuzione della variabile.
Per rappresentare le distribuzioni, utilizzeremo una libreria chiamata empiricaldist. In questo contesto, "empirico" significa che le distribuzioni sono basate su dati piuttosto che su modelli matematici. empiricaldist fornisce una classe chiamata FreqTab che possiamo utilizzare per calcolare e tracciare tabelle di frequenza. Possiamo importarla in questo modo:
fromempiricaldistimportFreqTab
Per mostrare come funziona, inizieremo con un piccolo elenco di valori:
t=[1.0,2.0,2.0,3.0,5.0]
FreqTab offre un metodo chiamato from_seq che prende una sequenza e crea un oggetto FreqTab:
ftab=FreqTab.from_seq(t)ftab
| freqs | |
|---|---|
| 1.0 | 1 |
| 2.0 |
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access