Statistica

La statistica è una branca della matematica applicata che si occupa della raccolta, organizzazione, analisi, interpretazione e presentazione dei dati. Le statistiche descrittive riassumono i dati. Le statistiche inferenziali fanno previsioni. La statistica aiuta nello studio di molti altri campi, come scienza, medicina, economia, psicologia, politica e marketing. Qualcuno che lavora nella statistica è chiamato statistico. Oltre ad essere il nome di un campo di studio, la parola "statistica" si riferisce anche ai numeri che sono usati per descrivere dati o relazioni.

Storia

Le prime statistiche conosciute sono i dati dei censimenti. I babilonesi fecero un censimento intorno al 3500 a.C., gli egiziani intorno al 2500 a.C. e i cinesi antichi intorno al 1000 a.C.

A partire dal XVI secolo matematici come Gerolamo Cardano svilupparono la teoria della probabilità, che fece della statistica una scienza. Da allora, le persone hanno raccolto e studiato statistiche su molte cose. Alberi, stelle marine, stelle, rocce, parole, quasi tutto ciò che può essere contato è stato oggetto di statistica.

Raccolta dei dati

Prima di poter descrivere il mondo con la statistica, dobbiamo raccogliere dati. I dati che raccogliamo in statistica sono chiamati misurazioni. Dopo aver raccolto i dati, usiamo uno o più numeri per descrivere ogni osservazione o misurazione. Per esempio, supponiamo di voler scoprire quanto è popolare un certo programma televisivo. Possiamo scegliere un gruppo di persone (chiamato campione) dalla popolazione totale di spettatori. Poi chiediamo a ogni spettatore del campione quanto spesso guarda il programma. Il campione è un dato che si può vedere, mentre la popolazione è un dato che non si può vedere (dato che non è stato chiesto a tutti gli spettatori della popolazione). Per un altro esempio, se vogliamo sapere se un certo farmaco può aiutare ad abbassare la pressione sanguigna, potremmo dare il farmaco alle persone per un certo tempo e misurare la loro pressione sanguigna prima e dopo.

Statistica descrittiva e inferenziale

I numeri che descrivono i dati che si possono vedere sono chiamati statistiche descrittive. I numeri che fanno previsioni sui dati che non si possono vedere sono chiamati statistiche inferenziali.

La statistica descrittiva comporta l'uso di numeri per descrivere le caratteristiche dei dati. Per esempio, l'altezza media delle donne negli Stati Uniti è una statistica descrittiva che descrive una caratteristica (altezza media) di una popolazione (donne negli Stati Uniti).

Una volta che i risultati sono stati riassunti e descritti, possono essere utilizzati per la previsione. Questo si chiama statistica inferenziale. Per esempio, la dimensione di un animale dipende da molti fattori. Alcuni di questi fattori sono controllati dall'ambiente, ma altri sono ereditati. Un biologo potrebbe quindi fare un modello che dice che c'è un'alta probabilità che la prole sarà di piccole dimensioni se i genitori erano di piccole dimensioni. Questo modello permette probabilmente di prevedere le dimensioni in modo migliore che indovinando a caso. Testare se un certo farmaco può essere usato per curare una certa condizione o malattia è di solito fatto confrontando i risultati delle persone a cui viene dato il farmaco con quelli delle persone a cui viene dato un placebo.

Metodi

Il più delle volte raccogliamo dati statistici facendo sondaggi o esperimenti. Per esempio, un sondaggio d'opinione è un tipo di indagine. Scegliamo un piccolo numero di persone e facciamo loro delle domande. Poi usiamo le loro risposte come dati.

La scelta di quali individui prendere per un sondaggio o una raccolta di dati è importante, perché influenza direttamente le statistiche. Quando la statistica è fatta, non è più possibile determinare quali individui vengono presi. Supponiamo di voler misurare la qualità dell'acqua di un grande lago. Se prendiamo dei campioni vicino allo scarico dei rifiuti, otterremo risultati diversi da quelli che otterremmo se i campioni fossero presi in un punto lontano, difficile da raggiungere, del lago.

Ci sono due tipi di problemi che si trovano comunemente quando si prendono i campioni:

  1. Se ci sono molti campioni, i campioni saranno probabilmente molto vicini a ciò che sono nella popolazione reale. Se ci sono pochi campioni, invece, potrebbero essere molto diversi da quelli che sono nella popolazione reale. Questo errore è chiamato errore casuale (vedi Errori e residui in statistica).
  2. Gli individui per i campioni devono essere scelti con attenzione, di solito saranno scelti a caso. Se questo non è il caso, i campioni potrebbero essere molto diversi da quelli che sono realmente nella popolazione totale. Questo è vero anche se viene preso un gran numero di campioni. Questo tipo di errore è chiamato bias.

Errori

Possiamo ridurre gli errori casuali prendendo un campione più grande, e possiamo evitare alcuni bias scegliendo a caso. Tuttavia, a volte è difficile prendere grandi campioni casuali. E la distorsione può accadere se diverse persone non vengono interrogate, o si rifiutano di rispondere alle nostre domande, o se sanno che stanno ricevendo un trattamento falso. Questi problemi possono essere difficili da risolvere. Vedi anche errore standard.

Statistiche descrittive

Trovare il centro dei dati

La parte centrale dei dati è chiamata media. La media ci parla di un individuo tipico della popolazione. Ci sono tre tipi di media che vengono spesso usati: la media, la mediana e la modalità.

Gli esempi che seguono utilizzano questi dati di esempio:

 Nome | A    B    C    D    E    F    G    H    I    J ---------------------------------------------   punteggio| 23 26 49 57 64 66 78 82 92

Media

La formula per la media è

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={frac {1}{N}}}sum _{i=1}^{N}x_{i}={frac {x_{1}+x_{2}+{cdots +x_{N}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Dove x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} sono i dati e N {displaystyle N}{\displaystyle N} è la dimensione della popolazione. (vedi Notazione Sigma).

Questo significa che si sommano tutti i valori e poi si divide per il numero di valori.

Nel nostro esempio x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {displaystyle {\bar {x}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Il problema con la media è che non dice nulla su come sono distribuiti i valori. Valori che sono molto grandi o molto piccoli cambiano molto la media. In statistica, questi valori estremi potrebbero essere errori di misurazione, ma a volte la popolazione contiene davvero questi valori. Per esempio, se in una stanza ci sono 10 persone che guadagnano 10 dollari al giorno e 1 che guadagna 1.000.000 di dollari al giorno. La media dei dati è 90.918 dollari al giorno. Anche se è l'importo medio, la media in questo caso non è l'importo che ogni singola persona guadagna, quindi è inutile per alcuni scopi.

Questa è la "media aritmetica". Altri tipi sono utili per alcuni scopi.

Mediano

La mediana è l'elemento centrale dei dati. Per trovare la mediana ordiniamo i dati dal numero più piccolo al numero più grande e poi scegliamo il numero in mezzo. Se c'è un numero pari di dati, non ci sarà un numero proprio nel mezzo, quindi scegliamo i due mediani e calcoliamo la loro media. Nel nostro esempio ci sono 10 dati, i due centrali sono "57" e "64", quindi la mediana è (57+64)/2 = 60,5. Un altro esempio, come quello del reddito presentato per la media, considera una stanza con 10 persone che hanno redditi di 10, 20, 20, 40, 50, 60, 90, 90, 100 e 1.000.000 di dollari, la mediana è 55 dollari perché 55 è la media dei due numeri centrali, 50 e 60 dollari. Se si ignora il valore estremo di $1.000.000, la media è di $53. In questo caso, la mediana è vicina al valore ottenuto quando si butta via il valore estremo. La mediana risolve il problema dei valori estremi come descritto nella definizione di media sopra.

Modo

Il modo è l'elemento più frequente dei dati. Per esempio, la lettera più comune in inglese è la lettera "e". Diremo che la "e" è la modalità della distribuzione delle lettere.

Per esempio, se in una stanza ci sono 10 persone con redditi di $10, $20, $20, $40, $50, $60, $90, $90, $90, $100, e $1.000.000, la modalità è $90 perché $90 ricorre tre volte e tutti gli altri valori ricorrono meno di tre volte.

Ci può essere più di una modalità. Per esempio, se in una stanza ci sono 10 persone con redditi di 10$, 20$, 20$, 20$, 50$, 60$, 90$, 90$, 100$ e 1.000.000$, i modi sono 20$ e 90$. Questo è bi-modale, o ha due modalità. La bimodalità è molto comune e spesso indica che i dati sono la combinazione di due gruppi diversi. Per esempio, l'altezza media di tutti gli adulti negli Stati Uniti ha una distribuzione bimodale. Questo perché i maschi e le femmine hanno altezze medie separate di 1,763 m (5 ft 9 + 1⁄2 in) per gli uomini e 1,622 m (5 ft 4 in) per le donne. Questi picchi sono evidenti quando entrambi i gruppi sono combinati.

Il modo è l'unica forma di media che può essere utilizzata per i dati che non possono essere messi in ordine.

Trovare la diffusione dei dati

Un'altra cosa che possiamo dire di un insieme di dati è quanto è diffuso. Un modo comune per descrivere la diffusione di un insieme di dati è la deviazione standard. Se la deviazione standard di una serie di dati è piccola, allora la maggior parte dei dati è molto vicina alla media. Se invece la deviazione standard è grande, allora molti dati sono molto diversi dalla media.

Se i dati seguono il modello comune chiamato distribuzione normale, allora è molto utile conoscere la deviazione standard. Se i dati seguono questo modello (diremmo che i dati sono normalmente distribuiti), circa 68 di ogni 100 pezzi di dati saranno fuori dalla media di meno della deviazione standard. Non solo, ma circa 95 di ogni 100 misurazioni saranno fuori dalla media di meno di due volte la deviazione standard, e circa 997 su 1000 saranno più vicini alla media di tre deviazioni standard.

Altre statistiche descrittive

Possiamo anche usare la statistica per scoprire che una certa percentuale, percentile, numero o frazione di persone o cose in un gruppo fanno qualcosa o rientrano in una certa categoria.

Per esempio, gli scienziati sociali hanno usato le statistiche per scoprire che il 49% delle persone nel mondo sono maschi.

Software correlati

Per supportare gli statistici, sono stati sviluppati molti software statistici:

  • Istituto SAS
  • SPSS (prodotto da IBM)

Domande e risposte

D: Che cos'è la statistica?


R: La statistica è una branca della matematica applicata che si occupa di raccogliere, organizzare, analizzare, leggere e presentare i dati.

D: Quali sono i due tipi di statistiche?


R: I due tipi di statistiche sono descrittive e inferenziali. Le statistiche descrittive fanno una sintesi dei dati, mentre le statistiche inferenziali fanno delle previsioni.

D: In che modo la statistica è utile in altri campi?


R: La statistica aiuta nello studio di molti altri campi, come la scienza, la medicina, l'economia, la psicologia, la politica e il marketing.

D: Chi lavora nel campo della statistica?


R: Chi lavora nel campo della statistica è chiamato statistico.

D: Che cosa significa la parola "statistica"?


R: Oltre ad essere il nome di un campo di studio, la parola "statistica" può anche significare numeri che vengono utilizzati per descrivere dati o relazioni.

D: Quali attività svolgono gli statistici?


R: Gli statistici svolgono attività come la raccolta, l'organizzazione, l'analisi, la lettura e la presentazione dei dati.

AlegsaOnline.com - 2020 / 2023 - License CC3