L'errore standard è la deviazione standard della distribuzione di campionamento di una statistica. Il termine può anche essere usato per una stima (buona ipotesi) di quella deviazione standard presa da un campione dell'intero gruppo.

La media di una parte di un gruppo (chiamata campione) è il modo usuale per stimare la media di tutto il gruppo. Spesso è troppo difficile o costa troppo denaro misurare l'intero gruppo. Ma se si misura un altro campione, questo avrà una media che è un po' diversa da quella del primo campione. L'errore standard della media è un modo per sapere quanto la media del campione sia vicina alla media dell'intero gruppo. È un modo per sapere quanto si può essere sicuri della media del campione.

Nelle misurazioni reali, il vero valore della deviazione standard della media per l'intero gruppo di solito non è noto. Quindi il termine errore standard è spesso usato per indicare un'ipotesi vicina al numero vero per l'intero gruppo. Più misurazioni ci sono in un campione, più vicino sarà l'ipotesi al numero vero per l'intero gruppo.

Definizione formale

L'errore standard (SE, dall'inglese "standard error") della media è la deviazione standard della distribuzione di campionamento della media campionaria. Se la deviazione standard della popolazione è nota e si indica con σ, l'errore standard della media è:

SE = σ / √n

Poiché nella pratica σ è spesso sconosciuta, si usa la deviazione standard del campione s come stima:

SE ≈ s / √n

Calcolo per proporzioni e altri casi

  • Per una proporzione campionaria p (ad esempio percentuale di successi), l'errore standard è: SE = √[p(1 − p) / n].
  • Per altre statistiche (mediane, differenze di medie, regressione) esistono formule specifiche o metodi numerici (bootstrap) per stimare l'errore standard.

Interpretazione pratica

  • L'errore standard misura la precisione della stima: un SE piccolo indica che la media campionaria è probabilmente vicina alla media reale della popolazione.
  • Non è la stessa cosa della deviazione standard: la deviazione standard descrive la variabilità dei singoli dati, l'errore standard descrive la variabilità delle medie di campioni ripetuti.
  • Grazie al teorema del limite centrale, per campioni abbastanza grandi la distribuzione delle medie campionarie tende ad essere approssimativamente normale, anche se la popolazione non è normale. Questo permette di costruire intervalli di confidenza e di effettuare test statistici usando SE.

Esempio numerico

Supponiamo un campione con media campionaria 100, deviazione standard campionaria s = 15 e dimensione n = 25. L'errore standard è:

SE = s / √n = 15 / √25 = 15 / 5 = 3.

Un intervallo di confidenza approssimativo al 95% per la media è: media ± 1,96·SE ≈ 100 ± 1,96·3 ≈ 100 ± 5,9, quindi da circa 94,1 a 105,9. Se σ non è noto e n è piccolo, si usa la distribuzione t al posto del valore 1,96.

Proprietà importanti

  • L'errore standard diminuisce quando aumenta n, precisamente proprozionale a 1/√n: per raddoppiare la precisione (ridurre il SE della metà) occorre quadruplicare la dimensione del campione.
  • L'uso corretto dell'errore standard richiede campioni indipendenti e rappresentativi della popolazione; campionamenti non casuali o bias sistematici non vengono corretti aumentando n.
  • In presenza di dati altamente asimmetrici o per statistiche complicate, il bootstrap è un metodo pratico per stimare l'errore standard senza affidarsi a formule analitiche.

Avvertenze e errori comuni

  • Confondere deviazione standard e errore standard: la prima descrive la dispersione dei dati; la seconda la dispersione delle medie campionarie.
  • Interpretare l'errore standard come una misura di accuratezza rispetto al valore vero senza considerare possibili errori sistematici o bias del campionamento.
  • Usare la formula per SE della media senza verificare le condizioni (indipendenza dei dati, dimensione sufficiente per applicare approssimazioni normali) può portare a stime fuorvianti.

Quando usare la distribuzione t

Se la deviazione standard della popolazione σ è ignota (caso più comune) e la dimensione del campione è piccola (< 30) oppure la popolazione non è chiaramente normale, si usa la distribuzione t di Student per costruire intervalli di confidenza o testare ipotesi. In pratica si calcola SE = s / √n e si moltiplica per il fattore t appropriato (che dipende dai gradi di libertà n − 1).

In sintesi, l'errore standard è uno strumento fondamentale per quantificare la precisione delle stime campionarie: fornisce una misura della variabilità attesa delle statistiche (come la media) se ripetessimo l'operazione di campionamento molte volte.