Coefficiente di correlazione del rango di Spearman
In matematica e statistica, il coefficiente di correlazione del rango di Spearman è una misura di correlazione, che prende il nome dal suo creatore, Charles Spearman. È scritto in breve come la lettera greca rho ( ρ \displaystyle \rho } ) o a volte come r s {\displaystyle r_{s}}}. . È un numero che mostra quanto siano strettamente collegati due gruppi di dati. Può essere utilizzato solo per i dati che possono essere messi in ordine, come ad esempio dal più alto al più basso.
La formula generale per r s {\i\i}}}la formula generale per r_{s}} è ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\i\i\i} {\i\i}}displaystyle \i\i} rho =1-{\cfrac {6\i\i}}{n(n^{2}-1)}}}} .
Ad esempio, se si dispone di dati relativi al costo dei diversi computer e alla velocità dei computer, si può vedere se sono collegati, e quanto sono strettamente collegati, utilizzando r_{s}}{s_displaystyle r_{s}}. .
Lavorandoci su
Primo passo
Per elaborare il r_s stile di visualizzazione r_s si deve prima classificare ogni dato. Useremo l'esempio dell'introduzione dei computer e della loro velocit'a.
Quindi, il computer con il prezzo più basso sarebbe al primo posto. Quello più alto avrebbe il 2. Poi, va su fino a quando non è tutto classificato. Si deve fare questo per entrambe le serie di dati.
Prezzo ($) | R a n k 1 {\fscx130\fscy130\frx40}- R a n k 1 {\fscx130\fscy130\frx40}. | Velocità (GHz) | R a n k 2 {\fscx130\fscy130\frx40}- R a n k 2 | |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Secondo passo
Poi dobbiamo trovare la differenza tra i due ranghi. Poi, si moltiplica la differenza per se stessa, che si chiama squadratura. La differenza è chiamata d {\displaystyle d} , e il numero che si ottiene quando si quadra d {\displaystyle d} è chiamato d 2 {\displaystyle d^{2}}}. .
R a n k 1 {\fscx130\fscy130\frx40}- R a n k 1 {\fscx130\fscy130\frx40}. | R a n k 2 {\fscx130\fscy130\frx40}- R a n k 2 | # Stile di gioco # | d 2 - stile di visualizzazione d^{2} |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Terzo passo
Conta quanti dati abbiamo. Questi dati sono da 1 a 5, quindi abbiamo 5 dati. Questo numero si chiama n\displaystyle n} .
Quarto passo
Infine, usate tutto quello che abbiamo elaborato finora in questa formula: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\a6}}}}[n(n^{2}-1) .
∑ d 2 -sum d^{2} significa che prendiamo il totale di tutti i numeri che erano nella colonna d 2^{2}. . Questo perché ∑ \x22displaystyle \x22sum\x22 significa totale\x22.
Così, ∑ d 2 {\i\i\i}} è 1 + 1 + 1 + 1 + 1 {\i\i\i} che è 4. La formula dice di moltiplicare per 6, che è 24.
n ( n 2 - 1 ) {\an8}(n^{2}-1)} è 5 × ( 25 - 1 ) {\an8}(25 - 1 ) {\an8}(25-1)}(n 2 - 1)}(n^{2}-1)} (120).
Quindi, per scoprire lo stile di visualizzazione dei giochi... . Facciamo semplicemente 1 - 24 120 = 0.8 {\i} {\i} {\i\i}{120}}}=0.8} .
Pertanto, il coefficiente di correlazione del rango di Spearman è di 0,8 per questo insieme di dati.
Cosa significano i numeri
r s {\\fscx130\fscy130\frx40}}Stile di visualizzazione r_{s}} dà sempre una risposta tra -1 e 1. I numeri tra di loro sono come una scala, dove -1 è un legame molto forte, 0 non è un legame, e 1 è anche un legame molto forte. La differenza tra 1 e -1 è che 1 è una correlazione positiva, e -1 è una correlazione negativa. Un grafico di dati con un valore r s {\displaystyle r_{s}}} di -1 assomiglierebbe al grafico mostrato, tranne che la linea e i punti andrebbero dall'alto a sinistra in basso a destra.
Per esempio, per i dati che abbiamo fatto sopra, r s {\a6}{s} è stato 0,8. Questo significa che c'`e una correlazione positiva. Poich'e vicina a 1, significa che la correlazione `e forte tra i due insiemi di dati. Quindi, possiamo dire che questi due insiemi di dati sono collegati, e salgono insieme. Se fosse -0,8, potremmo dire che è collegato, e quando uno sale, l'altro scende.
Se due numeri sono uguali
A volte, quando si classificano i dati, ci sono due o più numeri che sono gli stessi. Quando cio' accade in r_{s} in stile r_{s}. Prendiamo la media o la media dei ranghi che sono uguali. Questi sono chiamati ranghi legati. Per fare questo, classifichiamo i numeri legati come se non fossero legati. Poi, sommiamo tutti i ranghi che avrebbero, e li dividiamo per quanti sono. Per esempio, diciamo che stiamo classificando quanto bene hanno fatto persone diverse in una prova di ortografia.
Punteggio del test | Classifica | Classifica (a parità di punteggio) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\frac {2+3+4}{3}}}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\frac {2+3+4}{3}}}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\frac {2+3+4}{3}}}=3} |
8 | 5 | 5 + 6 2 = 5.5 {\frac {\frac {5+6}{2}}}=5.5} |
8 | 6 | 5 + 6 2 = 5.5 {\frac {\frac {5+6}{2}}}=5.5} |
Questi numeri sono utilizzati esattamente come i numeri normali.
Pagine correlate
Domande e risposte
D: Cos'è il coefficiente di correlazione di rango di Spearman?
R: Il coefficiente di correlazione di rango di Spearman è una misura di correlazione che mostra quanto siano strettamente collegate due serie di dati. Può essere utilizzato solo per i dati che possono essere messi in ordine, ad esempio dal più alto al più basso.
D: Chi ha creato il coefficiente di correlazione di rango di Spearman?
R: Charles Spearman ha creato il coefficiente di correlazione di rango di Spearman.
D: Come si scrive la formula generale del coefficiente di correlazione di Spearman?
R: La formula generale del coefficiente di correlazione di Spearman è scritta come ρ = 1 - 6∑d2/n(n2-1).
D: Quando dovrebbe utilizzare il coefficiente di correlazione di rango di Spearman?
R: Dovrebbe utilizzare il coefficiente di correlazione di rango di Spearman quando vuole vedere quanto strettamente due serie di dati sono collegate e se lo sono del tutto.
D: Con quale tipo di dati funziona?
R: Funziona con qualsiasi tipo di dati che possono essere messi in ordine, ad esempio dal più alto al più basso.
D: Può fare un esempio di utilizzo di questa misura?
R: Un esempio di utilizzo di questa misura potrebbe essere quello di disporre di dati su quanto sono costosi i diversi computer e di dati su quanto sono veloci i computer, per vedere se sono collegati e quanto sono strettamente collegati utilizzando r_s.