In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare^[1], coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.^[1]

Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra $+1$ e $-1,$ dove $+1$ corrisponde alla perfetta correlazione lineare positiva, $0$ corrisponde a un'assenza di correlazione lineare e $-1$ corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.^[2]^[3]^[4] La denominazione del coefficiente è anche un esempio della legge di Stigler.

Definizione

[modifica | modifica wikitesto]

Date due variabili statistiche $X$ e $Y$ , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

\rho _{XY}={\frac {\sigma _{XY)){\sigma _{X}\sigma _{Y))}.

dove ${\displaystyle \sigma _{XY))$ è la covarianza tra $X$ e $Y$ e ${\displaystyle \sigma _{X},\sigma _{Y))$ sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra $-1$ e $1:$ ^[5]

-1\leq \rho _{XY}\leq 1.

Correlazione e indipendenza

[modifica | modifica wikitesto]

Nella pratica si distinguono vari "tipi" di correlazione.

Se $\rho _{XY}>0$ , le variabili $X$ e $Y$ si dicono direttamente correlate, oppure correlate positivamente;
se $\rho _{XY}=0$ , le variabili $X$ e $Y$ si dicono incorrelate;
se $\rho _{XY}<0$ , le variabili $X$ e $Y$ si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

se $0<\left|\rho _{XY}\right|<0,3$ si ha correlazione debole;
se $0,3<\left|\rho _{XY}\right|<0,7$ si ha correlazione moderata;
se $\left|\rho _{XY}\right|>0,7$ si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X:	-3	-2	-1	0	1	2	3
Y:	9	4	1	0	1	4	9

abbiamo che $X$ e $Y$ non sono indipendenti in quanto legate dalla relazione ${\displaystyle Y=X^{2))$ , ma $\rho _{XY}=0$ .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale $+1$ in presenza di correlazione lineare positiva perfetta (cioè $Y=a+bX$ , con $b>0$ ), mentre vale $-1$ in presenza di correlazione lineare negativa perfetta (cioè $Y=a+bX$ , con $b<0$ ).

Valori prossimi a $+1$ (o $-1$ ) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica: ${\displaystyle Y=X^{2))$

X:	1	2	3	4
Y:	1	4	9	16

produce un coefficiente $\rho _{XY}=0,9844$ .

Generalizzazione a più di due variabili

[modifica | modifica wikitesto]

Gli indici di correlazione di $n$ variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione $n\times n$ avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè $(\rho _{ji}=\rho _{ij})$ , e i coefficienti sulla diagonale valgono $1,$ in quanto

\rho _{ii}={\frac {\sigma _{ii)){\sigma _{i}^{2))}.

Proprietà matematiche

[modifica | modifica wikitesto]

Un valore dell'indice di correlazione uguale a $+1$ o $-1$ corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico: $\rho _{XY}=\rho _{YX}.$

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare $X$ in $a+bX$ e trasformare $Y$ in $c+dY,$ dove $a,b,c$ e $d$ sono costanti reali con $b,d>0,$ senza modificare il coefficiente di correlazione.

Esempio in R

[modifica | modifica wikitesto]

Utilizzando il linguaggio di programmazione R si vuole calcolare l'indice di correlazione di Pearson tra la variabile Fertility rate, total (births per woman) e la variabile GDP per capita (current US$) nel 2020 , fornite dalla Banca Mondiale qui : https://databank.worldbank.org/reports.aspx?source=world-development-indicators . Per fare questo si utilizza la funzione cor nel seguente modo :

library(dplyr)

World_Bank_Data <- read.csv("World_Bank_Data.csv")

df1 <- World_Bank_Data %>%
  filter(Series.Name=="Fertility rate, total (births per woman)") %>%
  select(Country.Name,X2020..YR2020.)

colnames(df1)[2] <- "Numero di figli per donna"

df2 <- World_Bank_Data %>%
  filter(Series.Name=="GDP per capita (current US$)"   ) %>%
  select(Country.Name,X2020..YR2020.)

colnames(df2)[2] <- "Pil procapite"

df1 <- merge(df1,df2 , by="Country.Name")

df1$`Numero di figli per donna` <- as.numeric(df1$`Numero di figli per donna`)
df1$`Pil procapite` <- as.numeric(df1$`Pil procapite`)

df1 <- df1[-which(is.na(df1$`Pil procapite`)),]
df1 <- df1[-which(is.na(df1$`Numero di figli per donna`)),]

cor(df1$`Numero di figli per donna`,df1$`Pil procapite`,)

-0.4601806

Note

[modifica | modifica wikitesto]

^ ^a ^b Glossario Istat, su www3.istat.it (archiviato dall'url originale il 31 dicembre 2011).
^ (F. Galton) (24 September 1885), "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section," Nature, 32 (830) : 507–510..
^ Karl Pearson (20 June 1895) "Notes on regression and inheritance in the case of two parents," Proceedings of the Royal Society of London, 58 : 240–242..
^ Stigler, Stephen M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science. 4 (2): 73–79..
^ Ross, p. 117.

Bibliografia

[modifica | modifica wikitesto]

Sheldon M. Ross, Introduzione alla statistica, 2ª ed., Maggioli Editore, 2014, ISBN 8891602671.

Voci correlate

[modifica | modifica wikitesto]

Coefficiente di correlazione per ranghi di Spearman
Coefficiente di correlazione per ranghi di Kendall
Regressione lineare
Correlazione (statistica)
Karl Pearson
Francis Galton, il primo a introdurre la lettera r (come abbreviazione di "regressione") anche se utilizzava un coefficiente diverso, in quanto normava usando lo scarto interquartile.

Collegamenti esterni

[modifica | modifica wikitesto]

(EN) Ken Stewart, Pearson’s correlation coefficient, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Eric W. Weisstein, Indice di correlazione di Pearson, su MathWorld, Wolfram Research.

V · D · M

Statistica

Teoria statistica

Statistica descrittiva	Media (aritmetica · geometrica · armonica · di potenza · aritmetico-geometrica · integrale) · Mediana · Moda · Intervallo di variazione · Varianza · Deviazione standard · Scarto medio assoluto · Simmetria · Differenza media (assoluta · logaritmica) · Curtosi
Inferenza statistica	Test di verifica d'ipotesi · Significatività · Ipotesi nulla/alternativa · Errore del I e del II tipo · Test Q · Test U · Test t · Test Z · Massima verosimiglianza · Standardizzazione · Valore p · Analisi della varianza
Analisi di sopravvivenza	Tasso di guasto · Stimatore di Kaplan-Meier · Test dei ranghi logaritmici
Analisi della regressione	Regressione lineare · Regressione nonlineare · Variabili strumentali · Metodo generalizzato dei momenti · Regressione logistica · Modello probit · Modello logit

Statistica economica

Istituti statistici	ISTAT · EuroSTAT · Royal Statistical Society · U.S. Census Bureau · ISI · INSEE
Siti web statistici	Our World in Data · Statista · Bloomberg Terminal · Google Public Data Explorer · World Inequality Database · TradingEconomics · ACLED
Software econometrici	gretl · EViews

Controllo di autorità	GND (DE) 4165345-2

Portale Economia

Portale Statistica

Categorie