Associação entre duas variáveis quantitativas

Estatística
Análise quantitativa
Covariância
Correlação
Medidas de associação
Análise da associação entre variáveis quantitativas, com destaque para covariância e correlação de Pearson.
library(tidyverse)
library(gt)
library(patchwork)
library(mvtnorm)

Iremos medir o grau de associação entre duas variáveis quantitativas \(X\) e \(Y\) por meio dos coeficientes de covariância e correlação linear. Não estamos interessados em verificar se \(Y\) depende funcionalmente de \(X\) ou vice-versa. Estamos interessados somente em medir a intensidade de associação linear entre as duas variáveis. Ao calcularmos a covariância entre \(Y\) e \(X\) (\(s_{YX}\)), por exemplo, poderíamos inverter a ordem fazendo \(s_{XY}\) e teríamos exatamente os mesmo resultados. O mesmo vale para o coeficiente de correlação (\(r_{YX} = r_{XY}\)). Dizemos que existe uma simetria ao calcular estes coeficientes.

Estamos interessados em diferenciar três situações que podem ser visualizadas nos gráficos de dispersão abaixo:

1 Covariância entre \(Y\) e \(X\)

A variância amostral de \(Y\) pode ser obtida subtraindo cada observação em \(Y\) de sua média (\(\overline{Y}\)) e elevando esta subtração ao quadrado \((Y_i - \overline{Y})^2\). Ao somar para todos os valores de \(Y_i\) teremos o somatório dos quadrados de \(Y\) (\(SQ_Y\)).

\[SQ_Y = \sum_{i-1}^{n} (Y_i - \overline{Y})^2 = \sum_{i-1}^{n}(Y_i - \overline{Y}) (Y_i - \overline{Y})\]

Dividindo \(SQ_Y\) por \(n-1\) teremos a variância amostral de \(Y\) (\(s^2_Y\)).

\[s^2_Y = \frac{\sum_{i-1}^{n} (Y_i - \overline{Y})^2}{n-1}\]

A variância amostral é representada por \(s^2\). Aqui vamos usar a notação (\(s^2_Y\)), pois haverá outros estimadores de variância envolvidos, de modo que deveremos ser mais claros a respeito de qual estimador estaremos nos referindo.

Adotando o mesmo procedimento para \(X\), podemos calcular o somatório dos quadrados de \(X\) (\(SQ_X\)).

\[SQ_X = \sum_{i-1}^{n} (X_i - \overline{X})^2 = \sum_{i-1}^{n}(X_i - \overline{X}) (X_i - \overline{X})\]

e a variância amostral de \(X\) (\(s^2_X\)).

\[s^2_X = \frac{\sum_{i-1}^{n} (X_i - \overline{X})^2}{n-1}\]

Combinando as duas ideias, teremos o produto cruzado de \(Y\) e \(X\) (\(SQ_{YX}\))

\[SQ_{YX} = \sum_{i-1}^{n}(Y_i - \overline{Y}) (X_i - \overline{X})\]

e finalmente a covariância amostral entre \(Y\) e \(X\) (\(s_{YX}\)).

NotaCovariância amostral

\[s_{YX} = \frac{\sum_{i-1}^{n}(Y_i - \overline{Y}) (X_i - \overline{X})}{n-1}\]

2 Coeficiente de correlação linear de Pearson \(r\)

Assim como a covariância, o coeficiente de correlação de Pearson (\(r\)) mede a intensidade da associação linear entre \(Y\) e \(X\). A covariância entretanto, não tem limite superior ou inferior, pois sua magnitude depende da ordem de grandeza das variáveis envolvidas. O coeficiente de correlação \(r\) é calculado como a covariância entre \(Y\) e \(X\) padronizada pelo produto dos desvios padrões de \(Y\) e de \(X\).

\[r = \frac{s_{YX}}{s_Y s_X} = \frac{\frac{\sum{(Y_i - \overline{Y})(X_i - \overline{X})}}{n-1}} {\sqrt{\frac{\sum{(Y_i - \overline{Y})^2}}{n-1}} \times \sqrt{\frac{\sum{(X_i - \overline{X})^2}}{n-1}}}\]

NotaCoeficiente de correlação

\[r = \frac{\sum{(Y_i - \overline{Y})(X_i - \overline{X})}}{\sqrt{\sum{(Y_i - \overline{Y})^2 \sum{(X_i - \overline{X})^2}}}}\]

Esta padronização garante que \(r\) pode variar entre \(-1\) (correlação perfeitamente linear e negativa) e \(+1\) (correlação perfeitamente linear e positiva), se aproximando de zero quando não existe correlação.

3 Exemplo

A Tabela 1 apresenta dados da pesca do camarão tigre e do camarão rei entre nos anos de 1976 a 1987 (Haddon 2010). O camarão tigre constitui a espécie alvo da pesca, enquanto o camarão rei aparece como uma espécie acidental.

Importe a base de dados ctigre_haddon.csv

tigre = read_delim('https://raw.githubusercontent.com/FCopf/datasets/refs/heads/main/ctigre_haddon.csv')
rtk = cor(tigre$Tiger, tigre$King)
stk = cov(tigre$Tiger, tigre$King)
Tabela 1: Captura do camarão tigre e do camarão rei (ton) entre 1976 e 1987.
Ano Camarão tigre Camarão rei
1976 566 10
1977 1437 22
1978 1646 42
1979 2056 33
1980 3171 64
1981 2743 34
1982 2838 59
1983 4434 146
1984 4149 78
1985 3480 75
1986 2375 81
1987 3355 52

Nas figuras abaixo temos as abundâncias das espécies ao longo dos anos e o gráfico de dispersão.

Código
c1 = ggplot(tigre, aes(x = Year)) +
  geom_line(aes(y = Tiger), color = 'red') +
  geom_point(aes(y = Tiger), color = 'red', 
             shape = 19, size = 4) +
  geom_line(aes(y = King), color = 'blue') +
  geom_point(aes(y = King), color = 'blue', 
             shape = 19, size = 4) +
  geom_segment(x = 1976, xend = 1976.3, 
               y = 4000, yend = 4000, 
               color = 'red') +
  geom_segment(x = 1976, xend = 1976.3, 
               y = 3700, yend = 3700, 
               color = 'blue') +
  geom_text(x = 1976.4, y = 4000, 
            label = 'Camarão tigre', hjust = 0) +
  geom_text(x = 1976.4, y = 3700, 
            label = 'Camarão rei', hjust = 0) +
  scale_x_continuous(breaks = tigre$Year) +
  labs(title = 'A', 
       y = 'Abundância (Ton)') +
  theme_classic(base_size = 12)

c2 = ggplot(tigre, aes(y = King, x = Tiger)) +
  geom_point(shape = 19, size = 4) +
  scale_y_continuous(breaks = seq(0, 150, by = 20)) +
  scale_x_continuous(breaks = seq(500, 5000, by = 500)) +
  labs(title = 'B',
       x = 'Camarão tigre (Ton)', 
       y = 'Camarão rei  (Ton)') +
  theme_classic(base_size = 12)

c1 | c2
Figura 1: A - Captura do camarão tigre e do camarão-rei (ton) entre 1976 e 1987. B - Associação positiva nas capturas anuais entre 1976 e 1987.

A captura em toneladas do camarão tigre é sempre mais elevada. Entretanto, a figura da direita sugere haver uma associação linear entre as capturas. Nos anos em que houve maiores capturas do camarão tigre parece ter havido também um aumento nas capturas do camarão rei. Dizemos as capturas covariam positivamente. Portanto existe uma correlação positiva entre a captura das duas espécies.

Em nenhum momento estamos dizendo que a captura de uma espécie resulta no aumento na captura da outra. Muito provavelmente, as abundâncias das duas espécies estão relacionadas a um terceiro fator que gera um comportamento similar na variação das capturas ano a ano. Estamos interessados em mensurar o grau de associação seja pela covariância ou pelo coeficiente de correlação de Pearson.

a covariância entre as abundâncias dos camarões tigre e rei é positiva (\(s_{tigre-rei} = 3.3293\times 10^{4}\)) e consequentemente a correlação de Pearson também é positiva (\(r = 0.82\)). Confira os cálculos utilizando as expressões apresentadas no capítulo.

No R, a covariância entre \(Y\) e \(X\) pode ser obtida pela função cov:

cov(tigre$Tiger, tigre$King)
[1] 33293

E a correlação pela função cor:

cor(tigre$Tiger, tigre$King)
[1] 0.8196913

Referências

Haddon, Malcolm. 2010. Modelling and quantitative methods in fisheries. CRC press.