Medidas de variação

R
Análise de dados
Estatística descritiva
Variabilidade de dados
Análise de dispersão
Apresentação das medidas de variação, como variância, desvio padrão, coeficiente de variação e amplitude, com exemplos práticos.
library(tidyverse)
library(gt)

As medidas de variação indicam o grau de dispersão das observações. Distribuições com observações muito próximas à média têm baixo grau de dispersão, enquanto aquelas com observações muito distantes da média têm alto grau de dispersão. Vamos apresentar quatro índices que medem o grau de dispersão: a variância, o desvio padrão, o coeficiente de variação e a amplitude de variação.

1 Variância amostral

A variância amostral, descrita pelo símbolo \(s^2\), mede quão distantes as observações em uma variável estão de sua média aritmética.

Para um conjunto de observações, \(s^2\) é dada por:

\[s^2=\frac{\sum_{i=1}^n{(X_i - \overline{X})^2}}{n-1}\]

Seja a variável \(X\) abaixo:

Código
n <- 5
set.seed(1)
X <- sample(x = 1:10, size = n, rep = TRUE)

\(X =\) {9, 4, 7, 1, 2}

\(X\) tem 5 observações:

Para calcularmos \(s^2\), devemos inicialmente obter a média de \(X\), que neste caso é:

\(\overline{X} = 4.6\)

E subtrair cada observação da média:

Código
df <- data.frame(X) |> 
  mutate(dif = X - mean(X)) |> 
  as.data.frame() # Garantir que é um data frame simples

df |> 
  knitr::kable(col.names = c('$X$', '$X - \\overline{X}$'))
\(X\) \(X - \overline{X}\)
9 4.4
4 -0.6
7 2.4
1 -3.6
2 -2.6

Em seguida, elevamos cada diferença ao quadrado:

Código
df <- df |> 
  mutate(dif = X - mean(X)) |> 
  mutate(dif2 = dif^2)

df |> 
  knitr::kable(col.names = c('$X$',
                             '$X - \\overline{X}$',
                             '${(X - \\overline{X})}^{2}$'))
\(X\) \(X - \overline{X}\) \({(X - \overline{X})}^{2}\)
9 4.4 19.36
4 -0.6 0.36
7 2.4 5.76
1 -3.6 12.96
2 -2.6 6.76

Se somarmos essas quantias e dividirmos por \(n-1\), teremos a variância amostral como:

\(s^2 = \frac{19.36 + 0.36 + 5.76 + 12.96 + 6.76}{5 - 1} = \frac{45.2}{4} = 11.3\)

2 Desvio padrão amostral

O desvio padrão amostral (\(s\)) é a raiz quadrada da variância amostral.

\[s=\sqrt{\frac{\sum_{i=1}^n{(X_i - \overline{X})^2}}{n-1}}\]

E em nosso exemplo:

\(s = \sqrt{11.3} = 3.36\)

3 Coeficiente de variação

O coeficiente de variação (cv) relaciona o desvio padrão à média, sendo definido por:

\[cv = s/\overline{X}\] ou \[cv_{\%} = s/\overline{X}\cdot 100\]

Em nosso exemplo:

\(cv = \frac{3.36}{4.6} \cdot 100 = 73.08\)

4 Amplitude de variação

É a diferença entre os pontos máximo e mínimo de um grupo de observações.

Amplitude de variação = \(X_{maximo} - X_{minimo}\)

que em nosso exemplo é:

Amplitude de variação = \(9 - 1 = 8\)

5 Obtendo medidas de variação de uma tabela de dados

Importe a base de dados Reservatorios_Parana_parcial.csv.

res <- read_delim(
  file = "https://raw.githubusercontent.com/FCopf/datasets/refs/heads/main/Reservatorios_Parana_parcial.csv",
  delim = ",",
  locale = locale(decimal_mark = ".", encoding = "latin1")
)

Usaremos a função summarise para obter descritores de variação para a variável CPUE.

res |> 
  summarise(CPUE_var = var(CPUE),
            CPUE_dp = sd(CPUE),
            CPUE_cv = sd(CPUE) / mean(CPUE) * 100,
            CPUE_amplitude = max(CPUE) - min(CPUE)) |> 
  gt()
CPUE_var CPUE_dp CPUE_cv CPUE_amplitude
54.31838 7.3701 58.02786 28.71