library(tidyverse)
library(gt)Medidas de variação
As medidas de variação indicam o grau de dispersão das observações. Distribuições com observações muito próximas à média têm baixo grau de dispersão, enquanto aquelas com observações muito distantes da média têm alto grau de dispersão. Vamos apresentar quatro índices que medem o grau de dispersão: a variância, o desvio padrão, o coeficiente de variação e a amplitude de variação.
1 Variância amostral
A variância amostral, descrita pelo símbolo \(s^2\), mede quão distantes as observações em uma variável estão de sua média aritmética.
Para um conjunto de observações, \(s^2\) é dada por:
\[s^2=\frac{\sum_{i=1}^n{(X_i - \overline{X})^2}}{n-1}\]
Seja a variável \(X\) abaixo:
Código
n <- 5
set.seed(1)
X <- sample(x = 1:10, size = n, rep = TRUE)\(X =\) {9, 4, 7, 1, 2}
\(X\) tem 5 observações:
Para calcularmos \(s^2\), devemos inicialmente obter a média de \(X\), que neste caso é:
\(\overline{X} = 4.6\)
E subtrair cada observação da média:
Código
df <- data.frame(X) |>
mutate(dif = X - mean(X)) |>
as.data.frame() # Garantir que é um data frame simples
df |>
knitr::kable(col.names = c('$X$', '$X - \\overline{X}$'))| \(X\) | \(X - \overline{X}\) |
|---|---|
| 9 | 4.4 |
| 4 | -0.6 |
| 7 | 2.4 |
| 1 | -3.6 |
| 2 | -2.6 |
Em seguida, elevamos cada diferença ao quadrado:
Código
df <- df |>
mutate(dif = X - mean(X)) |>
mutate(dif2 = dif^2)
df |>
knitr::kable(col.names = c('$X$',
'$X - \\overline{X}$',
'${(X - \\overline{X})}^{2}$'))| \(X\) | \(X - \overline{X}\) | \({(X - \overline{X})}^{2}\) |
|---|---|---|
| 9 | 4.4 | 19.36 |
| 4 | -0.6 | 0.36 |
| 7 | 2.4 | 5.76 |
| 1 | -3.6 | 12.96 |
| 2 | -2.6 | 6.76 |
Se somarmos essas quantias e dividirmos por \(n-1\), teremos a variância amostral como:
\(s^2 = \frac{19.36 + 0.36 + 5.76 + 12.96 + 6.76}{5 - 1} = \frac{45.2}{4} = 11.3\)
2 Desvio padrão amostral
O desvio padrão amostral (\(s\)) é a raiz quadrada da variância amostral.
\[s=\sqrt{\frac{\sum_{i=1}^n{(X_i - \overline{X})^2}}{n-1}}\]
E em nosso exemplo:
\(s = \sqrt{11.3} = 3.36\)
3 Coeficiente de variação
O coeficiente de variação (cv) relaciona o desvio padrão à média, sendo definido por:
\[cv = s/\overline{X}\] ou \[cv_{\%} = s/\overline{X}\cdot 100\]
Em nosso exemplo:
\(cv = \frac{3.36}{4.6} \cdot 100 = 73.08\)
4 Amplitude de variação
É a diferença entre os pontos máximo e mínimo de um grupo de observações.
Amplitude de variação = \(X_{maximo} - X_{minimo}\)
que em nosso exemplo é:
Amplitude de variação = \(9 - 1 = 8\)
5 Obtendo medidas de variação de uma tabela de dados
Importe a base de dados Reservatorios_Parana_parcial.csv.
res <- read_delim(
file = "https://raw.githubusercontent.com/FCopf/datasets/refs/heads/main/Reservatorios_Parana_parcial.csv",
delim = ",",
locale = locale(decimal_mark = ".", encoding = "latin1")
)Usaremos a função summarise para obter descritores de variação para a variável CPUE.
res |>
summarise(CPUE_var = var(CPUE),
CPUE_dp = sd(CPUE),
CPUE_cv = sd(CPUE) / mean(CPUE) * 100,
CPUE_amplitude = max(CPUE) - min(CPUE)) |>
gt()| CPUE_var | CPUE_dp | CPUE_cv | CPUE_amplitude |
|---|---|---|---|
| 54.31838 | 7.3701 | 58.02786 | 28.71 |