✅ Aula 01: Hipóteses contrastantes e o papel da probabilidade na inferência
✅ Aula 02: Atualização de crenças com o teorema de Bayes
✅ Aula 03: Modelos generativos e a aproximação por grade
✅ Aula 04: Distribuição Normal como modelo para variáveis contínuas
✅ Aula 05: Estimação da distribuição a posteriori de $\mu$ e $\sigma$
Dados: Zuur et al. (2009)
Quatro conjuntos de dados com resumos numéricos praticamente idênticos:
| Descritor | Conjunto I | Conjunto II | Conjunto III | Conjunto IV |
|---|---|---|---|---|
| Média de $x$ | 9,0 | 9,0 | 9,0 | 9,0 |
| Média de $y$ | 7,5 | 7,5 | 7,5 | 7,5 |
| Correlação $r$ | 0,82 | 0,82 | 0,82 | 0,82 |
| Reta ajustada | $\hat{y} = 3 + 0{,}5\,x$ (igual nos 4) | |||
| Pergunta analítica | Variáveis | Gráfico indicado |
|---|---|---|
| Qual a distribuição de $y$? | 1 variável contínua | Histograma, curva de densidade |
| Os grupos diferem em $y$? | 1 contínua + 1 categórica | Diagrama de caixa, violino |
| $x$ prediz $y$? | 2 variáveis contínuas | Diagrama de dispersão |
| Quais variáveis se associam? | 3 ou mais contínuas | Gráfico de pares |
| A relação $x$–$y$ varia entre grupos? | 2 contínuas + 1 categórica | Dispersão com cor ou facetas |
Todos os gráficos desta aula são produzidos com ggplot2
Um pesquisador quer comparar o peso corporal de passeriformes machos e fêmeas. Qual combinação de variáveis e gráfico é mais adequada?
(A) Duas variáveis contínuas — diagrama de dispersão
(B) Uma variável contínua e uma variável categórica — diagrama de caixa
(C) Duas variáveis categóricas — gráfico de barras
(D) Uma variável contínua — histograma separado para cada grupo
wingcrd — comprimento de asa (mm)tarsus — comprimento do tarso (mm)head — comprimento do crânio (mm)wt — peso corporal (g)Sex — sexo do indivíduoAge — classe etáriaPor que este dataset?
Permite demonstrar todos os tipos de gráficos em um único conjunto de dados
Dados: Zuur et al. (2009)
bins
Poucos intervalos: suavização excessiva, detalhes ocultos
Muitos intervalos: variação excessiva, padrão geral difícil de identificar
Ajustar bins até a forma da distribuição ficar clara
ggplot(sparrows, aes(x = wt)) +
geom_histogram(bins = 30, fill = "#1a9988", color = "white") +
labs(x = "Peso corporal (g)", y = "Frequência") +
theme_bw()
Hastes: até $1{,}5 \times \text{IIQ}$ além das bordas da caixa
Pontos além das hastes: potenciais valores atípicos
Cada ponto representa uma observação. O padrão formado pelos pontos revela:
ggplot(sparrows, aes(x = tarsus, y = wingcrd, color = factor(Sex))) +
geom_point(alpha = 0.4) +
labs(x = "Tarso (mm)", y = "Comprimento de asa (mm)", color = "Sexo") +
theme_bw()
Uma grade de gráficos com todos os diagramas de dispersão possíveis entre $p$ variáveis.
Com $p$ variáveis: $\dfrac{p(p-1)}{2}$ pares distintos
Diagonal: distribuição de cada variável individualmente
library(GGally)
sparrows |>
select(wingcrd, tarsus, head, wt) |>
ggpairs(aes(alpha = 0.3))
Em ecologia marinha, biomassa e comprimento se relacionam como lei de potência:
Dataset: Clams.txt — Dados: Zuur et al. (2009)
Aplicando logaritmo natural em ambos os lados:
Curva com crescimento acelerado. Dispersão crescente com o comprimento.
Relação linear. $\beta_1$ é a inclinação da reta ajustada. $\ln(\beta_0)$ é o intercepto.
Relações de potência tornam-se relações lineares na escala log-log, facilitando a avaliação da força da associação e a modelagem por regressão
Variáveis com distribuição assimétrica à direita (como biomassa) ficam mais simétricas na escala logarítmica, com dispersão mais uniforme ao longo do eixo $x$
A variável MONTH em Clams.txt permite verificar se o padrão alométrico varia ao longo do ano.
facet_wrap(~ MONTH) divide o gráfico em painéis, um por mês, com escalas comparáveis.
ggplot(clams, aes(x = LNLENGTH, y = LNAFD)) +
geom_point(alpha = 0.3, size = 1.2) +
geom_smooth(method = "lm", se = FALSE, color = "#e6a073") +
facet_wrap(~ MONTH) +
labs(x = "ln(Comprimento)", y = "ln(Biomassa - AFD)") +
theme_bw()
O gráfico de biomassa contra comprimento de mariscos mostra uma curva com crescimento acelerado. Após aplicar logaritmo natural em ambas as variáveis, o gráfico resultante deve ser:
(A) Ainda curvilíneo, com crescimento mais lento
(B) Linear, com os pontos distribuídos em torno de uma linha reta
(C) Horizontal, indicando independência entre as variáveis
(D) Impossível de determinar sem conhecer o valor de $\beta_1$
SampleDepth — profundidade de amostragem (m)Sources — contagem de fontes bioluminescentesStation — identificador de estaçãoLatitude, LongitudeBottomDepth — profundidade do fundo (m)A relação entre profundidade e bioluminescência é a mesma em todas as estações oceânicas, ou existe variação sistemática entre locais?
Esta pergunta motiva os modelos hierárquicos das aulas 14–15
Dados: Zuur et al. (2009) — Atlântico Norte
O gráfico global (todas as estações juntas) mostra a tendência média, mas pode esconder variação importante entre locais.
# Gráfico global: todas as estações juntas
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
geom_point(alpha = 0.3, size = 1) +
labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
theme_bw()
# Gráfico por estação: um painel por local
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
geom_point(alpha = 0.3, size = 1) +
facet_wrap(~ Station) +
labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
theme_bw()
Valores atípicos aparecem de formas distintas nos diferentes tipos de gráficos:
Barras isoladas nas extremidades, separadas do padrão geral
Pontos individuais além das hastes (a mais de 1,5 × IIQ das bordas)
Pontos afastados da nuvem geral, especialmente influentes sobre a reta ajustada
| Conceito | Gráfico | Função em R |
|---|---|---|
| Distribuição univariada | Histograma, curva de densidade | geom_histogram(), geom_density() |
| Comparação entre grupos | Diagrama de caixa | geom_boxplot() |
| Relação bivariada | Diagrama de dispersão | geom_point() |
| Estrutura multivariada | Gráfico de pares | GGally::ggpairs() |
| Relação alométrica | Dispersão na escala log-log | geom_point() + colunas LN* |
| Variação entre grupos | Gráfico com facetas | facet_wrap() |