Análise Exploratória e Visualização de Dados

Entendendo padrões de associação entre variáveis

As cinco primeiras aulas — revisão rápida

✅ Aula 01: Hipóteses contrastantes e o papel da probabilidade na inferência

✅ Aula 02: Atualização de crenças com o teorema de Bayes

✅ Aula 03: Modelos generativos e a aproximação por grade

✅ Aula 04: Distribuição Normal como modelo para variáveis contínuas

✅ Aula 05: Estimação da distribuição a posteriori de $\mu$ e $\sigma$

A partir desta aula: construção e interpretação de modelos de regressão

O que fazemos hoje

Teoria (25 min)

Por que visualizar antes de modelar
Tipos de gráficos e critérios de seleção
Transformações logarítmicas

Laboratório (65 min)

Morfometria de aves — Sparrows.txt
Alometria de mariscos — Clams.txt
Bioluminescência oceânica — ISIT.txt

Dados: Zuur et al. (2009)

Por que visualizar antes de modelar?

O Quarteto de Anscombe e o que gráficos revelam

O Quarteto de Anscombe (1973)

Quatro conjuntos de dados com resumos numéricos praticamente idênticos:

Descritor	Conjunto I	Conjunto II	Conjunto III	Conjunto IV
Média de $x$	9,0	9,0	9,0	9,0
Média de $y$	7,5	7,5	7,5	7,5
Correlação $r$	0,82	0,82	0,82	0,82
Reta ajustada	$\hat{y} = 3 + 0{,}5\,x$ (igual nos 4)

Os quatro diagramas de dispersão revelam estruturas completamente diferentes

Os quatro padrões por trás dos mesmos números

Conjunto I
Relação linear com dispersão aleatória em torno da reta — o caso "esperado"

Conjunto II
Relação parabólica — um modelo linear seria sistematicamente incorreto

Conjunto III
Relação linear quase perfeita, mas com um único ponto influente que distorce a reta

Conjunto IV
Todos os valores de $x$ são iguais, exceto um — correlação produzida por um único ponto extremo

A mesma equação de regressão pode descrever estruturas radicalmente distintas

O que gráficos revelam

Forma da distribuição: assimetria, multimodalidade e caudas pesadas não são detectáveis pela média e desvio padrão isolados
Valores atípicos: pontos afastados do padrão geral influenciam estimativas de forma desproporcional quando não são identificados
Não linearidade: uma relação com curvatura produz coeficiente de correlação menor do que o grau real de associação
Agrupamentos: subgrupos com características distintas geram distribuições multimodais e associações aparentes que desaparecem ao examinar os grupos separadamente
Variação entre unidades amostrais: diferenças sistemáticas entre locais ou grupos podem estar presentes mesmo quando a tendência global parece consistente

Tipos de gráficos e critérios de seleção

A pergunta determina o gráfico

Selecionar o gráfico pela pergunta analítica

Pergunta analítica	Variáveis	Gráfico indicado
Qual a distribuição de $y$?	1 variável contínua	Histograma, curva de densidade
Os grupos diferem em $y$?	1 contínua + 1 categórica	Diagrama de caixa, violino
$x$ prediz $y$?	2 variáveis contínuas	Diagrama de dispersão
Quais variáveis se associam?	3 ou mais contínuas	Gráfico de pares
A relação $x$–$y$ varia entre grupos?	2 contínuas + 1 categórica	Dispersão com cor ou facetas

Todos os gráficos desta aula são produzidos com ggplot2

Enquete 1

Um pesquisador quer comparar o peso corporal de passeriformes machos e fêmeas. Qual combinação de variáveis e gráfico é mais adequada?

(A) Duas variáveis contínuas — diagrama de dispersão

(B) Uma variável contínua e uma variável categórica — diagrama de caixa

(C) Duas variáveis categóricas — gráfico de barras

(D) Uma variável contínua — histograma separado para cada grupo

Exploração univariada e bivariada

Histogramas, diagramas de caixa e diagramas de dispersão

Dataset: morfometria de passeriformes

Variáveis contínuas

wingcrd — comprimento de asa (mm)
tarsus — comprimento do tarso (mm)
head — comprimento do crânio (mm)
wt — peso corporal (g)

Variáveis categóricas

Sex — sexo do indivíduo
Age — classe etária

Por que este dataset?

Permite demonstrar todos os tipos de gráficos em um único conjunto de dados

Dados: Zuur et al. (2009)

Histograma: distribuição univariada

O que o histograma mostra:

Localização central
Dispersão (amplitude)
Simetria ou assimetria
Multimodalidade
Valores atípicos isolados

Parâmetro bins

Poucos intervalos: suavização excessiva, detalhes ocultos

Muitos intervalos: variação excessiva, padrão geral difícil de identificar

Ajustar bins até a forma da distribuição ficar clara

ggplot(sparrows, aes(x = wt)) +
  geom_histogram(bins = 30, fill = "#1a9988", color = "white") +
  labs(x = "Peso corporal (g)", y = "Frequência") +
  theme_bw()

Diagrama de caixa: estrutura

Cinco descritores:

Valor mínimo (dentro das hastes)
Primeiro quartil $Q_1$ (borda inferior da caixa)
Mediana (linha central)
Terceiro quartil $Q_3$ (borda superior da caixa)
Valor máximo (dentro das hastes)

Intervalo interquartílico: $$\text{IIQ} = Q_3 - Q_1$$

Hastes: até $1{,}5 \times \text{IIQ}$ além das bordas da caixa

Pontos além das hastes: potenciais valores atípicos

A mediana é um descritor robusto de localização central — menos influenciada por valores extremos do que a média aritmética

Diagrama de dispersão: relação bivariada

Cada ponto representa uma observação. O padrão formado pelos pontos revela:

Direção: associação positiva ou negativa entre $x$ e $y$
Força: pontos próximos de uma linha (forte) ou amplamente dispersos (fraca)
Forma: linear ou curvilínea

ggplot(sparrows, aes(x = tarsus, y = wingcrd, color = factor(Sex))) +
  geom_point(alpha = 0.4) +
  labs(x = "Tarso (mm)", y = "Comprimento de asa (mm)", color = "Sexo") +
  theme_bw()

Mapear uma variável categórica para a cor dos pontos acrescenta uma terceira dimensão ao gráfico

Gráfico de pares: estrutura multivariada

O que é o gráfico de pares:

Uma grade de gráficos com todos os diagramas de dispersão possíveis entre $p$ variáveis.

Com $p$ variáveis: $\dfrac{p(p-1)}{2}$ pares distintos

Diagonal: distribuição de cada variável individualmente

O que permite identificar:

Pares de variáveis com associação mais forte
Variáveis praticamente independentes
Distribuições assimétricas que podem requerer transformação
Diferenças entre grupos nas relações

library(GGally)
sparrows |>
  select(wingcrd, tarsus, head, wt) |>
  ggpairs(aes(alpha = 0.3))

Transformações logarítmicas

Linearizar relações alométricas em ciências do mar

Relações alométricas em organismos marinhos

Em ecologia marinha, biomassa e comprimento se relacionam como lei de potência:

$$\text{biomassa} = \beta_0 \cdot \text{comprimento}^{\beta_1}$$

Coeficiente alométrico $\beta_1$:

$\beta_1 = 3$: crescimento isométrico — biomassa cresce com o cubo do comprimento linear
$\beta_1 > 3$: alometria positiva — crescimento relativo da biomassa supera o isométrico
$\beta_1 < 3$: alometria negativa — crescimento relativo da biomassa inferior ao isométrico

Dataset: Clams.txt — Dados: Zuur et al. (2009)

A transformação logarítmica lineariza a relação

Aplicando logaritmo natural em ambos os lados:

$$\ln(\text{biomassa}) = \ln(\beta_0) + \beta_1 \cdot \ln(\text{comprimento})$$

Na escala original

Curva com crescimento acelerado. Dispersão crescente com o comprimento.

Na escala logarítmica

Relação linear. $\beta_1$ é a inclinação da reta ajustada. $\ln(\beta_0)$ é o intercepto.

Dois efeitos da transformação logarítmica

1. Linearização

Relações de potência tornam-se relações lineares na escala log-log, facilitando a avaliação da força da associação e a modelagem por regressão

2. Redução da assimetria

Variáveis com distribuição assimétrica à direita (como biomassa) ficam mais simétricas na escala logarítmica, com dispersão mais uniforme ao longo do eixo $x$

Atenção: o logaritmo é indefinido para valores zero ou negativos. Contagens com zeros exigem tratamento especial, como $\ln(y + 1)$, com impacto na interpretação do modelo.

Variação sazonal com facetas

A variável MONTH em Clams.txt permite verificar se o padrão alométrico varia ao longo do ano.

facet_wrap(~ MONTH) divide o gráfico em painéis, um por mês, com escalas comparáveis.

ggplot(clams, aes(x = LNLENGTH, y = LNAFD)) +
  geom_point(alpha = 0.3, size = 1.2) +
  geom_smooth(method = "lm", se = FALSE, color = "#e6a073") +
  facet_wrap(~ MONTH) +
  labs(x = "ln(Comprimento)", y = "ln(Biomassa - AFD)") +
  theme_bw()

Facetas permitem verificar se um padrão global é consistente entre subgrupos ou varia sistematicamente entre eles

Enquete 2

O gráfico de biomassa contra comprimento de mariscos mostra uma curva com crescimento acelerado. Após aplicar logaritmo natural em ambas as variáveis, o gráfico resultante deve ser:

(A) Ainda curvilíneo, com crescimento mais lento

(B) Linear, com os pontos distribuídos em torno de uma linha reta

(C) Horizontal, indicando independência entre as variáveis

(D) Impossível de determinar sem conhecer o valor de $\beta_1$

Variação entre unidades amostrais

Padrões espaciais na bioluminescência oceânica

Dataset: bioluminescência oceânica

Variáveis principais

SampleDepth — profundidade de amostragem (m)
Sources — contagem de fontes bioluminescentes
Station — identificador de estação
Latitude, Longitude
BottomDepth — profundidade do fundo (m)

Pergunta analítica central:

A relação entre profundidade e bioluminescência é a mesma em todas as estações oceânicas, ou existe variação sistemática entre locais?

Esta pergunta motiva os modelos hierárquicos das aulas 14–15

Dados: Zuur et al. (2009) — Atlântico Norte

O gráfico global pode ser enganoso

O gráfico global (todas as estações juntas) mostra a tendência média, mas pode esconder variação importante entre locais.

# Gráfico global: todas as estações juntas
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
  geom_point(alpha = 0.3, size = 1) +
  labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
  theme_bw()

# Gráfico por estação: um painel por local
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
  geom_point(alpha = 0.3, size = 1) +
  facet_wrap(~ Station) +
  labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
  theme_bw()

Estações com padrões muito distintos das demais motivam modelos que estimam variação entre grupos de forma explícita

Valores atípicos e decisões analíticas

Identificar não é o mesmo que excluir

Como gráficos mostram valores atípicos

Valores atípicos aparecem de formas distintas nos diferentes tipos de gráficos:

Histograma

Barras isoladas nas extremidades, separadas do padrão geral

Diagrama de caixa

Pontos individuais além das hastes (a mais de 1,5 × IIQ das bordas)

Diagrama de dispersão

Pontos afastados da nuvem geral, especialmente influentes sobre a reta ajustada

Identificação não implica exclusão

Três possibilidades ao identificar um valor atípico:

Verificar se o valor resulta de erro de registro ou digitação — se sim, corrigir ou excluir com justificativa documentada
Se o valor for biologicamente plausível, mantê-lo na análise e verificar sua influência sobre o modelo ajustado
Ajustar o modelo com e sem o ponto suspeito e comparar as estimativas — se a diferença for substancial, reportar ambas as análises

Recapitulação

Conceitos centrais da Aula 07

O que vimos nesta aula

Conceito	Gráfico	Função em R
Distribuição univariada	Histograma, curva de densidade	`geom_histogram()`, `geom_density()`
Comparação entre grupos	Diagrama de caixa	`geom_boxplot()`
Relação bivariada	Diagrama de dispersão	`geom_point()`
Estrutura multivariada	Gráfico de pares	`GGally::ggpairs()`
Relação alométrica	Dispersão na escala log-log	`geom_point()` + colunas `LN*`
Variação entre grupos	Gráfico com facetas	`facet_wrap()`

Análise Exploratória e Visualização de Dados

Entendendo padrões de associação entre variáveis

As cinco primeiras aulas — revisão rápida

O que fazemos hoje

Por que visualizar antes de modelar?

O Quarteto de Anscombe e o que gráficos revelam

O Quarteto de Anscombe (1973)

Os quatro padrões por trás dos mesmos números

O que gráficos revelam

Tipos de gráficos e critérios de seleção

A pergunta determina o gráfico

Selecionar o gráfico pela pergunta analítica

Enquete 1

Exploração univariada e bivariada

Histogramas, diagramas de caixa e diagramas de dispersão

Dataset: morfometria de passeriformes

Histograma: distribuição univariada

Diagrama de caixa: estrutura

Diagrama de dispersão: relação bivariada

Gráfico de pares: estrutura multivariada

Transformações logarítmicas

Linearizar relações alométricas em ciências do mar

Relações alométricas em organismos marinhos

A transformação logarítmica lineariza a relação

Dois efeitos da transformação logarítmica

Variação sazonal com facetas

Enquete 2

Variação entre unidades amostrais

Padrões espaciais na bioluminescência oceânica

Dataset: bioluminescência oceânica

O gráfico global pode ser enganoso

Valores atípicos e decisões analíticas

Identificar não é o mesmo que excluir

Como gráficos mostram valores atípicos

Identificação não implica exclusão

Recapitulação

Conceitos centrais da Aula 07

O que vimos nesta aula

Dúvidas?