⏱️ 0:00
Docente: Fabio Cop (fcferreira@unifesp.br) | Curso: Bacharelado Interdisciplinar em Ciências do Mar - Bict Mar | UC: Probabilidade e Estatística - Aula 07

Análise Exploratória e Visualização de Dados

Entendendo padrões de associação entre variáveis

As cinco primeiras aulas — revisão rápida

✅ Aula 01: Hipóteses contrastantes e o papel da probabilidade na inferência

✅ Aula 02: Atualização de crenças com o teorema de Bayes

✅ Aula 03: Modelos generativos e a aproximação por grade

✅ Aula 04: Distribuição Normal como modelo para variáveis contínuas

✅ Aula 05: Estimação da distribuição a posteriori de $\mu$ e $\sigma$

A partir desta aula: construção e interpretação de modelos de regressão

O que fazemos hoje

Teoria (25 min)
  1. Por que visualizar antes de modelar
  2. Tipos de gráficos e critérios de seleção
  3. Transformações logarítmicas
Laboratório (65 min)
  1. Morfometria de aves — Sparrows.txt
  2. Alometria de mariscos — Clams.txt
  3. Bioluminescência oceânica — ISIT.txt

Dados: Zuur et al. (2009)

Por que visualizar antes de modelar?

O Quarteto de Anscombe e o que gráficos revelam

O Quarteto de Anscombe (1973)

Quatro conjuntos de dados com resumos numéricos praticamente idênticos:

Descritor Conjunto I Conjunto II Conjunto III Conjunto IV
Média de $x$ 9,0 9,0 9,0 9,0
Média de $y$ 7,5 7,5 7,5 7,5
Correlação $r$ 0,82 0,82 0,82 0,82
Reta ajustada $\hat{y} = 3 + 0{,}5\,x$ (igual nos 4)
Os quatro diagramas de dispersão revelam estruturas completamente diferentes

Os quatro padrões por trás dos mesmos números

Conjunto I
Relação linear com dispersão aleatória em torno da reta — o caso "esperado"
Conjunto II
Relação parabólica — um modelo linear seria sistematicamente incorreto
Conjunto III
Relação linear quase perfeita, mas com um único ponto influente que distorce a reta
Conjunto IV
Todos os valores de $x$ são iguais, exceto um — correlação produzida por um único ponto extremo
A mesma equação de regressão pode descrever estruturas radicalmente distintas

O que gráficos revelam

  • Forma da distribuição: assimetria, multimodalidade e caudas pesadas não são detectáveis pela média e desvio padrão isolados
  • Valores atípicos: pontos afastados do padrão geral influenciam estimativas de forma desproporcional quando não são identificados
  • Não linearidade: uma relação com curvatura produz coeficiente de correlação menor do que o grau real de associação
  • Agrupamentos: subgrupos com características distintas geram distribuições multimodais e associações aparentes que desaparecem ao examinar os grupos separadamente
  • Variação entre unidades amostrais: diferenças sistemáticas entre locais ou grupos podem estar presentes mesmo quando a tendência global parece consistente

Tipos de gráficos e critérios de seleção

A pergunta determina o gráfico

Selecionar o gráfico pela pergunta analítica

Pergunta analítica Variáveis Gráfico indicado
Qual a distribuição de $y$? 1 variável contínua Histograma, curva de densidade
Os grupos diferem em $y$? 1 contínua + 1 categórica Diagrama de caixa, violino
$x$ prediz $y$? 2 variáveis contínuas Diagrama de dispersão
Quais variáveis se associam? 3 ou mais contínuas Gráfico de pares
A relação $x$–$y$ varia entre grupos? 2 contínuas + 1 categórica Dispersão com cor ou facetas

Todos os gráficos desta aula são produzidos com ggplot2

Enquete 1

Um pesquisador quer comparar o peso corporal de passeriformes machos e fêmeas. Qual combinação de variáveis e gráfico é mais adequada?

(A) Duas variáveis contínuas — diagrama de dispersão

(B) Uma variável contínua e uma variável categórica — diagrama de caixa

(C) Duas variáveis categóricas — gráfico de barras

(D) Uma variável contínua — histograma separado para cada grupo

Exploração univariada e bivariada

Histogramas, diagramas de caixa e diagramas de dispersão

Dataset: morfometria de passeriformes

Variáveis contínuas
  • wingcrd — comprimento de asa (mm)
  • tarsus — comprimento do tarso (mm)
  • head — comprimento do crânio (mm)
  • wt — peso corporal (g)
Variáveis categóricas
  • Sex — sexo do indivíduo
  • Age — classe etária

Por que este dataset?

Permite demonstrar todos os tipos de gráficos em um único conjunto de dados

Dados: Zuur et al. (2009)

Histograma: distribuição univariada

O que o histograma mostra:
  • Localização central
  • Dispersão (amplitude)
  • Simetria ou assimetria
  • Multimodalidade
  • Valores atípicos isolados
Parâmetro bins

Poucos intervalos: suavização excessiva, detalhes ocultos

Muitos intervalos: variação excessiva, padrão geral difícil de identificar

Ajustar bins até a forma da distribuição ficar clara

ggplot(sparrows, aes(x = wt)) +
  geom_histogram(bins = 30, fill = "#1a9988", color = "white") +
  labs(x = "Peso corporal (g)", y = "Frequência") +
  theme_bw()

Diagrama de caixa: estrutura

Cinco descritores:
  • Valor mínimo (dentro das hastes)
  • Primeiro quartil $Q_1$ (borda inferior da caixa)
  • Mediana (linha central)
  • Terceiro quartil $Q_3$ (borda superior da caixa)
  • Valor máximo (dentro das hastes)
Intervalo interquartílico: $$\text{IIQ} = Q_3 - Q_1$$

Hastes: até $1{,}5 \times \text{IIQ}$ além das bordas da caixa

Pontos além das hastes: potenciais valores atípicos

A mediana é um descritor robusto de localização central — menos influenciada por valores extremos do que a média aritmética

Diagrama de dispersão: relação bivariada

Cada ponto representa uma observação. O padrão formado pelos pontos revela:

  • Direção: associação positiva ou negativa entre $x$ e $y$
  • Força: pontos próximos de uma linha (forte) ou amplamente dispersos (fraca)
  • Forma: linear ou curvilínea
ggplot(sparrows, aes(x = tarsus, y = wingcrd, color = factor(Sex))) +
  geom_point(alpha = 0.4) +
  labs(x = "Tarso (mm)", y = "Comprimento de asa (mm)", color = "Sexo") +
  theme_bw()
Mapear uma variável categórica para a cor dos pontos acrescenta uma terceira dimensão ao gráfico

Gráfico de pares: estrutura multivariada

O que é o gráfico de pares:

Uma grade de gráficos com todos os diagramas de dispersão possíveis entre $p$ variáveis.

Com $p$ variáveis: $\dfrac{p(p-1)}{2}$ pares distintos

Diagonal: distribuição de cada variável individualmente

O que permite identificar:
  • Pares de variáveis com associação mais forte
  • Variáveis praticamente independentes
  • Distribuições assimétricas que podem requerer transformação
  • Diferenças entre grupos nas relações
library(GGally)
sparrows |>
  select(wingcrd, tarsus, head, wt) |>
  ggpairs(aes(alpha = 0.3))

Transformações logarítmicas

Linearizar relações alométricas em ciências do mar

Relações alométricas em organismos marinhos

Em ecologia marinha, biomassa e comprimento se relacionam como lei de potência:

$$\text{biomassa} = \beta_0 \cdot \text{comprimento}^{\beta_1}$$
Coeficiente alométrico $\beta_1$:
  • $\beta_1 = 3$: crescimento isométrico — biomassa cresce com o cubo do comprimento linear
  • $\beta_1 > 3$: alometria positiva — crescimento relativo da biomassa supera o isométrico
  • $\beta_1 < 3$: alometria negativa — crescimento relativo da biomassa inferior ao isométrico

Dataset: Clams.txt — Dados: Zuur et al. (2009)

A transformação logarítmica lineariza a relação

Aplicando logaritmo natural em ambos os lados:

$$\ln(\text{biomassa}) = \ln(\beta_0) + \beta_1 \cdot \ln(\text{comprimento})$$
Na escala original

Curva com crescimento acelerado. Dispersão crescente com o comprimento.

Na escala logarítmica

Relação linear. $\beta_1$ é a inclinação da reta ajustada. $\ln(\beta_0)$ é o intercepto.

Dois efeitos da transformação logarítmica

1. Linearização

Relações de potência tornam-se relações lineares na escala log-log, facilitando a avaliação da força da associação e a modelagem por regressão

2. Redução da assimetria

Variáveis com distribuição assimétrica à direita (como biomassa) ficam mais simétricas na escala logarítmica, com dispersão mais uniforme ao longo do eixo $x$

Atenção: o logaritmo é indefinido para valores zero ou negativos. Contagens com zeros exigem tratamento especial, como $\ln(y + 1)$, com impacto na interpretação do modelo.

Variação sazonal com facetas

A variável MONTH em Clams.txt permite verificar se o padrão alométrico varia ao longo do ano.

facet_wrap(~ MONTH) divide o gráfico em painéis, um por mês, com escalas comparáveis.

ggplot(clams, aes(x = LNLENGTH, y = LNAFD)) +
  geom_point(alpha = 0.3, size = 1.2) +
  geom_smooth(method = "lm", se = FALSE, color = "#e6a073") +
  facet_wrap(~ MONTH) +
  labs(x = "ln(Comprimento)", y = "ln(Biomassa - AFD)") +
  theme_bw()
Facetas permitem verificar se um padrão global é consistente entre subgrupos ou varia sistematicamente entre eles

Enquete 2

O gráfico de biomassa contra comprimento de mariscos mostra uma curva com crescimento acelerado. Após aplicar logaritmo natural em ambas as variáveis, o gráfico resultante deve ser:

(A) Ainda curvilíneo, com crescimento mais lento

(B) Linear, com os pontos distribuídos em torno de uma linha reta

(C) Horizontal, indicando independência entre as variáveis

(D) Impossível de determinar sem conhecer o valor de $\beta_1$

Variação entre unidades amostrais

Padrões espaciais na bioluminescência oceânica

Dataset: bioluminescência oceânica

Variáveis principais
  • SampleDepth — profundidade de amostragem (m)
  • Sources — contagem de fontes bioluminescentes
  • Station — identificador de estação
  • Latitude, Longitude
  • BottomDepth — profundidade do fundo (m)
Pergunta analítica central:

A relação entre profundidade e bioluminescência é a mesma em todas as estações oceânicas, ou existe variação sistemática entre locais?

Esta pergunta motiva os modelos hierárquicos das aulas 14–15

Dados: Zuur et al. (2009) — Atlântico Norte

O gráfico global pode ser enganoso

O gráfico global (todas as estações juntas) mostra a tendência média, mas pode esconder variação importante entre locais.

# Gráfico global: todas as estações juntas
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
  geom_point(alpha = 0.3, size = 1) +
  labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
  theme_bw()

# Gráfico por estação: um painel por local
ggplot(isit, aes(x = SampleDepth, y = Sources)) +
  geom_point(alpha = 0.3, size = 1) +
  facet_wrap(~ Station) +
  labs(x = "Profundidade (m)", y = "Fontes bioluminescentes") +
  theme_bw()
Estações com padrões muito distintos das demais motivam modelos que estimam variação entre grupos de forma explícita

Valores atípicos e decisões analíticas

Identificar não é o mesmo que excluir

Como gráficos mostram valores atípicos

Valores atípicos aparecem de formas distintas nos diferentes tipos de gráficos:

Histograma

Barras isoladas nas extremidades, separadas do padrão geral

Diagrama de caixa

Pontos individuais além das hastes (a mais de 1,5 × IIQ das bordas)

Diagrama de dispersão

Pontos afastados da nuvem geral, especialmente influentes sobre a reta ajustada

Identificação não implica exclusão

Três possibilidades ao identificar um valor atípico:
  1. Verificar se o valor resulta de erro de registro ou digitação — se sim, corrigir ou excluir com justificativa documentada
  2. Se o valor for biologicamente plausível, mantê-lo na análise e verificar sua influência sobre o modelo ajustado
  3. Ajustar o modelo com e sem o ponto suspeito e comparar as estimativas — se a diferença for substancial, reportar ambas as análises

Recapitulação

Conceitos centrais da Aula 07

O que vimos nesta aula

Conceito Gráfico Função em R
Distribuição univariada Histograma, curva de densidade geom_histogram(), geom_density()
Comparação entre grupos Diagrama de caixa geom_boxplot()
Relação bivariada Diagrama de dispersão geom_point()
Estrutura multivariada Gráfico de pares GGally::ggpairs()
Relação alométrica Dispersão na escala log-log geom_point() + colunas LN*
Variação entre grupos Gráfico com facetas facet_wrap()

Dúvidas?