Modelos Probabilísticos Contínuos

A Distribuição Normal como modelo preditivo

O que vimos nas aulas anteriores

✅ Modelos probabilísticos para variáveis discretas e contáveis: número de sucessos em $n$ ensaios, contagem de ocorrências

✅ Para cada valor $k$, existe uma probabilidade $P(X = k)$: $$P(X = k) = \binom{n}{k}\, p^k\,(1-p)^{n-k}$$

✅ A soma sobre todos os valores possíveis é exatamente 1

✅ Aproximação por grade: obtendo a distribuição a posteriori por simulação numérica

A pergunta desta aula

Nas aulas anteriores: variáveis como número de sucessos em $n$ ensaios ou contagem de eventos. Para cada valor $k$: $P(X = k)$ é um número positivo e a soma sobre todos os valores é 1.

Aula 05: como descrever a probabilidade de variáveis como altura (cm), temperatura da superfície do mar (°C) ou concentração de oxigênio dissolvido (mg/L)?

Em uma escala contínua, a probabilidade de qualquer valor pontual exato é zero. A ferramenta adequada é a função densidade de probabilidade.

Roteiro da Aula

De variáveis discretas a variáveis contínuas
A Distribuição Normal: construção, parâmetros e propriedades
Calculando probabilidades com pnorm() e qnorm()
O modelo bayesiano para alturas
Distribuição preditiva a priori: verificando as escolhas a priori

De Variáveis Discretas a Variáveis Contínuas

Função massa e função densidade de probabilidade

Função massa de probabilidade

Para variáveis aleatórias discretas, a função massa de probabilidade (FMP) atribui uma probabilidade a cada valor possível.

Para o número de sucessos em $n$ ensaios com probabilidade $p$:

$$P(X = k) = \binom{n}{k}\, p^k\, (1-p)^{n-k}, \quad k \in \{0, 1, \ldots, n\}$$

Cada valor $P(X = k)$ está no intervalo $[0, 1]$ e a soma sobre todos os valores possíveis é exatamente 1: $$\sum_{k=0}^{n} P(X = k) = 1$$ A probabilidade de qualquer valor específico é um número bem definido e positivo.

O problema das variáveis contínuas

Se $X$ é a altura de um adulto escolhido ao acaso, qual é $P(X = 168{,}3 \text{ cm})$?

Em uma escala contínua, existem infinitos valores possíveis em qualquer intervalo entre dois números reais. A probabilidade de qualquer valor pontual exato é zero.

A quantidade relevante passa a ser a probabilidade de um intervalo:

$$P(a \leq X \leq b)$$

A ferramenta que organiza essa informação é a função densidade de probabilidade (FDP), denotada $f(x)$.

Definição: função densidade de probabilidade

Uma função $f(x)$ é uma função densidade de probabilidade (FDP) se satisfaz duas condições:

$f(x) \geq 0$ para todo $x$
$\displaystyle\int_{-\infty}^{+\infty} f(x)\, dx = 1$: a área total sob a curva é 1

A probabilidade de $X$ pertencer ao intervalo $[a, b]$ é a área sob a curva entre $a$ e $b$:

$$P(a \leq X \leq b) = \int_a^b f(x)\, dx$$

A probabilidade está sempre na área sob a curva, nunca na altura pontual da curva.

Densidade não é probabilidade

O valor $f(x)$ não é a probabilidade de $X = x$. É a densidade de probabilidade no ponto $x$: a concentração de probabilidade por unidade da variável naquele ponto.

Como consequência, $f(x)$ pode ser maior do que 1.

Exemplo: Distribuição Normal com $\mu = 0$ e $\sigma = 0{,}1$:

dnorm(0, mean = 0, sd = 0.1)
# [1] 3.989423

O valor 3,99 não viola nenhuma propriedade. A área total sob essa curva estreita e alta ainda integra para 1. A probabilidade está sempre na área, nunca na altura pontual.

Enquete

Uma Distribuição Normal com $\mu = 160$ e $\sigma = 10$ atribui probabilidade zero ao valor exato $x = 160$. Como então a distribuição pode ter sua maior "concentração" exatamente em 160?

(A) A afirmação está errada: $P(X = 160) > 0$ em distribuições contínuas

(B) A densidade $f(160)$ é máxima nesse ponto, mesmo que a probabilidade pontual seja zero

(D) A área sob a curva em $x = 160$ é finita e positiva

A Distribuição Normal

Construção, parâmetros e propriedades

Construção intuitiva da curva

Uma candidata natural para descrever uma curva simétrica em formato de sino é a função com expoente quadrático negativo:

$$f(x) \propto e^{-x^2}$$

Para deslocar o centro para $\mu$ e controlar a abertura com $\sigma$, substitui-se $x$ por $(x - \mu)/\sigma$:

$$f(x) \propto \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$$

O denominador $2\sigma^2$ regula a velocidade de decaimento. A constante $1/(\sigma\sqrt{2\pi})$ garante que a área total seja 1.

A função densidade de probabilidade

Uma variável aleatória $X$ tem Distribuição Normal com média $\mu$ e desvio padrão $\sigma$ quando sua FDP é: $$f(x \mid \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}\, \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad x \in (-\infty, +\infty)$$

Notação padrão: $X \sim \text{Normal}(\mu,\, \sigma)$

Os parâmetros $\mu$ e $\sigma$ determinam completamente a forma e a posição da curva.

Interpretação dos parâmetros

O parâmetro $\mu$ (média)

Controla a localização da curva.
Ponto de máxima densidade.
A Distribuição Normal é perfeitamente simétrica ao redor de $\mu$.
Média, mediana e moda coincidem em $\mu$.
Alterar $\mu$ desloca toda a curva horizontalmente sem alterar sua forma.

O parâmetro $\sigma$ (desvio padrão)

Controla a dispersão da distribuição.
$\sigma$ pequeno: curva estreita e alta.
$\sigma$ grande: curva larga e baixa.
Em ambos os casos, a área total permanece 1.

Aumentar $\sigma$ espalha a probabilidade por uma faixa mais ampla sem alterar a probabilidade total.

Regra empírica da Distribuição Normal

A simetria da Distribuição Normal implica uma distribuição específica de probabilidade ao redor de $\mu$:

Intervalo	Probabilidade aproximada
$[\mu - \sigma,\; \mu + \sigma]$	68%
$[\mu - 2\sigma,\; \mu + 2\sigma]$	95%
$[\mu - 3\sigma,\; \mu + 3\sigma]$	99,7%

Se $X \sim \text{Normal}(160, 10)$: aproximadamente 95% das observações esperadas estão no intervalo $[140, 180]$. Valores fora de $[130, 190]$ são raros, com menos de 0,3% de probabilidade.

Calculando Probabilidades

`pnorm()`, `qnorm()` e as quatro funções em R

Probabilidades de intervalo com `pnorm()`

A probabilidade de $X$ estar no intervalo $[a, b]$ é a área sob a curva entre $a$ e $b$.

A função pnorm(q, mean, sd) calcula a probabilidade acumulada $P(X \leq q)$:

$$P(a \leq X \leq b) = \texttt{pnorm}(b,\, \mu,\, \sigma) - \texttt{pnorm}(a,\, \mu,\, \sigma)$$

Exemplo 1. Comprimento de peixe $X \sim \text{Normal}(30, 5)$ cm. Probabilidade de comprimento entre 25 e 40 cm:

pnorm(40, mean = 30, sd = 5) - pnorm(25, mean = 30, sd = 5)
# [1] 0.8185946

Exemplo 2. Probabilidade de comprimento acima de 38 cm:

1 - pnorm(38, mean = 30, sd = 5)
# [1] 0.05479929

Quantis com `qnorm()`

A função qnorm(p, mean, sd) resolve o problema inverso: dado $P(X \leq q) = p$, qual o valor de $q$?

$$q_{p} = \texttt{qnorm}(p,\, \mu,\, \sigma) \quad \text{tal que} \quad P(X \leq q_p) = p$$

Exemplo. Para $X \sim \text{Normal}(30, 5)$, qual o comprimento abaixo do qual estão 90% dos indivíduos?

qnorm(0.90, mean = 30, sd = 5)
# [1] 36.40776

90% dos peixes têm comprimento inferior a 36,4 cm nesse modelo.

As quatro funções da Distribuição Normal em R

Função	Descrição	Responde a
`dnorm(x, mean, sd)`	Densidade $f(x)$ no ponto $x$	Qual a densidade em $x$?
`pnorm(q, mean, sd)`	Probabilidade acumulada $P(X \leq q)$	Qual a probabilidade até $q$?
`qnorm(p, mean, sd)`	Quantil $q$ tal que $P(X \leq q) = p$	Qual o valor para $P = p$?
`rnorm(n, mean, sd)`	Gera $n$ amostras aleatórias	Como simular $n$ valores?

dnorm retorna densidade (pode ser maior que 1). pnorm retorna probabilidade (sempre entre 0 e 1).

O Modelo Bayesiano para Alturas

Distribuições a priori e o modelo formal

Motivação: alturas de adultos

A distribuição de alturas de adultos em uma população apresenta um padrão reconhecível:

A maioria tem alturas intermediárias
Poucos indivíduos são muito altos ou muito baixos
A distribuição é aproximadamente simétrica ao redor de um valor típico

Dataset Howell1 (Dados: McElreath, 2020)
544 adultos !Kung San do deserto de Kalahari
Variáveis: height (cm), weight (kg), age (anos), male (1/0)
Histograma das alturas: forma aproximadamente simétrica em formato de sino

A Distribuição Normal é o modelo probabilístico padrão para variáveis biológicas simétricas como a altura corporal.

O modelo formal

O modelo de probabilidade para a altura $Y$ de um adulto: $$Y \sim \text{Normal}(\mu,\, \sigma)$$

$\mu$: altura média na população (desconhecida)

$\sigma$: variabilidade típica das alturas ao redor de $\mu$ (desconhecida)

Na abordagem bayesiana, os parâmetros $\mu$ e $\sigma$ são variáveis aleatórias com suas próprias distribuições de probabilidade.

As distribuições a priori: $$\mu \sim \text{Normal}(\mu_0,\, \sigma_0)$$ $$\sigma \sim \text{Exponencial}(\lambda)$$

Distribuição a priori para $\mu$

$$\mu \sim \text{Normal}(160,\, 20)$$

Cobre aproximadamente $[120,\, 200]$ cm (±2$\sigma_0$)

Permite valores fora dessa faixa

Concentra a probabilidade onde alturas médias adultas são biologicamente razoáveis

Distribuição a priori fracamente informativa:

Incorpora o conhecimento de que alturas médias humanas não estão abaixo de 80 cm nem acima de 240 cm.

Reconhece a incerteza sobre a população específica sendo estudada.

Distribuição a priori para $\sigma$

$$\sigma \sim \text{Exponencial}(0{,}1)$$

Suporte em $(0,\, +\infty)$: garante $\sigma > 0$

Média: $1/0{,}1$ = 10 cm

Cauda longa: permite variabilidade maior se os dados exigirem

Concentra a probabilidade entre 0 e 30 cm

Por que não Normal como distribuição a priori para $\sigma$?

A Distribuição Normal permite valores negativos.
Um desvio padrão negativo é impossível.

A Distribuição Exponencial, com suporte em $[0, +\infty)$, respeita essa restrição natural.

O modelo generativo completo

Os três níveis do modelo: $$Y \sim \text{Normal}(\mu,\, \sigma) \quad \text{(distribuição dos dados)}$$ $$\mu \sim \text{Normal}(160,\, 20) \quad \text{(distribuição a priori para } \mu \text{)}$$ $$\sigma \sim \text{Exponencial}(0{,}1) \quad \text{(distribuição a priori para } \sigma \text{)}$$

Esse conjunto de equações define um modelo generativo: especificado completamente, ele pode gerar dados simulados com a mesma estrutura probabilística que os dados reais são esperados seguir.

As distribuições a priori para $\mu$ e $\sigma$ representam o que o modelo "sabe" antes de ver qualquer observação.

Distribuição Preditiva a Priori

Verificando as escolhas a priori antes dos dados

O que é a distribuição preditiva a priori

A distribuição preditiva a priori é a distribuição dos valores de $Y$ que o modelo espera gerar antes de observar qualquer dado.

Formalmente: $$P(Y) = \int\!\int P(Y \mid \mu, \sigma)\, P(\mu)\, P(\sigma)\, d\mu\, d\sigma$$

Essa integral não precisa ser calculada analiticamente. O mesmo resultado se obtém por simulação em três passos.

Interpretação: "Se minhas distribuições a priori para $\mu$ e $\sigma$ estão corretas, que alturas devo esperar observar?"

Simulação em três passos

Algoritmo para gerar a distribuição preditiva a priori:

Sortear um valor de $\mu$ da distribuição a priori $\text{Normal}(160, 20)$
Sortear um valor de $\sigma$ da distribuição a priori $\text{Exponencial}(0{,}1)$
Gerar uma altura $Y$ da distribuição $\text{Normal}(\mu, \sigma)$

set.seed(2026)
N <- 2000

mu_sim    <- rnorm(N, mean = 160, sd = 20)   # Passo 1
sigma_sim <- rexp(N, rate = 0.1)             # Passo 2
y_sim     <- rnorm(N, mean = mu_sim,
                      sd = sigma_sim)        # Passo 3

hist(y_sim, freq = FALSE, breaks = 50,
     xlab = "Altura simulada (cm)", ylab = "Densidade",
     main = "Distribuição preditiva a priori — alturas")

Interpretando a distribuição preditiva a priori

O histograma responde: "Se minhas distribuições a priori para $\mu$ e $\sigma$ estão corretas, que alturas devo esperar observar?"

Verificações úteis ao analisar o histograma:

A distribuição cobre alturas razoáveis para adultos humanos (aproximadamente 100 a 220 cm)?
O modelo atribui probabilidade substancial a valores impossíveis, como alturas negativas ou acima de 3 metros?

Se a distribuição preditiva a priori contiver muitas alturas biologicamente impossíveis, as distribuições a priori para $\mu$ e $\sigma$ precisam ser revisadas antes de ajustar o modelo aos dados.

O perigo das distribuições a priori aparentemente não informativas

Exemplo: $\mu \sim \text{Normal}(160, 100)$ parece ampla e não informativa sobre $\mu$. No entanto, ela atribui probabilidade não negligenciável a valores de $\mu$ abaixo de zero e acima de 360 cm, resultando em alturas simuladas completamente fora do intervalo biologicamente possível.

Princípio geral: distribuições a priori fracamente informativas e cuidadosamente escolhidas são preferíveis a distribuições aparentemente não informativas que produzem predições implausíveis.

# Comparacao: priori mais dispersa para mu
mu_sim_amplo <- rnorm(N, mean = 160, sd = 100)
y_sim_amplo  <- rnorm(N, mean = mu_sim_amplo,
                         sd = sigma_sim)

Síntese

O que aprendemos hoje

Tema	Conceito central	Ferramenta em R
FDP	$P(a \leq X \leq b) = \int_a^b f(x)\, dx$; $f(x)$ pode ser maior que 1	`dnorm(x)`
Dist. Normal	$X \sim \text{Normal}(\mu, \sigma)$: $\mu$ = localização, $\sigma$ = dispersão	`dnorm, pnorm, qnorm, rnorm`
Regra 68-95-99.7	±1$\sigma$: 68%; ±2$\sigma$: 95%; ±3$\sigma$: 99,7%	`pnorm(μ ± kσ) - pnorm(μ - kσ)`
Modelo bayesiano	$Y \sim \text{Normal}(\mu, \sigma)$; priori para $\mu$ e $\sigma$	`rnorm, rexp`
Dist. preditiva a priori	Predições antes dos dados: verificação das distribuições a priori	`rnorm(N, mu_sim, sigma_sim)`