De Contagens a Probabilidades

A lógica da atualização bayesiana

Onde paramos na Aula 01

✅ Formulamos duas hipóteses sobre o dado mental ($H_1$: uniforme, $H_2$: viés central)

✅ Calculamos a verossimilhança de cada hipótese: $\mathcal{L}(H;\text{dados}) = P(\text{dados} \mid H)$

✅ Comparamos as duas hipóteses pela razão de verossimilhanças: $$\Lambda = \frac{\mathcal{L}(H_2;\text{dados})}{\mathcal{L}(H_1;\text{dados})}$$

$\Lambda > 1$ indica que os dados são mais compatíveis com $H_2$ do que com $H_1$

A pergunta desta aula

Na Aula 01: "qual das duas hipóteses é mais plausível?"

Aula 02: "Como a evidência observada distribui a plausibilidade entre todas as hipóteses possíveis ao mesmo tempo?"

Essa extensão nos conduz ao Teorema de Bayes e à inferência bayesiana

Roteiro da Aula

O problema das bolinhas: 5 hipóteses concorrentes
Contagem de caminhos: a lógica de medir plausibilidade
Da contagem à verossimilhança e ao modelo binomial
Os três componentes da inferência bayesiana
Atualização sequencial: a posteriori vira priori
Influência da distribuição a priori

O Problema das Bolinhas

Cinco hipóteses sobre uma caixa desconhecida

A caixa desconhecida

Uma caixa contém exatamente 4 bolinhas, cada uma azul 🔵 ou branca ⚪.

A composição da caixa é desconhecida. Com 4 bolinhas de 2 cores, há 5 configurações possíveis:

Hipótese	Composição	N azuis	$p = N/4$
$H_0$	⚪⚪⚪⚪	0	0
$H_1$	🔵⚪⚪⚪	1	0,25
$H_2$	🔵🔵⚪⚪	2	0,50
$H_3$	🔵🔵🔵⚪	3	0,75
$H_4$	🔵🔵🔵🔵	4	1

Dados: McElreath, 2020

O procedimento experimental

🔄 A caixa é sacudida.

✋ Uma bolinha é retirada pela abertura.

👁️ Sua cor é registrada.

↩️ A bolinha retorna à caixa antes da próxima retirada.

Independência: a reposição garante que cada retirada seja independente das anteriores. A composição da caixa não muda entre sorteios.

A sequência observada

$$\text{1ª retirada: 🔵} \qquad \text{2ª retirada: ⚪} \qquad \text{3ª retirada: 🔵}$$

Pergunta: quais hipóteses são mais compatíveis com essa sequência?
Como quantificar a compatibilidade de cada hipótese com os dados?

A lógica da contagem

Sob $H_1 =$ [🔵⚪⚪⚪]: há 4 bolinhas, cada uma com a mesma chance de ser retirada.

1 maneira de obter 🔵 (há 1 bolinha azul)
3 maneiras de obter ⚪ (há 3 bolinhas brancas, cada uma distinta)

Regra do produto: quando dois eventos são independentes, o número de maneiras de obter ambos em sequência é o produto dos números de maneiras de cada um.
Para três retiradas: $a \times b \times c$

Sob $H_1$, para a sequência [🔵, ⚪, 🔵]:
$1 \times 3 \times 1 = \mathbf{3}$ caminhos compatíveis

Contagem para todas as hipóteses

Sequência observada: [🔵, ⚪, 🔵]

Hipótese	$N_j$ azuis	Man. 🔵	Man. ⚪	Man. 🔵	Caminhos compatíveis
$H_0$	0	0	4	0	$0 \times 4 \times 0 = \mathbf{0}$
$H_1$	1	1	3	1	$1 \times 3 \times 1 = \mathbf{3}$
$H_2$	2	2	2	2	$2 \times 2 \times 2 = \mathbf{8}$
$H_3$	3	3	1	3	$3 \times 1 \times 3 = \mathbf{9}$
$H_4$	4	4	0	4	$4 \times 0 \times 4 = \mathbf{0}$

$H_0$ e $H_4$ ficam com zero caminhos. Os dados os eliminam logicamente. As hipóteses compatíveis são $H_1$, $H_2$ e $H_3$, com 3, 8 e 9 caminhos.

Da Contagem à Verossimilhança

O modelo binomial e a verossimilhança formal

Contagens são proporcionais à verossimilhança

Sob $H_j$ com $N_j$ bolinhas azuis, a probabilidade de retirar azul é $p_j = N_j / 4$.

Para a sequência [🔵, ⚪, 🔵]:

$$\mathcal{L}(H_j;\text{dados}) = P(\text{dados} \mid H_j) = p_j \times (1 - p_j) \times p_j = p_j^2(1 - p_j)$$

Hipótese	$p_j$	Caminhos / 64	$\mathcal{L}(H_j) = p_j^2(1-p_j)$
$H_0$	$0$	$0/64$	$0$
$H_1$	$1/4$	$3/64$	$(1/4)^2 \times (3/4) = 3/64$
$H_2$	$1/2$	$8/64$	$(1/2)^2 \times (1/2) = 8/64$
$H_3$	$3/4$	$9/64$	$(3/4)^2 \times (1/4) = 9/64$
$H_4$	$1$	$0/64$	$0$

As contagens divididas por 64 coincidem exatamente com as verossimilhanças. Contar caminhos e calcular verossimilhanças são formas equivalentes de medir compatibilidade.

Probabilidade × Verossimilhança

Probabilidade

Hipótese fixa, dados variam.
Dado o modelo, qual a chance deste resultado?

$$P(\text{dados} \mid H_j)$$

Verossimilhança

Dados fixos, hipótese varia.
Dado que observamos estes dados, quão compatível é cada hipótese?

$$\mathcal{L}(H_j;\text{dados})$$

O valor numérico é o mesmo. A diferença está na interpretação: a verossimilhança mede a plausibilidade de hipóteses, não de resultados.

O modelo binomial

Nas seções anteriores calculamos a verossimilhança da sequência específica [🔵, ⚪, 🔵].

Para a inferência sobre a composição da caixa, o que importa é o número total de azuis, independentemente da ordem.

Em três retiradas, há $2^3 = 8$ sequências possíveis. Três delas contêm exatamente 2 azuis:

⚪🔵🔵 | 🔵⚪🔵 | 🔵🔵⚪

O coeficiente binomial $\binom{n}{k}$ conta o número dessas sequências:

$$\binom{n}{k} = \frac{n!}{k!\,(n-k)!} \qquad \binom{3}{2} = 3$$

A fórmula binomial

$$P(k \mid n,\, p) = \binom{n}{k}\, p^k\, (1-p)^{n-k}$$

Onde:

$k \in \{0, 1, \ldots, n\}$ — número de azuis observados
$n$ — número total de retiradas
$p$ — probabilidade de azul em uma retirada
$\binom{n}{k}$ — número de sequências distintas com $k$ azuis

Com os dados fixos ($k = 2$, $n = 3$), essa expressão lida como função de $p$ é a verossimilhança binomial: $$\mathcal{L}(p;\, k=2,\, n=3) = \binom{3}{2}\, p^2\, (1-p) = 3\, p^2\, (1-p)$$

Verossimilhança binomial: valores para cada hipótese

$k = 2$ azuis em $n = 3$ retiradas

Hipótese	$p$	$\mathcal{L}(p;\, k=2,\, n=3) = 3\,p^2(1-p)$	Valor
$H_0$	$0$	$3 \times 0^2 \times 1 = 0$	$0$
$H_1$	$1/4$	$3 \times (1/4)^2 \times (3/4) = 9/64$	$\approx 0{,}141$
$H_2$	$1/2$	$3 \times (1/2)^2 \times (1/2) = 3/8$	$0{,}375$
$H_3$	$3/4$	$3 \times (3/4)^2 \times (1/4) = 27/64$	$\approx 0{,}422$
$H_4$	$1$	$3 \times 1^2 \times 0 = 0$	$0$

$H_3$ tem a maior verossimilhança. A verossimilhança sozinha, porém, não é suficiente para a inferência completa. É preciso combinar com o conhecimento prévio.

Atualização Bayesiana

Priori, verossimilhança e posteriori

Os três componentes da inferência bayesiana

Distribuição a priori — $P(H_j)$
Grau de crença em cada hipótese antes de observar os dados. Pode refletir conhecimento anterior ou, na ausência de informação, uma distribuição uniforme.

Verossimilhança — $\mathcal{L}(H_j;\text{dados})$
Compatibilidade de cada hipótese com os dados observados. Reflete o que os dados dizem, independentemente de qualquer crença prévia.

Distribuição a posteriori — $P(H_j \mid \text{dados})$
Grau de crença em cada hipótese depois de incorporar os dados. É o resultado da atualização e representa o conhecimento acumulado.

O Teorema de Bayes

$$P(H_j \mid \text{dados}) = \frac{P(H_j) \times \mathcal{L}(H_j;\text{dados})}{\displaystyle\sum_{i=0}^{4} P(H_i) \times \mathcal{L}(H_i;\text{dados})}$$

O denominador é uma constante de normalização que garante que as probabilidades a posteriori somem 1.

O que governa as diferenças relativas entre as hipóteses é o numerador:

$$P(H_j \mid \text{dados}) \propto P(H_j) \times \mathcal{L}(H_j;\text{dados})$$

Posteriori ∝ priori × verossimilhança

Cálculo com distribuição a priori uniforme

$P(H_j) = 1/5$ para todo $j$ — sequência [🔵, ⚪, 🔵]

Hipótese	$P(H_j)$	$\mathcal{L}(H_j)$	Produto	$P(H_j \mid \text{dados})$
$H_0$	$1/5$	$0$	$0/320$	$0{,}000$
$H_1$	$1/5$	$3/64$	$3/320$	$0{,}150$
$H_2$	$1/5$	$8/64$	$8/320$	$0{,}400$
$H_3$	$1/5$	$9/64$	$9/320$	$0{,}450$
$H_4$	$1/5$	$0$	$0/320$	$0{,}000$
Soma	$1{,}000$		$20/320$	$1{,}000$

Com a distribuição a priori uniforme, o fator $1/5$ se cancela na normalização. A distribuição a posteriori é diretamente proporcional às verossimilhanças. $H_3$ lidera com $0{,}450$, seguida de $H_2$ com $0{,}400$.

Calculando em R: priori uniforme


# Proporção de bolinhas azuis em cada hipótese
p <- c(0, 1/4, 2/4, 3/4, 4/4)

# Verossimilhança: probabilidade de 2 azuis em 3 retiradas
likelihood <- dbinom(x = 2, size = 3, prob = p)

# Distribuição a priori uniforme
prior <- rep(1/5, 5)

# Produto não normalizado
nao_normalizado <- prior * likelihood

# Distribuição a posteriori
posterior <- nao_normalizado / sum(nao_normalizado)

# Resultado
data.frame(
  hipotese   = paste0("H", 0:4),
  prior      = round(prior, 3),
  verossim   = round(likelihood, 3),
  posteriori = round(posterior, 3)
)

Atualização Sequencial

A posteriori de hoje é a priori de amanhã

Uma quarta retirada: 🔵

Usamos a distribuição a posteriori de antes como nova distribuição a priori. A verossimilhança de uma nova observação 🔵 é simplesmente $p_j$.

Hipótese	Priori (post. anterior)	$\mathcal{L}(H_j;\text{🔵}) = p_j$	Produto	Posteriori
$H_0$	$0{,}000$	$0{,}000$	$0{,}0000$	$0{,}000$
$H_1$	$0{,}150$	$0{,}250$	$0{,}0375$	$0{,}065$
$H_2$	$0{,}400$	$0{,}500$	$0{,}2000$	$0{,}348$
$H_3$	$0{,}450$	$0{,}750$	$0{,}3375$	$0{,}587$
$H_4$	$0{,}000$	$1{,}000$	$0{,}0000$	$0{,}000$
Soma	$1{,}000$		$0{,}5750$	$1{,}000$

$H_3$ sobe de $0{,}450$ para $0{,}587$ após a quarta retirada azul. $H_2$ cede terreno ($0{,}400 \to 0{,}348$), mas permanece plausível.

Atualização sequencial em R


# Usando a posteriori anterior como nova priori
prior_atualizada <- posterior   # do bloco anterior

# Nova observação: uma bolinha azul (verossimilhança = p)
nova_likelihood <- p

# Nova distribuição a posteriori
nao_norm_2  <- prior_atualizada * nova_likelihood
posterior_2 <- nao_norm_2 / sum(nao_norm_2)

# Equivalência: calcular do zero com 4 observações
# [azul, branca, azul, azul] = 3 azuis em 4 retiradas
posterior_direto <- dbinom(x = 3, size = 4, prob = p)
posterior_direto <- posterior_direto / sum(posterior_direto)

# Comparação (devem ser iguais)
round(posterior_2, 3)
round(posterior_direto, 3)

As duas abordagens produzem o mesmo resultado porque as observações são independentes. Atualizar sequencialmente equivale a calcular do zero com todos os dados de uma só vez.

Influência da distribuição a priori

Um fornecedor informa que:

$H_1$ é produzida com 3 vezes mais frequência que $H_2$
$H_3$ é produzida com a metade da frequência de $H_2$
$H_0$ e $H_4$ não existem no catálogo do fornecedor

Hipótese	Priori informativa	$\mathcal{L}(H_j)$	Produto	Posteriori
$H_0$	$0$	$0$	$0$	$0{,}000$
$H_1$	$6/9 \approx 0{,}667$	$3/64$	$18/576$	$\approx 0{,}419$
$H_2$	$2/9 \approx 0{,}222$	$8/64$	$16/576$	$\approx 0{,}372$
$H_3$	$1/9 \approx 0{,}111$	$9/64$	$9/576$	$\approx 0{,}209$
$H_4$	$0$	$0$	$0$	$0{,}000$

O papel da distribuição a priori

Priori uniforme

Nenhum conhecimento prévio.
Todas as hipóteses partem com o mesmo peso.
A distribuição a posteriori reflete apenas os dados.

Distribuição a priori informativa

Conhecimento prévio é incorporado.
Hipóteses com maior peso inicial mantêm vantagem, especialmente com poucos dados.

Com dados suficientes, pesquisadores que partem de distribuições a priori diferentes chegam a distribuições a posteriori semelhantes. Com poucas observações, a distribuição a priori exerce influência considerável. Explicitar e justificar a distribuição a priori é parte fundamental da análise bayesiana.

O ciclo da inferência bayesiana

1. Definir as hipóteses e os parâmetros que as representam ($p$ ou $N$)

2. Estabelecer a distribuição a priori — codificar o conhecimento disponível antes dos dados

3. Calcular a verossimilhança de cada hipótese dado os dados observados

4. Aplicar o Teorema de Bayes para obter a distribuição a posteriori

5. Atualizar com novas observações — a distribuição a posteriori torna-se a nova distribuição a priori

Recapitulando a Aula 02

Conceito	O que aprendemos	Fórmula / notação
Contagem de caminhos	Mede a compatibilidade entre hipótese e dados pela regra do produto	$N_j \times (4-N_j) \times N_j$ (para [🔵, ⚪, 🔵])
Distribuição Binomial	Probabilidade de $k$ azuis em $n$ retiradas independentes	$P(k \mid n, p) = \binom{n}{k} p^k (1-p)^{n-k}$
Distribuição a priori	Codifica o conhecimento antes dos dados	$P(H_j)$ — uniforme ou informativa
Teorema de Bayes	Combina priori e verossimilhança para obter a posteriori	$P(H_j \mid \text{dados}) \propto P(H_j) \times \mathcal{L}(H_j;\text{dados})$
Atualização sequencial	A posteriori de uma etapa vira a priori da próxima	Equivalente a usar todos os dados de uma vez
Influência da priori	A priori importa mais com poucos dados; dilui-se com mais dados	Justificar explicitamente a escolha da distribuição a priori

De Contagens a Probabilidades

A lógica da atualização bayesiana

Onde paramos na Aula 01

A pergunta desta aula

Roteiro da Aula

O Problema das Bolinhas

Cinco hipóteses sobre uma caixa desconhecida

A caixa desconhecida

O procedimento experimental

A sequência observada

A lógica da contagem

Contagem para todas as hipóteses

Da Contagem à Verossimilhança

O modelo binomial e a verossimilhança formal

Contagens são proporcionais à verossimilhança

Probabilidade × Verossimilhança

Probabilidade

Verossimilhança

O modelo binomial

A fórmula binomial

Verossimilhança binomial: valores para cada hipótese

Atualização Bayesiana

Priori, verossimilhança e posteriori

Os três componentes da inferência bayesiana

O Teorema de Bayes

Cálculo com distribuição a priori uniforme

Calculando em R: priori uniforme

Atualização Sequencial

A posteriori de hoje é a priori de amanhã

Uma quarta retirada: 🔵

Atualização sequencial em R

Influência da distribuição a priori

O papel da distribuição a priori

Priori uniforme

Distribuição a priori informativa

O ciclo da inferência bayesiana

Recapitulando a Aula 02

🔵Dúvidas?

🔵
Dúvidas?