Leitura Prévia - Aula 02

De contagens a probabilidades: a lógica da atualização bayesiana

Prof. Fabio Cop (fcferreira@unifesp.br)

Instituto do Mar - Unifesp

Data de Publicação

29 de março de 2026

1 Introdução

Na Aula 01, contrastamos duas hipóteses sobre o comportamento humano ao simular mentalmente o resultado do lançamento de um dado. A hipótese $H_1$ previa que as escolhas seguiriam uma distribuição uniforme, enquanto $H_2$ previa um viés para valores centrais. Para decidir qual das duas era mais compatível com os dados, calculamos a verossimilhança de cada hipótese e a razão de verossimilhanças $\Lambda$. A comparação envolvia exatamente das hipóteses candidatas, e o foco estava na lógica de contrastá-las.

Nesta aula, ampliaremos esse raciocínio para permitir a comparação simultânea de várias hipóteses. Em vez de perguntar “qual das duas hipóteses é mais plausível?”, perguntaremos: “como a evidência observada distribui a plausibilidade entre todas as hipóteses possíveis?”

Essa extensão nos conduz à atualização bayesiana, o processo de combinar conhecimento prévio com evidências observadas para obter uma avaliação atualizada de cada hipótese. O formalismo que emerge é o Teorema de Bayes, e o exemplo que usaremos ao longo desta leitura é o de uma caixa contendo bolinhas de cores desconhecidas. O conteúdo abaixo é uma adaptação do capítulo 2 de McElreath (2020) que pode ser lido na íntegra neste link: Small Worlds and Large Worlds.

2 O problema das bolinhas

Imagine uma caixa contendo exatamente quatro bolinhas, cada uma podendo ser azul (🔵) ou branca (⚪). A composição da caixa é desconhecida. Com base apenas na informação de que há quatro bolinhas de duas cores possíveis, podemos listar cinco configurações:

Tabela 1: As cinco hipóteses sobre a composição da caixa. O número de bolinhas azuis é o parâmetro de interesse.

Hipótese	Composição	N azuis
$H_0$	[⚪⚪⚪⚪]	0
$H_1$	[🔵⚪⚪⚪]	1
$H_2$	[🔵🔵⚪⚪]	2
$H_3$	[🔵🔵🔵⚪]	3
$H_4$	[🔵🔵🔵🔵]	4

Cada hipótese representa uma conjectura sobre o parâmetro de interesse: o número $N$ de bolinhas azuis. Antes de realizarmos qualquer observação, não temos motivo para preferir uma hipótese sobre outra. O objetivo é descobrir quais configurações se tornam mais ou menos plausíveis à medida que coletamos evidências.

O procedimento de observação funciona assim: a caixa é sacudida, uma bolinha é retirada pela abertura, sua cor é registrada, e a bolinha retorna à caixa antes da próxima retirada. Cada retirada é independente das anteriores.

3 Contagem de possibilidades

3.1 A lógica da contagem

Para entender como as evidências nos ajudam a distinguir entre as hipóteses, começamos contando o número de maneiras pelas quais cada hipótese pode produzir uma observação.

Considere a hipótese $H_1 =$ [🔵⚪⚪⚪]. Há quatro bolinhas na caixa, e cada uma tem a mesma chance de ser retirada. Em uma única retirada, há 1 maneira de obter 🔵 e 3 maneiras de obter ⚪.

Essa contagem se generaliza para qualquer hipótese: sob $H_j$, com $N_j$ bolinhas azuis, há $N_j$ maneiras de obter 🔵 e $4 - N_j$ maneiras de obter ⚪.

Regra do produto

Quando dois eventos são independentes, o número de maneiras de obter ambos em sequência é o produto dos números de maneiras de obter cada um individualmente.

Se há $a$ maneiras de obter o primeiro resultado e $b$ maneiras de obter o segundo, há $a \times b$ maneiras de obter a sequência completa. Para três retiradas consecutivas, o total de caminhos é $a \times b \times c$.

3.2 Aplicando a regra a uma sequência de três retiradas

Suponha que realizamos três retiradas e observamos a sequência:

\[\text{1ª retirada: 🔵} \qquad \text{2ª retirada: ⚪} \qquad \text{3ª retirada: 🔵}\]

Para a hipótese $H_1 =$ [🔵⚪⚪⚪], contamos:

1ª retirada 🔵: pode ocorrer de 1 maneira (há 1 bolinha azul).
2ª retirada ⚪: pode ocorrer de 3 maneiras (há 3 bolinhas brancas).
3ª retirada 🔵: pode ocorrer de 1 maneira (há 1 bolinha azul).

Pela regra do produto: $1 \times 3 \times 1 = 3$ caminhos compatíveis com a sequência [🔵, ⚪, 🔵].

Cada caminho representa uma maneira logicamente possível de a hipótese gerar os dados observados. O número total de caminhos para três retiradas sob qualquer hipótese é $4^3 = 64$. Dos 64 caminhos de $H_1$, apenas 3 são compatíveis com a sequência observada.

As três bolinhas brancas na configuração [🔵⚪⚪⚪] são tratadas como objetos distintos, pois cada uma pode ser retirada em momentos diferentes. Por isso, há três maneiras de observar ⚪ nessa hipótese, e não apenas uma. Essa distinção é importante para a contagem ser correta.

3.3 Contagem para todas as hipóteses

Aplicando o mesmo raciocínio a todas as hipóteses, obtemos a Tabela 2.

Tabela 2: Número de caminhos compatíveis com a sequência [🔵, ⚪, 🔵] para cada hipótese.

Hipótese	$N_j$ azuis	Maneiras: 🔵	Maneiras: ⚪	Maneiras: 🔵	Caminhos compatíveis
$H_0$	0	0	4	0	$0 \times 4 \times 0 = 0$
$H_1$	1	1	3	1	$1 \times 3 \times 1 = 3$
$H_2$	2	2	2	2	$2 \times 2 \times 2 = 8$
$H_3$	3	3	1	3	$3 \times 1 \times 3 = 9$
$H_4$	4	4	0	4	$4 \times 0 \times 4 = 0$

As hipóteses $H_0$ e $H_4$ ficam com zero caminhos possíveis, pois $H_0$ não contém nenhuma bolinha azul e, portanto, não pode gerar uma sequência com azul, enquanto $H_4$ não contém nenhuma bolinha branca e não pode gerar a branca observada. Ambas são logicamente eliminadas pelos resultados observados. As hipóteses compatíveis são $H_1$, $H_2$ e $H_3$, com 3, 8 e 9 caminhos, respectivamente.

4 Construção das tabelas de probabilidades

4.1 Da contagem à verossimilhança

Os caminhos contados na seção anterior medem a compatibilidade entre cada hipótese e os dados. Para transformar essas contagens em probabilidades, observamos que, sob a hipótese $H_j$ com $N_j$ bolinhas azuis, a probabilidade de retirar uma bolinha azul em qualquer sorteio é:

\[p_j = \frac{N_j}{4}\]

Para a sequência [🔵, ⚪, 🔵], a probabilidade de obter exatamente essa sequência sob a hipótese $H_j$ é:

\[P(\text{dados} \mid H_j) = p_j \times (1 - p_j) \times p_j = p_j^2(1 - p_j)\]

Essa expressão calcula a probabilidade da sequência observada assumindo que a hipótese $H_j$ seja verdadeira.

Agora fazemos apenas uma mudança de perspectiva. Em vez de pensar nos dados como algo que poderia variar, tratamos a sequência observada como fixa e usamos a mesma expressão para comparar hipóteses diferentes. Quando interpretamos

\[P(\text{dados}\mid H_j)\]

como uma função da hipótese $H_j$, chamamos essa quantidade de verossimilhança:

\[\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)\]

Cada hipótese gera um número diferente de caminhos favoráveis que produzem a sequência observada. A verossimilhança corresponde simplesmente à fração desses caminhos em relação ao total de caminhos possíveis. Assim, a verossimilhança mede quão compatível cada hipótese é com os dados observados (Tabela 3).

Tabela 3: Verossimilhanças para cada hipótese, calculadas pela fórmula e pela contagem de caminhos.

Hipótese	$N_j$	$p_j$	Caminhos favoráveis	Total de caminhos	Verossimilhança $\mathcal{L}(H_j;\text{dados}) = p_j^2(1 - p_j)$
$H_0$	0	$0$	0	64	$0^2 \times 1 = 0/64 = 0$
$H_1$	1	$1/4$	3	64	$(1/4)^2 \times (3/4) = 3/64$
$H_2$	2	$1/2$	8	64	$(1/2)^2 \times (1/2) = 8/64$
$H_3$	3	$3/4$	9	64	$(3/4)^2 \times (1/4) = 9/64$
$H_4$	4	$1$	0	64	$1^2 \times 0 = 0/64 = 0$

A equivalência entre contagens e verossimilhanças

A última coluna da Tabela 3 mostra que os caminhos contados anteriormente divididos por 64 (o total de caminhos possíveis) coincidem exatamente com as verossimilhanças calculadas pela fórmula. As contagens são diretamente proporcionais às verossimilhanças. Multiplicar todas as contagens pelo mesmo fator ($1/64$, neste caso) não altera a comparação entre hipóteses. Contar caminhos e calcular verossimilhanças são duas formas equivalentes de medir a compatibilidade entre hipótese e dados.

5 O modelo binomial

5.1 De sequências a contagens

Nas seções anteriores, calculamos a verossimilhança para a sequência particular [🔵, ⚪, 🔵], em que a primeira retirada resultou em azul, a segunda em branca e a terceira em azul. Para cada hipótese, contamos os caminhos compatíveis com essa sequência específica.

Para fazer inferência sobre a composição da caixa, o que importa é o número total de bolinhas azuis observadas, independentemente da ordem em que apareceram. A pergunta relevante torna-se: “em três retiradas, quantas resultaram em 🔵?” Essa é a pergunta que o modelo binomial responde de forma geral.

5.2 Todos os resultados possíveis em três retiradas

Em três retiradas com reposição de uma caixa com bolinhas azuis e brancas, cada resultado é uma sequência de três cores. Como há dois resultados possíveis (🔵 ou ⚪) em cada retirada, existem $2^3 = 8$ sequências distintas (Tabela 4).

Tabela 4: Todas as sequências possíveis em três retiradas com reposição. A linha 6 (em negrito) corresponde à sequência observada no experimento.

#	Sequência	N azuis	Proporção
1	⚪ ⚪ ⚪	0	0/3 = 0,00
2	⚪ ⚪ 🔵	1	1/3 ≈ 0,33
3	⚪ 🔵 ⚪	1	1/3 ≈ 0,33
4	🔵 ⚪ ⚪	1	1/3 ≈ 0,33
5	⚪ 🔵 🔵	2	2/3 ≈ 0,67
6	🔵 ⚪ 🔵	2	2/3 ≈ 0,67
7	🔵 🔵 ⚪	2	2/3 ≈ 0,67
8	🔵 🔵 🔵	3	3/3 = 1,00

Há apenas uma sequência com 0 azuis (linha 1) e uma com 3 azuis (linha 8). Os demais resultados são variações entre esses extremos. Nossa sequência observada, [🔵 ⚪ 🔵], corresponde à linha 6. As linhas 5, 6 e 7 contêm exatamente 2 azuis em 3 retiradas.

5.3 Agrupando por contagem: o coeficiente binomial

A Tabela 4 pode ser reorganizada para evidenciar todas as sequências que produzem o mesmo número $k$ de bolinhas azuis (Tabela 5).

Tabela 5: Combinações que produzem $k$ bolinhas azuis em três retiradas.

N azuis ($k$)	Sequências	N combinações
0	⚪ ⚪ ⚪	1
1	⚪ ⚪ 🔵 ⚪ 🔵 ⚪ 🔵 ⚪ ⚪	3
2	⚪ 🔵 🔵 🔵 ⚪ 🔵 🔵 🔵 ⚪	3
3	🔵 🔵 🔵	1

O número de combinações segue o padrão 1, 3, 3, 1. Esse padrão é capturado pelo coeficiente binomial:

\[\binom{n}{k} = \frac{n!}{k!\,(n-k)!} \tag{1}\]

O coeficiente $\binom{n}{k}$ conta o número de maneiras distintas de obter $k$ azuis em $n$ retiradas. Para $n = 3$: $\binom{3}{0} = 1$, $\binom{3}{1} = 3$, $\binom{3}{2} = 3$ e $\binom{3}{3} = 1$. Esses valores correspondem exatamente às contagens da Tabela 5.

Por que o coeficiente binomial?

O coeficiente binomial conta de quantas maneiras podemos posicionar $k$ azuis em $n$ retiradas. Para $k = 1$ azul em $n = 3$ posições, a bolinha azul pode ocupar a posição 1, 2 ou 3: há $\binom{3}{1} = 3$ arranjos possíveis. Para $k = 2$ azuis, as posições ocupadas podem ser (1,2), (1,3) ou (2,3): novamente $\binom{3}{2} = 3$ arranjos.

5.4 A fórmula binomial

Com o coeficiente binomial, podemos calcular a probabilidade de observar $k$ bolinhas azuis em $n$ retiradas para qualquer valor do parâmetro $p$. A Tabela 6 mostra as expressões para cada contagem possível no experimento de três retiradas.

Tabela 6: Probabilidade $P(k \mid n=3,\, p)$ de observar diferentes contagens de bolinhas azuis em três retiradas.

N azuis ($k$)	Sequências	N combinações	$P(k \mid n=3,\, p)$
0	⚪ ⚪ ⚪	1	$1 \times (1-p)^3$
1	⚪ ⚪ 🔵 ⚪ 🔵 ⚪ 🔵 ⚪ ⚪	3	$3 \times p \times (1-p)^2$
2	⚪ 🔵 🔵 🔵 ⚪ 🔵 🔵 🔵 ⚪	3	$3 \times p^2 \times (1-p)$
3	🔵 🔵 🔵	1	$1 \times p^3$

Cada linha da Tabela 6 é o produto do coeficiente binomial pela probabilidade de uma sequência individual com $k$ azuis. Essa estrutura se generaliza para qualquer $n$ e $k$:

\[P(k \mid n,\, p) = \binom{n}{k}\, p^k\, (1-p)^{n-k} \tag{2}\]

Onde:

$k \in \{0, 1, \ldots, n\}$ é o número de bolinhas azuis observadas,
$n$ é o número total de retiradas,
$p$ é a probabilidade de retirar uma bolinha azul em uma única retirada,
$\binom{n}{k}$ é o coeficiente binomial, que conta o número de sequências distintas com $k$ azuis em $n$ posições.

5.5 O parâmetro $p$ no problema das bolinhas

No problema das bolinhas, o parâmetro $p$ representa a proporção de bolinhas azuis na caixa. Como a caixa contém exatamente quatro bolinhas, $p$ assume apenas cinco valores possíveis, determinados pela composição de cada hipótese (Tabela 7).

Tabela 7: As cinco hipóteses interpretadas como valores possíveis do parâmetro $p$.

Hipótese	N azuis	$p = N/4$
$H_0$	0	$p = 0$
$H_1$	1	$p = 0{,}25$
$H_2$	2	$p = 0{,}50$
$H_3$	3	$p = 0{,}75$
$H_4$	4	$p = 1$

O parâmetro p nesta aula

Nesta aula, o parâmetro $p$ assume apenas cinco valores discretos:

\[p \in \{0,\;\; 0{,}25,\;\; 0{,}50,\;\; 0{,}75,\;\; 1\}\]

Esses valores são determinados pela estrutura do problema: a caixa contém exatamente quatro bolinhas, cada uma azul ou branca. A extensão para valores contínuos de $p$ será desenvolvida em aulas futuras.

5.6 A verossimilhança binomial

Com os dados fixos ($k = 2$ azuis em $n = 3$ retiradas), a Equação 2 pode ser relida como uma função de $p$. A verossimilhança binomial mede a compatibilidade de cada hipótese à luz desse resultado:

\[\mathcal{L}(p;\, n = 3,\, k = 2) = \binom{3}{2}\, p^2\, (1-p) = 3\, p^2\, (1-p) \tag{3}\]

A Tabela 8 mostra os valores para cada hipótese.

Tabela 8: Verossimilhança binomial para cada hipótese, dado $k = 2$ azuis em $n = 3$ retiradas.

Hipótese	$p$	$\mathcal{L}(p;\, k=2,\, n=3) = 3\,p^2(1-p)$	Valor
$H_0$	$0$	$3 \times 0^2 \times 1 = 0$	$0$
$H_1$	$1/4$	$3 \times (1/4)^2 \times (3/4) = 9/64$	$\approx 0{,}141$
$H_2$	$1/2$	$3 \times (1/2)^2 \times (1/2) = 3/8$	$0{,}375$
$H_3$	$3/4$	$3 \times (3/4)^2 \times (1/4) = 27/64$	$\approx 0{,}422$
$H_4$	$1$	$3 \times 1^2 \times 0 = 0$	$0$

Compare os valores da Tabela 8 com os da Tabela 3. A verossimilhança binomial é exatamente $\binom{3}{2} = 3$ vezes maior em cada hipótese. Isso ocorre porque a Tabela 3 calculou a probabilidade da sequência específica [🔵, ⚪, 🔵], enquanto a Tabela 8 considera qualquer sequência com 2 azuis em 3 retiradas (há 3 dessas sequências, listadas nas linhas 5, 6 e 7 da Tabela 4). Como o fator 3 é idêntico para todas as hipóteses, ele se cancela na normalização, e a distribuição a posteriori é idêntica nos dois casos.

6 Cálculo das verossimilhanças

6.1 Conexão com a Aula 01

Na Aula 01, calculamos a verossimilhança como a probabilidade dos dados observados dado um modelo:

\[\mathcal{L}(H;\text{dados}) = P(\text{dados} \mid H)\]

No exemplo das bolinhas, a mesma definição se aplica. Sob $H_j$, cada retirada é independente e cada bolinha é igualmente provável de ser sorteada. A probabilidade de uma sequência de $n$ retiradas com $k$ azuis e $(n - k)$ brancas depende apenas de $p_j$ e das posições em que as cores aparecem. Para a sequência [🔵, ⚪, 🔵]:

\[\mathcal{L}(H_j;\text{🔵, ⚪, 🔵}) = p_j \cdot (1 - p_j) \cdot p_j = p_j^2 (1 - p_j)\]

Nessa expressão, os dados são fixos e o que varia é $p_j$, que depende da hipótese. A verossimilhança mede a probabilidade de observar os dados, assumindo que $H_j$ seja verdadeira. O que varia entre hipóteses é o valor de $p_j$, enquanto os dados permanecem fixos.

Verossimilhança e probabilidade: definições e notações

A verossimilhança é definida como:

\[\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)\]

O valor numérico é idêntico ao de $P(\text{dados} \mid H_j)$. A diferença está na interpretação:

Probabilidade $P(\text{dados} \mid H_j)$: os dados variam, a hipótese é fixa. Dado um modelo, qual é a chance de observar este resultado?
Verossimilhança $\mathcal{L}(H_j;\text{dados})$: os dados são fixos, a hipótese varia. Dado que observamos estes dados, quão compatível é cada hipótese?

A verossimilhança não é uma probabilidade sobre as hipóteses. É a probabilidade dos dados vista como função da hipótese.

Essa distinção aparece diretamente no Teorema de Bayes:

\[P(H_j \mid \text{dados}) \propto \mathcal{L}(H_j;\text{dados}) \times P(H_j)\]

ou seja: posteriori ∝ verossimilhança × priori.

6.2 Comparação entre duas hipóteses quaisquer

Na Aula 01, usamos a razão de verossimilhanças $\Lambda = \mathcal{L}(H_2;\text{dados})/\mathcal{L}(H_1;\text{dados})$ para comparar dois modelos. No exemplo das bolinhas, podemos calcular a mesma razão para qualquer par de hipóteses. Por exemplo, comparando $H_3$ com $H_2$:

\[\Lambda = \frac{\mathcal{L}(H_3;\text{dados})}{\mathcal{L}(H_2;\text{dados})} = \frac{9/64}{8/64} = \frac{9}{8} \approx 1{,}13\]

Os dados observados são cerca de 1,13 vezes mais compatíveis com $H_3$ do que com $H_2$. A comparação é informativa, mas nos diz apenas qual das duas é preferível. A atualização bayesiana, vista a seguir, distribui a plausibilidade entre todas as hipóteses de forma simultânea.

7 Atualização bayesiana

7.1 Os três componentes da inferência bayesiana

A atualização bayesiana combina três elementos para distribuir a plausibilidade entre as hipóteses à luz dos dados:

Distribuição a priori

$P(H_j)$ expressa o grau de crença em cada hipótese antes de observar os dados. Pode refletir conhecimento teórico, resultados de estudos anteriores ou, na ausência de informação, uma distribuição uniforme que atribui igual plausibilidade a todas as hipóteses.

Verossimilhança

$\mathcal{L}(H_j;\text{dados})$ mede a compatibilidade de cada hipótese com os dados observados. Reflete o que os dados dizem, independentemente de qualquer crença prévia.

Distribuição a posteriori

$P(H_j \mid \text{dados})$ expressa o grau de crença em cada hipótese depois de incorporar os dados. É o resultado da atualização e representa o conhecimento acumulado até o momento.

7.2 O Teorema de Bayes

A relação entre os três componentes é formalizada pelo Teorema de Bayes:

\[P(H_j \mid \text{dados}) = \frac{P(H_j) \times \mathcal{L}(H_j;\text{dados})}{\displaystyle\sum_{i=0}^{4} P(H_i) \times \mathcal{L}(H_i;\text{dados})} \tag{4}\]

O denominador é uma constante de normalização que garante que as probabilidades a posteriori somem 1. O que governa as diferenças relativas entre as hipóteses é o numerador, $P(H_j) \times \mathcal{L}(H_j;\text{dados})$.

7.3 Cálculo passo a passo com distribuição a priori uniforme

Com uma distribuição a priori uniforme em que $P(H_j) = 1/5$ para todo $j$, a Tabela 9 mostra o cálculo completo da distribuição a posteriori.

Tabela 9: Distribuição a posteriori após observar [🔵, ⚪, 🔵] com distribuição a priori uniforme.

Hipótese	$P(H_j)$	$\mathcal{L}(H_j;\text{dados})$	Produto $P(H_j) \times \mathcal{L}(H_j;\text{dados})$	$P(H_j \mid \text{dados})$
$H_0$	$1/5$	$0$	$0/320$	$0{,}000$
$H_1$	$1/5$	$3/64$	$3/320$	$0{,}150$
$H_2$	$1/5$	$8/64$	$8/320$	$0{,}400$
$H_3$	$1/5$	$9/64$	$9/320$	$0{,}450$
$H_4$	$1/5$	$0$	$0/320$	$0{,}000$
Soma	$1{,}000$		$20/320$	$1{,}000$

A divisão de cada produto pelo total ($20/320 = 1/16$) normaliza os valores, gerando probabilidades que somam 1. Com a distribuição a priori uniforme, o fator $1/5$ é o mesmo para todas as hipóteses e se cancela na normalização. Portanto, a distribuição a posteriori é diretamente proporcional às verossimilhanças.

Lendo os resultados

A hipótese com maior probabilidade a posteriori é $H_3$ (três bolinhas azuis, com 0,450), seguida de $H_2$ (duas bolinhas azuis, com 0,400). As hipóteses $H_0$ e $H_4$ foram eliminadas pelos dados. Isso reflete o que os dados sugerem, a sequência [🔵, ⚪, 🔵] contém mais azuis do que brancas, favorecendo hipóteses com maior proporção de bolinhas azuis, mas a presença de uma branca impede $H_4$ de ser plausível.

O mesmo cálculo em R usa a função dbinom(), que computa diretamente a probabilidade de observar $k$ azuis em $n$ retiradas com probabilidade $p$:

# Proporção de bolinhas azuis em cada hipótese
p <- c(0, 1/4, 2/4, 3/4, 4/4)

# Verossimilhança: probabilidade de observar 2 azuis em 3 retiradas
# [azul, branca, azul] tem 2 azuis em 3 retiradas
likelihood <- dbinom(x = 2, size = 3, prob = p)

# Distribuição a priori uniforme
prior <- rep(1/5, 5)

# Produto não normalizado
nao_normalizado <- prior * likelihood

# Distribuição a posteriori
posterior <- nao_normalizado / sum(nao_normalizado)

# Resultado
data.frame(
  hipotese   = paste0("H", 0:4, " (N=", 0:4, ")"),
  prior      = round(prior, 3),
  verossim   = round(likelihood, 3),
  posteriori = round(posterior, 3)
)

  hipotese prior verossim posteriori
1 H0 (N=0)   0.2    0.000       0.00
2 H1 (N=1)   0.2    0.141       0.15
3 H2 (N=2)   0.2    0.375       0.40
4 H3 (N=3)   0.2    0.422       0.45
5 H4 (N=4)   0.2    0.000       0.00

8 Exemplos passo a passo

8.1 Atualização sequencial

Uma das propriedades mais importantes da inferência bayesiana é que a distribuição a posteriori obtida com os dados atuais pode ser usada como distribuição a priori ao incorporar novas observações. O ciclo se repete quantas vezes forem necessárias em que cada nova evidência atualiza o conhecimento acumulado.

Suponha que, após a sequência [🔵, ⚪, 🔵], realizemos uma quarta retirada e observemos novamente 🔵. Para incorporar essa nova evidência, usamos a distribuição a posteriori da Tabela 9 como nova distribuição a priori.

A verossimilhança desta nova observação, para cada hipótese, é simplesmente $p_j$: a probabilidade de retirar uma bolinha azul em uma única retirada.

Tabela 10: Atualização sequencial após a quarta retirada (🔵), usando a posteriori anterior como nova priori.

Hipótese	Priori (post. anterior)	$\mathcal{L}(H_j;\text{🔵}) = p_j$	Produto	Posteriori
$H_0$	0,000	0,000	0,0000	0,000
$H_1$	0,150	0,250	0,0375	0,065
$H_2$	0,400	0,500	0,2000	0,348
$H_3$	0,450	0,750	0,3375	0,587
$H_4$	0,000	1,000	0,0000	0,000
Soma	1,000		0,5750	1,000

A observação adicional de uma bolinha azul desloca a plausibilidade para $H_3$ ainda mais e a probabilidade a posteriori dessa hipótese passa de 0,450 para 0,587. A hipótese $H_2$ permanece plausível (0,348), mas perde terreno para $H_3$.

Atualização sequencial em R

Abaixo, o cálculo da atualização sequencial. O resultado é idêntico ao de recalcular a distribuição a posteriori usando todos os quatro dados de uma só vez.

# Usando a posteriori anterior como nova priori
prior_atualizada <- posterior   # resultado do bloco anterior

# Nova observação: uma bolinha azul
# Verossimilhança de azul em uma retirada = p
nova_likelihood <- p

# Produto não normalizado
nao_norm_2 <- prior_atualizada * nova_likelihood

# Nova distribuição a posteriori
posterior_2 <- nao_norm_2 / sum(nao_norm_2)

# Verificação: equivalente a calcular do zero com 4 observações
# [azul, branca, azul, azul] = 3 azuis em 4 retiradas
posterior_direto <- dbinom(x = 3, size = 4, prob = p)
posterior_direto <- posterior_direto / sum(posterior_direto)

# Comparação (devem ser iguais)
round(posterior_2, 3)

[1] 0.000 0.065 0.348 0.587 0.000

round(posterior_direto, 3)

[1] 0.000 0.065 0.348 0.587 0.000

A equivalência entre as duas abordagens (atualizar sequencialmente ou recalcular do zero com todos os dados) só vale quando as observações são independentes entre si. Neste problema, a reposição da bolinha após cada retirada garante essa independência.

8.2 A influência da distribuição a priori

Até agora, usamos uma distribuição a priori uniforme, isto é, sem informação prévia, cada hipótese recebe o mesmo peso inicial. Em situações reais, pode haver conhecimento anterior que justifique distribuições a priori diferentes da uniforme.

Suponha que um fornecedor informe que a caixa [🔵⚪⚪⚪] é produzida com três vezes mais frequência do que [🔵🔵⚪⚪], e que a caixa [🔵🔵🔵⚪] é produzida com metade da frequência de [🔵🔵⚪⚪]. Além disso, o fornecedor garante que todas as caixas contêm pelo menos uma bolinha de cada cor, eliminando $H_0$ e $H_4$.

Essa informação pode ser traduzida em uma distribuição a priori informativa. A Tabela 11 mostra como a distribuição a posteriori muda quando substituímos a priori uniforme por essa priori informativa, após observar a mesma sequência [🔵, ⚪, 🔵].

Tabela 11: Distribuição a posteriori com priori informativa. A crença prévia de que $H_1$ é mais comum reduz a vantagem de $H_3$.

Hipótese	Priori informativa	$\mathcal{L}(H_j;\text{dados})$	Produto	Posteriori
$H_0$	$0$	$0$	$0$	$0{,}000$
$H_1$	$6/9 \approx 0{,}667$	$3/64$	$18/576$	$18/43 \approx 0{,}419$
$H_2$	$2/9 \approx 0{,}222$	$8/64$	$16/576$	$16/43 \approx 0{,}372$
$H_3$	$1/9 \approx 0{,}111$	$9/64$	$9/576$	$9/43 \approx 0{,}209$
$H_4$	$0$	$0$	$0$	$0{,}000$
Soma	$1{,}000$		$43/576$	$1{,}000$

Com a priori uniforme, a hipótese $H_3$ tinha a maior probabilidade a posteriori (0,450), pois sua verossimilhança era a mais alta. Com a priori informativa, $H_1$ passa a liderar (0,419), seguida de $H_2$ (0,372) e $H_3$ (0,209). O peso inicial elevado de $H_1$ (0,667) compensa sua verossimilhança menor e desloca a probabilidade posterior em direção a essa hipótese, mesmo com apenas três observações.

Priori informativa em R

# Priori informativa: pesos proporcionais às frequências do fornecedor
# H0=0, H1=3, H2=1, H3=0.5, H4=0
pesos <- c(0, 3, 1, 0.5, 0)
prior_inform <- pesos / sum(pesos)

# Verossimilhança para [azul, branca, azul]
likelihood <- dbinom(x = 2, size = 3, prob = p)

# Distribuição a posteriori com priori informativa
nao_norm_inf <- prior_inform * likelihood
posterior_inf <- nao_norm_inf / sum(nao_norm_inf)

data.frame(
  hipotese        = paste0("H", 0:4, " (N=", 0:4, ")"),
  prior_inform    = round(prior_inform, 3),
  verossim        = round(likelihood, 3),
  posteriori      = round(posterior_inf, 3)
)

  hipotese prior_inform verossim posteriori
1 H0 (N=0)        0.000    0.000      0.000
2 H1 (N=1)        0.667    0.141      0.419
3 H2 (N=2)        0.222    0.375      0.372
4 H3 (N=3)        0.111    0.422      0.209
5 H4 (N=4)        0.000    0.000      0.000

Com dados suficientes, pesquisadores que partem de distribuições a priori diferentes chegam a distribuições a posteriori semelhantes. O peso da distribuição a priori diminui à medida que a quantidade de dados aumenta. Com poucas observações, a distribuição a priori pode exercer influência considerável sobre os resultados. É por isso que explicitar e justificar a distribuição a priori é parte fundamental da análise bayesiana.

8.3 O ciclo da inferência bayesiana

A sequência de etapas desta leitura forma um ciclo completo de inferência:

Definir as hipóteses e os parâmetros que as representam.
Estabelecer a distribuição a priori, codificando o conhecimento disponível antes dos dados.
Calcular a verossimilhança de cada hipótese dado os dados observados.
Aplicar o Teorema de Bayes para obter a distribuição a posteriori.
Atualizar com novas observações, usando a distribuição a posteriori como nova distribuição a priori.

Esse ciclo é idêntico ao que usamos na Aula 01, com a diferença de que, naquele caso, havia apenas dois candidatos e comparávamos suas verossimilhanças diretamente pela razão $\Lambda$. Aqui, ao tratar a verossimilhança de cada hipótese em relação ao conjunto completo e incorporar uma distribuição a priori, obtemos probabilidades a posteriori para todas as hipóteses simultaneamente.

A mensagem central é que os dados sozinhos não determinam qual hipótese é verdadeira. Os dados, combinados com o conhecimento prévio, nos permitem atualizar racionalmente a plausibilidade de cada hipótese.

Referências

McElreath, Richard. 2020. Statistical Rethinking: A Bayesian Course with Examples in R and Stan. 2º ed. Chapman; Hall/CRC.

--- title: "Leitura Prévia - Aula 02" subtitle: "De contagens a probabilidades: a lógica da atualização bayesiana" author: - "Prof. Fabio Cop (*fcferreira@unifesp.br*)" - "Instituto do Mar - Unifesp" date: today lang: pt-BR language: title-block-author-single: "" title-block-author-plural: "" format: html: toc: true toc-title: "Conteúdo" toc-depth: 2 number-sections: true embed-resources: true code-fold: false code-tools: true execute: eval: true echo: true warning: false message: false --- # Introdução Na Aula 01, contrastamos duas hipóteses sobre o comportamento humano ao simular mentalmente o resultado do lançamento de um dado. A hipótese $H_1$ previa que as escolhas seguiriam uma distribuição uniforme, enquanto $H_2$ previa um viés para valores centrais. Para decidir qual das duas era mais compatível com os dados, calculamos a verossimilhança de cada hipótese e a razão de verossimilhanças $\Lambda$. A comparação envolvia exatamente das hipóteses candidatas, e o foco estava na lógica de contrastá-las. Nesta aula, ampliaremos esse raciocínio para permitir a comparação simultânea de **várias hipóteses**. Em vez de perguntar "*qual das duas hipóteses é mais plausível?*", perguntaremos: **"como a evidência observada distribui a plausibilidade entre todas as hipóteses possíveis?"** Essa extensão nos conduz à **atualização bayesiana**, o processo de combinar conhecimento prévio com evidências observadas para obter uma avaliação atualizada de cada hipótese. O formalismo que emerge é o **Teorema de Bayes**, e o exemplo que usaremos ao longo desta leitura é o de uma caixa contendo bolinhas de cores desconhecidas. O conteúdo abaixo é uma adaptação do capítulo 2 de @mcelreath2020 que pode ser lido na íntegra neste link: [Small Worlds and Large Worlds](https://xcelab.net/rmpubs/sr2/statisticalrethinking2_chapters1and2.pdf). # O problema das bolinhas Imagine uma caixa contendo exatamente **quatro bolinhas**, cada uma podendo ser azul (🔵) ou branca (⚪). A composição da caixa é desconhecida. Com base apenas na informação de que há quatro bolinhas de duas cores possíveis, podemos listar cinco configurações: | Hipótese | Composição | N azuis | |:---:|:---:|:---:| | $H_0$ | [⚪⚪⚪⚪] | 0 | | $H_1$ | [🔵⚪⚪⚪] | 1 | | $H_2$ | [🔵🔵⚪⚪] | 2 | | $H_3$ | [🔵🔵🔵⚪] | 3 | | $H_4$ | [🔵🔵🔵🔵] | 4 | : **As cinco hipóteses sobre a composição da caixa. O número de bolinhas azuis é o parâmetro de interesse.** {#tbl-hipoteses} Cada hipótese representa uma conjectura sobre o **parâmetro** de interesse: *o número $N$ de bolinhas azuis*. Antes de realizarmos qualquer observação, não temos motivo para preferir uma hipótese sobre outra. O objetivo é descobrir quais configurações se tornam mais ou menos plausíveis à medida que coletamos evidências. O procedimento de observação funciona assim: a caixa é sacudida, uma bolinha é retirada pela abertura, sua cor é registrada, e a bolinha retorna à caixa antes da próxima retirada. Cada retirada é independente das anteriores. # Contagem de possibilidades ## A lógica da contagem Para entender como as evidências nos ajudam a distinguir entre as hipóteses, começamos contando o número de maneiras pelas quais cada hipótese pode produzir uma observação. Considere a hipótese $H_1 =$ [🔵⚪⚪⚪]. Há quatro bolinhas na caixa, e cada uma tem a mesma chance de ser retirada. Em uma única retirada, há **1 maneira** de obter 🔵 e **3 maneiras** de obter ⚪. Essa contagem se generaliza para qualquer hipótese: sob $H_j$, com $N_j$ bolinhas azuis, há $N_j$ maneiras de obter 🔵 e $4 - N_j$ maneiras de obter ⚪. ::: {.callout-note appearance="minimal" title="Regra do produto"} Quando dois eventos são independentes, o número de maneiras de obter ambos em sequência é o produto dos números de maneiras de obter cada um individualmente. Se há $a$ maneiras de obter o primeiro resultado e $b$ maneiras de obter o segundo, há $a \times b$ maneiras de obter a sequência completa. Para três retiradas consecutivas, o total de caminhos é $a \times b \times c$. ::: ## Aplicando a regra a uma sequência de três retiradas Suponha que realizamos três retiradas e observamos a sequência: $$\text{1ª retirada: 🔵} \qquad \text{2ª retirada: ⚪} \qquad \text{3ª retirada: 🔵}$$ Para a hipótese $H_1 =$ [🔵⚪⚪⚪], contamos: - 1ª retirada 🔵: pode ocorrer de **1** maneira (há 1 bolinha azul). - 2ª retirada ⚪: pode ocorrer de **3** maneiras (há 3 bolinhas brancas). - 3ª retirada 🔵: pode ocorrer de **1** maneira (há 1 bolinha azul). Pela regra do produto: $1 \times 3 \times 1 = 3$ caminhos compatíveis com a sequência [🔵, ⚪, 🔵]. Cada caminho representa uma maneira logicamente possível de a hipótese gerar os dados observados. O número total de caminhos para três retiradas sob qualquer hipótese é $4^3 = 64$. Dos 64 caminhos de $H_1$, apenas 3 são compatíveis com a sequência observada. ::: {.callout-tip appearance="minimal"} As três bolinhas brancas na configuração [🔵⚪⚪⚪] são tratadas como objetos distintos, pois cada uma pode ser retirada em momentos diferentes. Por isso, há três maneiras de observar ⚪ nessa hipótese, e não apenas uma. Essa distinção é importante para a contagem ser correta. ::: ## Contagem para todas as hipóteses Aplicando o mesmo raciocínio a todas as hipóteses, obtemos a @tbl-contagem1. | Hipótese | $N_j$ azuis | Maneiras: 🔵 | Maneiras: ⚪ | Maneiras: 🔵 | Caminhos compatíveis | |:---:|:---:|:---:|:---:|:---:|:---:| | $H_0$ | 0 | 0 | 4 | 0 | $0 \times 4 \times 0 = 0$ | | $H_1$ | 1 | 1 | 3 | 1 | $1 \times 3 \times 1 = 3$ | | $H_2$ | 2 | 2 | 2 | 2 | $2 \times 2 \times 2 = 8$ | | $H_3$ | 3 | 3 | 1 | 3 | $3 \times 1 \times 3 = 9$ | | $H_4$ | 4 | 4 | 0 | 4 | $4 \times 0 \times 4 = 0$ | : **Número de caminhos compatíveis com a sequência [🔵, ⚪, 🔵] para cada hipótese.** {#tbl-contagem1} As hipóteses $H_0$ e $H_4$ ficam com zero caminhos possíveis, pois $H_0$ não contém nenhuma bolinha azul e, portanto, não pode gerar uma sequência com azul, enquanto $H_4$ não contém nenhuma bolinha branca e não pode gerar a branca observada. Ambas são logicamente eliminadas pelos resultados observados. As hipóteses compatíveis são $H_1$, $H_2$ e $H_3$, com 3, 8 e 9 caminhos, respectivamente. # Construção das tabelas de probabilidades ## Da contagem à verossimilhança Os caminhos contados na seção anterior medem a compatibilidade entre cada hipótese e os dados. Para transformar essas contagens em probabilidades, observamos que, sob a hipótese $H_j$ com $N_j$ bolinhas azuis, a **probabilidade** de retirar uma bolinha azul em qualquer sorteio é: $$p_j = \frac{N_j}{4}$$ Para a sequência [🔵, ⚪, 🔵], a probabilidade de obter exatamente essa sequência sob a hipótese $H_j$ é: $$P(\text{dados} \mid H_j) = p_j \times (1 - p_j) \times p_j = p_j^2(1 - p_j)$$ Essa expressão calcula a probabilidade da sequência observada **assumindo que a hipótese $H_j$ seja verdadeira**. Agora fazemos apenas uma **mudança de perspectiva**. Em vez de pensar nos dados como algo que poderia variar, tratamos a sequência observada como fixa e usamos a mesma expressão para comparar hipóteses diferentes. Quando interpretamos $$P(\text{dados}\mid H_j)$$ como uma função da hipótese $H_j$, chamamos essa quantidade de **verossimilhança**: $$\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)$$ Cada hipótese gera um número diferente de caminhos favoráveis que produzem a sequência observada. A verossimilhança corresponde simplesmente à fração desses caminhos em relação ao total de caminhos possíveis. Assim, a verossimilhança mede **quão compatível cada hipótese é com os dados observados** (@tbl-probab). | Hipótese | $N_j$ | $p_j$ | Caminhos favoráveis | Total de caminhos | Verossimilhança $\mathcal{L}(H_j;\text{dados}) = p_j^2(1 - p_j)$ | | :------: | :---: | :---: | :-----------------: | :---------------: | :-------------: | | $H_0$ | 0 | $0$ | 0 | 64 | $0^2 \times 1 = 0/64 = 0$ | | $H_1$ | 1 | $1/4$ | 3 | 64 | $(1/4)^2 \times (3/4) = 3/64$ | | $H_2$ | 2 | $1/2$ | 8 | 64 | $(1/2)^2 \times (1/2) = 8/64$ | | $H_3$ | 3 | $3/4$ | 9 | 64 | $(3/4)^2 \times (1/4) = 9/64$ | | $H_4$ | 4 | $1$ | 0 | 64 | $1^2 \times 0 = 0/64 = 0$ | : **Verossimilhanças para cada hipótese, calculadas pela fórmula e pela contagem de caminhos.** {#tbl-probab} ::: {.callout-important appearance="minimal" title="A equivalência entre contagens e verossimilhanças"} A última coluna da @tbl-probab mostra que os caminhos contados anteriormente divididos por 64 (o total de caminhos possíveis) coincidem exatamente com as verossimilhanças calculadas pela fórmula. As contagens são diretamente **proporcionais** às verossimilhanças. Multiplicar todas as contagens pelo mesmo fator ($1/64$, neste caso) não altera a comparação entre hipóteses. Contar caminhos e calcular verossimilhanças são duas formas equivalentes de medir a compatibilidade entre hipótese e dados. ::: # O modelo binomial ## De sequências a contagens Nas seções anteriores, calculamos a verossimilhança para a sequência particular [🔵, ⚪, 🔵], em que a primeira retirada resultou em azul, a segunda em branca e a terceira em azul. Para cada hipótese, contamos os caminhos compatíveis com essa sequência específica. Para fazer inferência sobre a composição da caixa, o que importa é o **número total de bolinhas azuis observadas**, independentemente da ordem em que apareceram. A pergunta relevante torna-se: "em três retiradas, quantas resultaram em 🔵?" Essa é a pergunta que o **modelo binomial** responde de forma geral. ## Todos os resultados possíveis em três retiradas Em três retiradas com reposição de uma caixa com bolinhas azuis e brancas, cada resultado é uma sequência de três cores. Como há dois resultados possíveis (🔵 ou ⚪) em cada retirada, existem $2^3 = 8$ sequências distintas (@tbl-todas-sequencias). | # | Sequência | N azuis | Proporção | |:---:|:---:|:---:|:---:| | 1 | ⚪ ⚪ ⚪ | 0 | 0/3 = 0,00 | | 2 | ⚪ ⚪ 🔵 | 1 | 1/3 ≈ 0,33 | | 3 | ⚪ 🔵 ⚪ | 1 | 1/3 ≈ 0,33 | | 4 | 🔵 ⚪ ⚪ | 1 | 1/3 ≈ 0,33 | | 5 | ⚪ 🔵 🔵 | 2 | 2/3 ≈ 0,67 | | 6 | **🔵 ⚪ 🔵** | **2** | **2/3 ≈ 0,67** | | 7 | 🔵 🔵 ⚪ | 2 | 2/3 ≈ 0,67 | | 8 | 🔵 🔵 🔵 | 3 | 3/3 = 1,00 | : **Todas as sequências possíveis em três retiradas com reposição. A linha 6 (em negrito) corresponde à sequência observada no experimento.** {#tbl-todas-sequencias} Há apenas uma sequência com 0 azuis (linha 1) e uma com 3 azuis (linha 8). Os demais resultados são variações entre esses extremos. Nossa sequência observada, [🔵 ⚪ 🔵], corresponde à linha 6. As linhas 5, 6 e 7 contêm exatamente 2 azuis em 3 retiradas. ## Agrupando por contagem: o coeficiente binomial A @tbl-todas-sequencias pode ser reorganizada para evidenciar todas as sequências que produzem o mesmo número $k$ de bolinhas azuis (@tbl-combinacoes-bin). | N azuis ($k$) | Sequências | N combinações | |:---:|:---|:---:| | 0 | ⚪ ⚪ ⚪ | 1 | | 1 | ⚪ ⚪ 🔵 ⚪ 🔵 ⚪ 🔵 ⚪ ⚪ | 3 | | 2 | ⚪ 🔵 🔵 🔵 ⚪ 🔵 🔵 🔵 ⚪ | 3 | | 3 | 🔵 🔵 🔵 | 1 | : **Combinações que produzem $k$ bolinhas azuis em três retiradas.** {#tbl-combinacoes-bin tbl-colwidths="[20,60,20]"} O número de combinações segue o padrão 1, 3, 3, 1. Esse padrão é capturado pelo **coeficiente binomial**: $$\binom{n}{k} = \frac{n!}{k!\,(n-k)!}$$ {#eq-coef-bin} O coeficiente $\binom{n}{k}$ conta o número de maneiras distintas de obter $k$ azuis em $n$ retiradas. Para $n = 3$: $\binom{3}{0} = 1$, $\binom{3}{1} = 3$, $\binom{3}{2} = 3$ e $\binom{3}{3} = 1$. Esses valores correspondem exatamente às contagens da @tbl-combinacoes-bin. ::: {.callout-note appearance="minimal" title="Por que o coeficiente binomial?"} O coeficiente binomial conta de quantas maneiras podemos posicionar $k$ azuis em $n$ retiradas. Para $k = 1$ azul em $n = 3$ posições, a bolinha azul pode ocupar a posição 1, 2 ou 3: há $\binom{3}{1} = 3$ arranjos possíveis. Para $k = 2$ azuis, as posições ocupadas podem ser (1,2), (1,3) ou (2,3): novamente $\binom{3}{2} = 3$ arranjos. ::: ## A fórmula binomial Com o coeficiente binomial, podemos calcular a probabilidade de observar $k$ bolinhas azuis em $n$ retiradas para qualquer valor do parâmetro $p$. A @tbl-prob-bin mostra as expressões para cada contagem possível no experimento de três retiradas. | N azuis ($k$) | Sequências | N combinações | $P(k \mid n=3,\, p)$ | |:---:|:---|:---:|:---| | 0 | ⚪ ⚪ ⚪ | 1 | $1 \times (1-p)^3$ | | 1 | ⚪ ⚪ 🔵 ⚪ 🔵 ⚪ 🔵 ⚪ ⚪ | 3 | $3 \times p \times (1-p)^2$ | | 2 | ⚪ 🔵 🔵 🔵 ⚪ 🔵 🔵 🔵 ⚪ | 3 | $3 \times p^2 \times (1-p)$ | | 3 | 🔵 🔵 🔵 | 1 | $1 \times p^3$ | : **Probabilidade $P(k \mid n=3,\, p)$ de observar diferentes contagens de bolinhas azuis em três retiradas.** {#tbl-prob-bin tbl-colwidths="[15,45,20,20]"} Cada linha da @tbl-prob-bin é o produto do coeficiente binomial pela probabilidade de uma sequência individual com $k$ azuis. Essa estrutura se generaliza para qualquer $n$ e $k$: $$P(k \mid n,\, p) = \binom{n}{k}\, p^k\, (1-p)^{n-k}$$ {#eq-binomial-geral} **Onde:** - $k \in \{0, 1, \ldots, n\}$ é o número de bolinhas azuis observadas, - $n$ é o número total de retiradas, - $p$ é a probabilidade de retirar uma bolinha azul em uma única retirada, - $\binom{n}{k}$ é o coeficiente binomial, que conta o número de sequências distintas com $k$ azuis em $n$ posições. ## O parâmetro $p$ no problema das bolinhas No problema das bolinhas, o parâmetro $p$ representa a **proporção de bolinhas azuis na caixa**. Como a caixa contém exatamente quatro bolinhas, $p$ assume apenas cinco valores possíveis, determinados pela composição de cada hipótese (@tbl-hip-p). | Hipótese | N azuis | $p = N/4$ | |:---:|:---:|:---:| | $H_0$ | 0 | $p = 0$ | | $H_1$ | 1 | $p = 0{,}25$ | | $H_2$ | 2 | $p = 0{,}50$ | | $H_3$ | 3 | $p = 0{,}75$ | | $H_4$ | 4 | $p = 1$ | : **As cinco hipóteses interpretadas como valores possíveis do parâmetro $p$.** {#tbl-hip-p} ::: {.callout-important appearance="minimal" title="O parâmetro p nesta aula"} Nesta aula, o parâmetro $p$ assume apenas cinco valores discretos: $$p \in \{0,\;\; 0{,}25,\;\; 0{,}50,\;\; 0{,}75,\;\; 1\}$$ Esses valores são determinados pela estrutura do problema: a caixa contém exatamente quatro bolinhas, cada uma azul ou branca. A extensão para valores contínuos de $p$ será desenvolvida em aulas futuras. ::: ## A verossimilhança binomial Com os dados fixos ($k = 2$ azuis em $n = 3$ retiradas), a @eq-binomial-geral pode ser relida como uma função de $p$. A **verossimilhança binomial** mede a compatibilidade de cada hipótese à luz desse resultado: $$\mathcal{L}(p;\, n = 3,\, k = 2) = \binom{3}{2}\, p^2\, (1-p) = 3\, p^2\, (1-p)$$ {#eq-vero-binomial} A @tbl-vero-bin mostra os valores para cada hipótese. | Hipótese | $p$ | $\mathcal{L}(p;\, k=2,\, n=3) = 3\,p^2(1-p)$ | Valor | |:---:|:---:|:---:|:---:| | $H_0$ | $0$ | $3 \times 0^2 \times 1 = 0$ | $0$ | | $H_1$ | $1/4$ | $3 \times (1/4)^2 \times (3/4) = 9/64$ | $\approx 0{,}141$ | | $H_2$ | $1/2$ | $3 \times (1/2)^2 \times (1/2) = 3/8$ | $0{,}375$ | | $H_3$ | $3/4$ | $3 \times (3/4)^2 \times (1/4) = 27/64$ | $\approx 0{,}422$ | | $H_4$ | $1$ | $3 \times 1^2 \times 0 = 0$ | $0$ | : **Verossimilhança binomial para cada hipótese, dado $k = 2$ azuis em $n = 3$ retiradas.** {#tbl-vero-bin} ::: {.callout-tip appearance="minimal"} Compare os valores da @tbl-vero-bin com os da @tbl-probab. A verossimilhança binomial é exatamente $\binom{3}{2} = 3$ vezes maior em cada hipótese. Isso ocorre porque a @tbl-probab calculou a probabilidade da sequência **específica** [🔵, ⚪, 🔵], enquanto a @tbl-vero-bin considera **qualquer** sequência com 2 azuis em 3 retiradas (há 3 dessas sequências, listadas nas linhas 5, 6 e 7 da @tbl-todas-sequencias). Como o fator 3 é idêntico para todas as hipóteses, ele se cancela na normalização, e a distribuição a posteriori é idêntica nos dois casos. ::: # Cálculo das verossimilhanças ## Conexão com a Aula 01 Na Aula 01, calculamos a verossimilhança como a probabilidade dos dados observados dado um modelo: $$\mathcal{L}(H;\text{dados}) = P(\text{dados} \mid H)$$ No exemplo das bolinhas, a mesma definição se aplica. Sob $H_j$, cada retirada é independente e cada bolinha é igualmente provável de ser sorteada. A probabilidade de uma sequência de $n$ retiradas com $k$ azuis e $(n - k)$ brancas depende apenas de $p_j$ e das posições em que as cores aparecem. Para a sequência [🔵, ⚪, 🔵]: $$\mathcal{L}(H_j;\text{🔵, ⚪, 🔵}) = p_j \cdot (1 - p_j) \cdot p_j = p_j^2 (1 - p_j)$$ Nessa expressão, os dados são fixos e o que varia é $p_j$, que depende da hipótese. A verossimilhança mede a probabilidade de observar os dados, assumindo que $H_j$ seja verdadeira. O que varia entre hipóteses é o valor de $p_j$, enquanto os dados permanecem fixos. ::: {.callout-note appearance="minimal" title="Verossimilhança e probabilidade: definições e notações"} A **verossimilhança** é definida como: $$\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)$$ O valor numérico é idêntico ao de $P(\text{dados} \mid H_j)$. A diferença está na interpretação: - **Probabilidade $P(\text{dados} \mid H_j)$:** os dados variam, a hipótese é fixa. Dado um modelo, qual é a chance de observar este resultado? - **Verossimilhança $\mathcal{L}(H_j;\text{dados})$:** os dados são fixos, a hipótese varia. Dado que observamos estes dados, quão compatível é cada hipótese? A verossimilhança não é uma probabilidade sobre as hipóteses. É a probabilidade dos dados **vista como função da hipótese**. Essa distinção aparece diretamente no Teorema de Bayes: $$P(H_j \mid \text{dados}) \propto \mathcal{L}(H_j;\text{dados}) \times P(H_j)$$ ou seja: **posteriori ∝ verossimilhança × priori**. ::: ## Comparação entre duas hipóteses quaisquer Na Aula 01, usamos a razão de verossimilhanças $\Lambda = \mathcal{L}(H_2;\text{dados})/\mathcal{L}(H_1;\text{dados})$ para comparar dois modelos. No exemplo das bolinhas, podemos calcular a mesma razão para qualquer par de hipóteses. Por exemplo, comparando $H_3$ com $H_2$: $$\Lambda = \frac{\mathcal{L}(H_3;\text{dados})}{\mathcal{L}(H_2;\text{dados})} = \frac{9/64}{8/64} = \frac{9}{8} \approx 1{,}13$$ Os dados observados são cerca de 1,13 vezes mais compatíveis com $H_3$ do que com $H_2$. A comparação é informativa, mas nos diz apenas qual das duas é preferível. A atualização bayesiana, vista a seguir, distribui a plausibilidade entre todas as hipóteses de forma simultânea. # Atualização bayesiana ## Os três componentes da inferência bayesiana A atualização bayesiana combina três elementos para distribuir a plausibilidade entre as hipóteses à luz dos dados: ::: {.callout-note appearance="minimal" title="Distribuição a priori"} $P(H_j)$ expressa o grau de crença em cada hipótese **antes** de observar os dados. Pode refletir conhecimento teórico, resultados de estudos anteriores ou, na ausência de informação, uma distribuição uniforme que atribui igual plausibilidade a todas as hipóteses. ::: ::: {.callout-note appearance="minimal" title="Verossimilhança"} $\mathcal{L}(H_j;\text{dados})$ mede a compatibilidade de cada hipótese com os dados observados. Reflete o que os dados dizem, independentemente de qualquer crença prévia. ::: ::: {.callout-note appearance="minimal" title="Distribuição a posteriori"} $P(H_j \mid \text{dados})$ expressa o grau de crença em cada hipótese **depois** de incorporar os dados. É o resultado da atualização e representa o conhecimento acumulado até o momento. ::: ## O Teorema de Bayes A relação entre os três componentes é formalizada pelo **Teorema de Bayes**: $$P(H_j \mid \text{dados}) = \frac{P(H_j) \times \mathcal{L}(H_j;\text{dados})}{\displaystyle\sum_{i=0}^{4} P(H_i) \times \mathcal{L}(H_i;\text{dados})}$$ {#eq-bayes} O denominador é uma constante de normalização que garante que as probabilidades a posteriori somem 1. O que governa as diferenças relativas entre as hipóteses é o numerador, $P(H_j) \times \mathcal{L}(H_j;\text{dados})$. ## Cálculo passo a passo com distribuição a priori uniforme Com uma distribuição a priori uniforme em que $P(H_j) = 1/5$ para todo $j$, a @tbl-posteriori1 mostra o cálculo completo da distribuição a posteriori. | Hipótese | $P(H_j)$ | $\mathcal{L}(H_j;\text{dados})$ | Produto $P(H_j) \times \mathcal{L}(H_j;\text{dados})$ | $P(H_j \mid \text{dados})$ | |:---:|:---:|:---:|:---:|:---:| | $H_0$ | $1/5$ | $0$ | $0/320$ | $0{,}000$ | | $H_1$ | $1/5$ | $3/64$ | $3/320$ | $0{,}150$ | | $H_2$ | $1/5$ | $8/64$ | $8/320$ | $0{,}400$ | | $H_3$ | $1/5$ | $9/64$ | $9/320$ | $0{,}450$ | | $H_4$ | $1/5$ | $0$ | $0/320$ | $0{,}000$ | | **Soma** | $1{,}000$ | | $20/320$ | $1{,}000$ | : **Distribuição a posteriori após observar [🔵, ⚪, 🔵] com distribuição a priori uniforme.** {#tbl-posteriori1} A divisão de cada produto pelo total ($20/320 = 1/16$) normaliza os valores, gerando probabilidades que somam 1. Com a distribuição a priori uniforme, o fator $1/5$ é o mesmo para todas as hipóteses e se cancela na normalização. Portanto, a distribuição a posteriori é diretamente proporcional às verossimilhanças. ::: {.callout-important appearance="minimal" title="Lendo os resultados"} A hipótese com maior probabilidade a posteriori é $H_3$ (três bolinhas azuis, com 0,450), seguida de $H_2$ (duas bolinhas azuis, com 0,400). As hipóteses $H_0$ e $H_4$ foram eliminadas pelos dados. Isso reflete o que os dados sugerem, a sequência [🔵, ⚪, 🔵] contém mais azuis do que brancas, favorecendo hipóteses com maior proporção de bolinhas azuis, mas a presença de uma branca impede $H_4$ de ser plausível. ::: O mesmo cálculo em R usa a função `dbinom()`, que computa diretamente a probabilidade de observar $k$ azuis em $n$ retiradas com probabilidade $p$: ```{r} # Proporção de bolinhas azuis em cada hipótese p <- c(0, 1/4, 2/4, 3/4, 4/4) # Verossimilhança: probabilidade de observar 2 azuis em 3 retiradas # [azul, branca, azul] tem 2 azuis em 3 retiradas likelihood <- dbinom(x = 2, size = 3, prob = p) # Distribuição a priori uniforme prior <- rep(1/5, 5) # Produto não normalizado nao_normalizado <- prior * likelihood # Distribuição a posteriori posterior <- nao_normalizado / sum(nao_normalizado) # Resultado data.frame( hipotese = paste0("H", 0:4, " (N=", 0:4, ")"), prior = round(prior, 3), verossim = round(likelihood, 3), posteriori = round(posterior, 3) ) ``` # Exemplos passo a passo ## Atualização sequencial Uma das propriedades mais importantes da inferência bayesiana é que a distribuição a posteriori obtida com os dados atuais pode ser usada como distribuição a priori ao incorporar novas observações. O ciclo se repete quantas vezes forem necessárias em que cada nova evidência atualiza o conhecimento acumulado. Suponha que, após a sequência [🔵, ⚪, 🔵], realizemos uma quarta retirada e observemos novamente 🔵. Para incorporar essa nova evidência, usamos a distribuição a posteriori da @tbl-posteriori1 como nova distribuição a priori. A verossimilhança desta nova observação, para cada hipótese, é simplesmente $p_j$: a probabilidade de retirar uma bolinha azul em uma única retirada. | Hipótese | Priori (post. anterior) | $\mathcal{L}(H_j;\text{🔵}) = p_j$ | Produto | Posteriori | |:---:|:---:|:---:|:---:|:---:| | $H_0$ | 0,000 | 0,000 | 0,0000 | 0,000 | | $H_1$ | 0,150 | 0,250 | 0,0375 | 0,065 | | $H_2$ | 0,400 | 0,500 | 0,2000 | 0,348 | | $H_3$ | 0,450 | 0,750 | 0,3375 | 0,587 | | $H_4$ | 0,000 | 1,000 | 0,0000 | 0,000 | | **Soma** | 1,000 | | 0,5750 | 1,000 | : **Atualização sequencial após a quarta retirada (🔵), usando a posteriori anterior como nova priori.** {#tbl-posteriori2} A observação adicional de uma bolinha azul desloca a plausibilidade para $H_3$ ainda mais e a probabilidade a posteriori dessa hipótese passa de 0,450 para 0,587. A hipótese $H_2$ permanece plausível (0,348), mas perde terreno para $H_3$. ::: {.callout-important appearance="minimal" title="Atualização sequencial em R"} Abaixo, o cálculo da atualização sequencial. O resultado é idêntico ao de recalcular a distribuição a posteriori usando todos os quatro dados de uma só vez. ```{r} # Usando a posteriori anterior como nova priori prior_atualizada <- posterior # resultado do bloco anterior # Nova observação: uma bolinha azul # Verossimilhança de azul em uma retirada = p nova_likelihood <- p # Produto não normalizado nao_norm_2 <- prior_atualizada * nova_likelihood # Nova distribuição a posteriori posterior_2 <- nao_norm_2 / sum(nao_norm_2) # Verificação: equivalente a calcular do zero com 4 observações # [azul, branca, azul, azul] = 3 azuis em 4 retiradas posterior_direto <- dbinom(x = 3, size = 4, prob = p) posterior_direto <- posterior_direto / sum(posterior_direto) # Comparação (devem ser iguais) round(posterior_2, 3) round(posterior_direto, 3) ``` ::: ::: {.callout-tip appearance="minimal"} A equivalência entre as duas abordagens (atualizar sequencialmente ou recalcular do zero com todos os dados) só vale quando as observações são independentes entre si. Neste problema, a reposição da bolinha após cada retirada garante essa independência. ::: ## A influência da distribuição a priori Até agora, usamos uma distribuição a priori uniforme, isto é, sem informação prévia, cada hipótese recebe o mesmo peso inicial. Em situações reais, pode haver conhecimento anterior que justifique distribuições a priori diferentes da uniforme. Suponha que um fornecedor informe que a caixa [🔵⚪⚪⚪] é produzida com três vezes mais frequência do que [🔵🔵⚪⚪], e que a caixa [🔵🔵🔵⚪] é produzida com metade da frequência de [🔵🔵⚪⚪]. Além disso, o fornecedor garante que todas as caixas contêm pelo menos uma bolinha de cada cor, eliminando $H_0$ e $H_4$. Essa informação pode ser traduzida em uma distribuição a priori informativa. A @tbl-priori2 mostra como a distribuição a posteriori muda quando substituímos a priori uniforme por essa priori informativa, após observar a mesma sequência [🔵, ⚪, 🔵]. | Hipótese | Priori informativa | $\mathcal{L}(H_j;\text{dados})$ | Produto | Posteriori | |:---:|:---:|:---:|:---:|:---:| | $H_0$ | $0$ | $0$ | $0$ | $0{,}000$ | | $H_1$ | $6/9 \approx 0{,}667$ | $3/64$ | $18/576$ | $18/43 \approx 0{,}419$ | | $H_2$ | $2/9 \approx 0{,}222$ | $8/64$ | $16/576$ | $16/43 \approx 0{,}372$ | | $H_3$ | $1/9 \approx 0{,}111$ | $9/64$ | $9/576$ | $9/43 \approx 0{,}209$ | | $H_4$ | $0$ | $0$ | $0$ | $0{,}000$ | | **Soma** | $1{,}000$ | | $43/576$ | $1{,}000$ | : **Distribuição a posteriori com priori informativa. A crença prévia de que $H_1$ é mais comum reduz a vantagem de $H_3$.** {#tbl-priori2} Com a priori uniforme, a hipótese $H_3$ tinha a maior probabilidade a posteriori (0,450), pois sua verossimilhança era a mais alta. Com a priori informativa, $H_1$ passa a liderar (0,419), seguida de $H_2$ (0,372) e $H_3$ (0,209). O peso inicial elevado de $H_1$ (0,667) compensa sua verossimilhança menor e desloca a probabilidade posterior em direção a essa hipótese, mesmo com apenas três observações. ::: {.callout-important appearance="minimal" title="Priori informativa em R"} ```{r} # Priori informativa: pesos proporcionais às frequências do fornecedor # H0=0, H1=3, H2=1, H3=0.5, H4=0 pesos <- c(0, 3, 1, 0.5, 0) prior_inform <- pesos / sum(pesos) # Verossimilhança para [azul, branca, azul] likelihood <- dbinom(x = 2, size = 3, prob = p) # Distribuição a posteriori com priori informativa nao_norm_inf <- prior_inform * likelihood posterior_inf <- nao_norm_inf / sum(nao_norm_inf) data.frame( hipotese = paste0("H", 0:4, " (N=", 0:4, ")"), prior_inform = round(prior_inform, 3), verossim = round(likelihood, 3), posteriori = round(posterior_inf, 3) ) ``` ::: ::: {.callout-tip appearance="minimal"} Com dados suficientes, pesquisadores que partem de distribuições a priori diferentes chegam a distribuições a posteriori semelhantes. O peso da distribuição a priori diminui à medida que a quantidade de dados aumenta. Com poucas observações, a distribuição a priori pode exercer influência considerável sobre os resultados. É por isso que explicitar e justificar a distribuição a priori é parte fundamental da análise bayesiana. ::: ## O ciclo da inferência bayesiana A sequência de etapas desta leitura forma um ciclo completo de inferência: 1. **Definir as hipóteses** e os parâmetros que as representam. 2. **Estabelecer a distribuição a priori**, codificando o conhecimento disponível antes dos dados. 3. **Calcular a verossimilhança** de cada hipótese dado os dados observados. 4. **Aplicar o Teorema de Bayes** para obter a distribuição a posteriori. 5. **Atualizar** com novas observações, usando a distribuição a posteriori como nova distribuição a priori. Esse ciclo é idêntico ao que usamos na Aula 01, com a diferença de que, naquele caso, havia apenas dois candidatos e comparávamos suas verossimilhanças diretamente pela razão $\Lambda$. Aqui, ao tratar a verossimilhança de cada hipótese em relação ao conjunto completo e incorporar uma distribuição a priori, obtemos probabilidades a posteriori para todas as hipóteses simultaneamente. A mensagem central é que os dados sozinhos não determinam qual hipótese é verdadeira. Os dados, combinados com o conhecimento prévio, nos permitem atualizar racionalmente a plausibilidade de cada hipótese.

Hipótese	\(N_j\) azuis	Maneiras: 🔵	Maneiras: ⚪	Maneiras: 🔵	Caminhos compatíveis
\(H_0\)	0	0	4	0	\(0 \times 4 \times 0 = 0\)
\(H_1\)	1	1	3	1	\(1 \times 3 \times 1 = 3\)
\(H_2\)	2	2	2	2	\(2 \times 2 \times 2 = 8\)
\(H_3\)	3	3	1	3	\(3 \times 1 \times 3 = 9\)
\(H_4\)	4	4	0	4	\(4 \times 0 \times 4 = 0\)

Hipótese	\(N_j\)	\(p_j\)	Caminhos favoráveis	Total de caminhos	Verossimilhança \(\mathcal{L}(H_j;\text{dados}) = p_j^2(1 - p_j)\)
\(H_0\)	0	\(0\)	0	64	\(0^2 \times 1 = 0/64 = 0\)
\(H_1\)	1	\(1/4\)	3	64	\((1/4)^2 \times (3/4) = 3/64\)
\(H_2\)	2	\(1/2\)	8	64	\((1/2)^2 \times (1/2) = 8/64\)
\(H_3\)	3	\(3/4\)	9	64	\((3/4)^2 \times (1/4) = 9/64\)
\(H_4\)	4	\(1\)	0	64	\(1^2 \times 0 = 0/64 = 0\)

Hipótese	N azuis	\(p = N/4\)
\(H_0\)	0	\(p = 0\)
\(H_1\)	1	\(p = 0{,}25\)
\(H_2\)	2	\(p = 0{,}50\)
\(H_3\)	3	\(p = 0{,}75\)
\(H_4\)	4	\(p = 1\)

Hipótese	\(p\)	\(\mathcal{L}(p;\, k=2,\, n=3) = 3\,p^2(1-p)\)	Valor
\(H_0\)	\(0\)	\(3 \times 0^2 \times 1 = 0\)	\(0\)
\(H_1\)	\(1/4\)	\(3 \times (1/4)^2 \times (3/4) = 9/64\)	\(\approx 0{,}141\)
\(H_2\)	\(1/2\)	\(3 \times (1/2)^2 \times (1/2) = 3/8\)	\(0{,}375\)
\(H_3\)	\(3/4\)	\(3 \times (3/4)^2 \times (1/4) = 27/64\)	\(\approx 0{,}422\)
\(H_4\)	\(1\)	\(3 \times 1^2 \times 0 = 0\)	\(0\)

Hipótese	\(P(H_j)\)	\(\mathcal{L}(H_j;\text{dados})\)	Produto \(P(H_j) \times \mathcal{L}(H_j;\text{dados})\)	\(P(H_j \mid \text{dados})\)
\(H_0\)	\(1/5\)	\(0\)	\(0/320\)	\(0{,}000\)
\(H_1\)	\(1/5\)	\(3/64\)	\(3/320\)	\(0{,}150\)
\(H_2\)	\(1/5\)	\(8/64\)	\(8/320\)	\(0{,}400\)
\(H_3\)	\(1/5\)	\(9/64\)	\(9/320\)	\(0{,}450\)
\(H_4\)	\(1/5\)	\(0\)	\(0/320\)	\(0{,}000\)
Soma	\(1{,}000\)		\(20/320\)	\(1{,}000\)

1 Introdução

2 O problema das bolinhas

3 Contagem de possibilidades

3.1 A lógica da contagem

3.2 Aplicando a regra a uma sequência de três retiradas

3.3 Contagem para todas as hipóteses

4 Construção das tabelas de probabilidades

4.1 Da contagem à verossimilhança

5 O modelo binomial

5.1 De sequências a contagens

5.2 Todos os resultados possíveis em três retiradas

5.3 Agrupando por contagem: o coeficiente binomial

5.4 A fórmula binomial

5.5 O parâmetro \(p\) no problema das bolinhas

5.6 A verossimilhança binomial

6 Cálculo das verossimilhanças

6.1 Conexão com a Aula 01

6.2 Comparação entre duas hipóteses quaisquer

7 Atualização bayesiana

7.1 Os três componentes da inferência bayesiana

7.2 O Teorema de Bayes

7.3 Cálculo passo a passo com distribuição a priori uniforme

8 Exemplos passo a passo

8.1 Atualização sequencial

8.2 A influência da distribuição a priori

8.3 O ciclo da inferência bayesiana

Referências