Leitura Prévia - Aula 02

De contagens a probabilidades: a lógica da atualização bayesiana

Prof. Fabio Cop (fcferreira@unifesp.br)

Instituto do Mar - Unifesp

Data de Publicação

29 de março de 2026

1 Introdução

Na Aula 01, contrastamos duas hipóteses sobre o comportamento humano ao simular mentalmente o resultado do lançamento de um dado. A hipótese \(H_1\) previa que as escolhas seguiriam uma distribuição uniforme, enquanto \(H_2\) previa um viés para valores centrais. Para decidir qual das duas era mais compatível com os dados, calculamos a verossimilhança de cada hipótese e a razão de verossimilhanças \(\Lambda\). A comparação envolvia exatamente das hipóteses candidatas, e o foco estava na lógica de contrastá-las.

Nesta aula, ampliaremos esse raciocínio para permitir a comparação simultânea de várias hipóteses. Em vez de perguntar “qual das duas hipóteses é mais plausível?”, perguntaremos: “como a evidência observada distribui a plausibilidade entre todas as hipóteses possíveis?”

Essa extensão nos conduz à atualização bayesiana, o processo de combinar conhecimento prévio com evidências observadas para obter uma avaliação atualizada de cada hipótese. O formalismo que emerge é o Teorema de Bayes, e o exemplo que usaremos ao longo desta leitura é o de uma caixa contendo bolinhas de cores desconhecidas. O conteúdo abaixo é uma adaptação do capítulo 2 de McElreath (2020) que pode ser lido na íntegra neste link: Small Worlds and Large Worlds.

2 O problema das bolinhas

Imagine uma caixa contendo exatamente quatro bolinhas, cada uma podendo ser azul (🔵) ou branca (⚪). A composição da caixa é desconhecida. Com base apenas na informação de que há quatro bolinhas de duas cores possíveis, podemos listar cinco configurações:

Tabela 1: As cinco hipóteses sobre a composição da caixa. O número de bolinhas azuis é o parâmetro de interesse.
Hipótese Composição N azuis
\(H_0\) [⚪⚪⚪⚪] 0
\(H_1\) [🔵⚪⚪⚪] 1
\(H_2\) [🔵🔵⚪⚪] 2
\(H_3\) [🔵🔵🔵⚪] 3
\(H_4\) [🔵🔵🔵🔵] 4

Cada hipótese representa uma conjectura sobre o parâmetro de interesse: o número \(N\) de bolinhas azuis. Antes de realizarmos qualquer observação, não temos motivo para preferir uma hipótese sobre outra. O objetivo é descobrir quais configurações se tornam mais ou menos plausíveis à medida que coletamos evidências.

O procedimento de observação funciona assim: a caixa é sacudida, uma bolinha é retirada pela abertura, sua cor é registrada, e a bolinha retorna à caixa antes da próxima retirada. Cada retirada é independente das anteriores.

3 Contagem de possibilidades

3.1 A lógica da contagem

Para entender como as evidências nos ajudam a distinguir entre as hipóteses, começamos contando o número de maneiras pelas quais cada hipótese pode produzir uma observação.

Considere a hipótese \(H_1 =\) [🔵⚪⚪⚪]. Há quatro bolinhas na caixa, e cada uma tem a mesma chance de ser retirada. Em uma única retirada, há 1 maneira de obter 🔵 e 3 maneiras de obter ⚪.

Essa contagem se generaliza para qualquer hipótese: sob \(H_j\), com \(N_j\) bolinhas azuis, há \(N_j\) maneiras de obter 🔵 e \(4 - N_j\) maneiras de obter ⚪.

NotaRegra do produto

Quando dois eventos são independentes, o número de maneiras de obter ambos em sequência é o produto dos números de maneiras de obter cada um individualmente.

Se há \(a\) maneiras de obter o primeiro resultado e \(b\) maneiras de obter o segundo, há \(a \times b\) maneiras de obter a sequência completa. Para três retiradas consecutivas, o total de caminhos é \(a \times b \times c\).

3.2 Aplicando a regra a uma sequência de três retiradas

Suponha que realizamos três retiradas e observamos a sequência:

\[\text{1ª retirada: 🔵} \qquad \text{2ª retirada: ⚪} \qquad \text{3ª retirada: 🔵}\]

Para a hipótese \(H_1 =\) [🔵⚪⚪⚪], contamos:

  • 1ª retirada 🔵: pode ocorrer de 1 maneira (há 1 bolinha azul).
  • 2ª retirada ⚪: pode ocorrer de 3 maneiras (há 3 bolinhas brancas).
  • 3ª retirada 🔵: pode ocorrer de 1 maneira (há 1 bolinha azul).

Pela regra do produto: \(1 \times 3 \times 1 = 3\) caminhos compatíveis com a sequência [🔵, ⚪, 🔵].

Cada caminho representa uma maneira logicamente possível de a hipótese gerar os dados observados. O número total de caminhos para três retiradas sob qualquer hipótese é \(4^3 = 64\). Dos 64 caminhos de \(H_1\), apenas 3 são compatíveis com a sequência observada.

As três bolinhas brancas na configuração [🔵⚪⚪⚪] são tratadas como objetos distintos, pois cada uma pode ser retirada em momentos diferentes. Por isso, há três maneiras de observar ⚪ nessa hipótese, e não apenas uma. Essa distinção é importante para a contagem ser correta.

3.3 Contagem para todas as hipóteses

Aplicando o mesmo raciocínio a todas as hipóteses, obtemos a Tabela 2.

Tabela 2: Número de caminhos compatíveis com a sequência [🔵, ⚪, 🔵] para cada hipótese.
Hipótese \(N_j\) azuis Maneiras: 🔵 Maneiras: ⚪ Maneiras: 🔵 Caminhos compatíveis
\(H_0\) 0 0 4 0 \(0 \times 4 \times 0 = 0\)
\(H_1\) 1 1 3 1 \(1 \times 3 \times 1 = 3\)
\(H_2\) 2 2 2 2 \(2 \times 2 \times 2 = 8\)
\(H_3\) 3 3 1 3 \(3 \times 1 \times 3 = 9\)
\(H_4\) 4 4 0 4 \(4 \times 0 \times 4 = 0\)

As hipóteses \(H_0\) e \(H_4\) ficam com zero caminhos possíveis, pois \(H_0\) não contém nenhuma bolinha azul e, portanto, não pode gerar uma sequência com azul, enquanto \(H_4\) não contém nenhuma bolinha branca e não pode gerar a branca observada. Ambas são logicamente eliminadas pelos resultados observados. As hipóteses compatíveis são \(H_1\), \(H_2\) e \(H_3\), com 3, 8 e 9 caminhos, respectivamente.

4 Construção das tabelas de probabilidades

4.1 Da contagem à verossimilhança

Os caminhos contados na seção anterior medem a compatibilidade entre cada hipótese e os dados. Para transformar essas contagens em probabilidades, observamos que, sob a hipótese \(H_j\) com \(N_j\) bolinhas azuis, a probabilidade de retirar uma bolinha azul em qualquer sorteio é:

\[p_j = \frac{N_j}{4}\]

Para a sequência [🔵, ⚪, 🔵], a probabilidade de obter exatamente essa sequência sob a hipótese \(H_j\) é:

\[P(\text{dados} \mid H_j) = p_j \times (1 - p_j) \times p_j = p_j^2(1 - p_j)\]

Essa expressão calcula a probabilidade da sequência observada assumindo que a hipótese \(H_j\) seja verdadeira.

Agora fazemos apenas uma mudança de perspectiva. Em vez de pensar nos dados como algo que poderia variar, tratamos a sequência observada como fixa e usamos a mesma expressão para comparar hipóteses diferentes. Quando interpretamos

\[P(\text{dados}\mid H_j)\]

como uma função da hipótese \(H_j\), chamamos essa quantidade de verossimilhança:

\[\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)\]

Cada hipótese gera um número diferente de caminhos favoráveis que produzem a sequência observada. A verossimilhança corresponde simplesmente à fração desses caminhos em relação ao total de caminhos possíveis. Assim, a verossimilhança mede quão compatível cada hipótese é com os dados observados (Tabela 3).

Tabela 3: Verossimilhanças para cada hipótese, calculadas pela fórmula e pela contagem de caminhos.
Hipótese \(N_j\) \(p_j\) Caminhos favoráveis Total de caminhos Verossimilhança
\(\mathcal{L}(H_j;\text{dados}) = p_j^2(1 - p_j)\)
\(H_0\) 0 \(0\) 0 64 \(0^2 \times 1 = 0/64 = 0\)
\(H_1\) 1 \(1/4\) 3 64 \((1/4)^2 \times (3/4) = 3/64\)
\(H_2\) 2 \(1/2\) 8 64 \((1/2)^2 \times (1/2) = 8/64\)
\(H_3\) 3 \(3/4\) 9 64 \((3/4)^2 \times (1/4) = 9/64\)
\(H_4\) 4 \(1\) 0 64 \(1^2 \times 0 = 0/64 = 0\)
ImportanteA equivalência entre contagens e verossimilhanças

A última coluna da Tabela 3 mostra que os caminhos contados anteriormente divididos por 64 (o total de caminhos possíveis) coincidem exatamente com as verossimilhanças calculadas pela fórmula. As contagens são diretamente proporcionais às verossimilhanças. Multiplicar todas as contagens pelo mesmo fator (\(1/64\), neste caso) não altera a comparação entre hipóteses. Contar caminhos e calcular verossimilhanças são duas formas equivalentes de medir a compatibilidade entre hipótese e dados.

5 O modelo binomial

5.1 De sequências a contagens

Nas seções anteriores, calculamos a verossimilhança para a sequência particular [🔵, ⚪, 🔵], em que a primeira retirada resultou em azul, a segunda em branca e a terceira em azul. Para cada hipótese, contamos os caminhos compatíveis com essa sequência específica.

Para fazer inferência sobre a composição da caixa, o que importa é o número total de bolinhas azuis observadas, independentemente da ordem em que apareceram. A pergunta relevante torna-se: “em três retiradas, quantas resultaram em 🔵?” Essa é a pergunta que o modelo binomial responde de forma geral.

5.2 Todos os resultados possíveis em três retiradas

Em três retiradas com reposição de uma caixa com bolinhas azuis e brancas, cada resultado é uma sequência de três cores. Como há dois resultados possíveis (🔵 ou ⚪) em cada retirada, existem \(2^3 = 8\) sequências distintas (Tabela 4).

Tabela 4: Todas as sequências possíveis em três retiradas com reposição. A linha 6 (em negrito) corresponde à sequência observada no experimento.
# Sequência N azuis Proporção
1 ⚪ ⚪ ⚪ 0 0/3 = 0,00
2 ⚪ ⚪ 🔵 1 1/3 ≈ 0,33
3 ⚪ 🔵 ⚪ 1 1/3 ≈ 0,33
4 🔵 ⚪ ⚪ 1 1/3 ≈ 0,33
5 ⚪ 🔵 🔵 2 2/3 ≈ 0,67
6 🔵 ⚪ 🔵 2 2/3 ≈ 0,67
7 🔵 🔵 ⚪ 2 2/3 ≈ 0,67
8 🔵 🔵 🔵 3 3/3 = 1,00

Há apenas uma sequência com 0 azuis (linha 1) e uma com 3 azuis (linha 8). Os demais resultados são variações entre esses extremos. Nossa sequência observada, [🔵 ⚪ 🔵], corresponde à linha 6. As linhas 5, 6 e 7 contêm exatamente 2 azuis em 3 retiradas.

5.3 Agrupando por contagem: o coeficiente binomial

A Tabela 4 pode ser reorganizada para evidenciar todas as sequências que produzem o mesmo número \(k\) de bolinhas azuis (Tabela 5).

Tabela 5: Combinações que produzem \(k\) bolinhas azuis em três retiradas.
N azuis (\(k\)) Sequências N combinações
0 ⚪ ⚪ ⚪ 1
1 ⚪ ⚪ 🔵
⚪ 🔵 ⚪
🔵 ⚪ ⚪
3
2 ⚪ 🔵 🔵
🔵 ⚪ 🔵
🔵 🔵 ⚪
3
3 🔵 🔵 🔵 1

O número de combinações segue o padrão 1, 3, 3, 1. Esse padrão é capturado pelo coeficiente binomial:

\[\binom{n}{k} = \frac{n!}{k!\,(n-k)!} \tag{1}\]

O coeficiente \(\binom{n}{k}\) conta o número de maneiras distintas de obter \(k\) azuis em \(n\) retiradas. Para \(n = 3\): \(\binom{3}{0} = 1\), \(\binom{3}{1} = 3\), \(\binom{3}{2} = 3\) e \(\binom{3}{3} = 1\). Esses valores correspondem exatamente às contagens da Tabela 5.

NotaPor que o coeficiente binomial?

O coeficiente binomial conta de quantas maneiras podemos posicionar \(k\) azuis em \(n\) retiradas. Para \(k = 1\) azul em \(n = 3\) posições, a bolinha azul pode ocupar a posição 1, 2 ou 3: há \(\binom{3}{1} = 3\) arranjos possíveis. Para \(k = 2\) azuis, as posições ocupadas podem ser (1,2), (1,3) ou (2,3): novamente \(\binom{3}{2} = 3\) arranjos.

5.4 A fórmula binomial

Com o coeficiente binomial, podemos calcular a probabilidade de observar \(k\) bolinhas azuis em \(n\) retiradas para qualquer valor do parâmetro \(p\). A Tabela 6 mostra as expressões para cada contagem possível no experimento de três retiradas.

Tabela 6: Probabilidade \(P(k \mid n=3,\, p)\) de observar diferentes contagens de bolinhas azuis em três retiradas.
N azuis (\(k\)) Sequências N combinações \(P(k \mid n=3,\, p)\)
0 ⚪ ⚪ ⚪ 1 \(1 \times (1-p)^3\)
1 ⚪ ⚪ 🔵
⚪ 🔵 ⚪
🔵 ⚪ ⚪
3 \(3 \times p \times (1-p)^2\)
2 ⚪ 🔵 🔵
🔵 ⚪ 🔵
🔵 🔵 ⚪
3 \(3 \times p^2 \times (1-p)\)
3 🔵 🔵 🔵 1 \(1 \times p^3\)

Cada linha da Tabela 6 é o produto do coeficiente binomial pela probabilidade de uma sequência individual com \(k\) azuis. Essa estrutura se generaliza para qualquer \(n\) e \(k\):

\[P(k \mid n,\, p) = \binom{n}{k}\, p^k\, (1-p)^{n-k} \tag{2}\]

Onde:

  • \(k \in \{0, 1, \ldots, n\}\) é o número de bolinhas azuis observadas,
  • \(n\) é o número total de retiradas,
  • \(p\) é a probabilidade de retirar uma bolinha azul em uma única retirada,
  • \(\binom{n}{k}\) é o coeficiente binomial, que conta o número de sequências distintas com \(k\) azuis em \(n\) posições.

5.5 O parâmetro \(p\) no problema das bolinhas

No problema das bolinhas, o parâmetro \(p\) representa a proporção de bolinhas azuis na caixa. Como a caixa contém exatamente quatro bolinhas, \(p\) assume apenas cinco valores possíveis, determinados pela composição de cada hipótese (Tabela 7).

Tabela 7: As cinco hipóteses interpretadas como valores possíveis do parâmetro \(p\).
Hipótese N azuis \(p = N/4\)
\(H_0\) 0 \(p = 0\)
\(H_1\) 1 \(p = 0{,}25\)
\(H_2\) 2 \(p = 0{,}50\)
\(H_3\) 3 \(p = 0{,}75\)
\(H_4\) 4 \(p = 1\)
ImportanteO parâmetro p nesta aula

Nesta aula, o parâmetro \(p\) assume apenas cinco valores discretos:

\[p \in \{0,\;\; 0{,}25,\;\; 0{,}50,\;\; 0{,}75,\;\; 1\}\]

Esses valores são determinados pela estrutura do problema: a caixa contém exatamente quatro bolinhas, cada uma azul ou branca. A extensão para valores contínuos de \(p\) será desenvolvida em aulas futuras.

5.6 A verossimilhança binomial

Com os dados fixos (\(k = 2\) azuis em \(n = 3\) retiradas), a Equação 2 pode ser relida como uma função de \(p\). A verossimilhança binomial mede a compatibilidade de cada hipótese à luz desse resultado:

\[\mathcal{L}(p;\, n = 3,\, k = 2) = \binom{3}{2}\, p^2\, (1-p) = 3\, p^2\, (1-p) \tag{3}\]

A Tabela 8 mostra os valores para cada hipótese.

Tabela 8: Verossimilhança binomial para cada hipótese, dado \(k = 2\) azuis em \(n = 3\) retiradas.
Hipótese \(p\) \(\mathcal{L}(p;\, k=2,\, n=3) = 3\,p^2(1-p)\) Valor
\(H_0\) \(0\) \(3 \times 0^2 \times 1 = 0\) \(0\)
\(H_1\) \(1/4\) \(3 \times (1/4)^2 \times (3/4) = 9/64\) \(\approx 0{,}141\)
\(H_2\) \(1/2\) \(3 \times (1/2)^2 \times (1/2) = 3/8\) \(0{,}375\)
\(H_3\) \(3/4\) \(3 \times (3/4)^2 \times (1/4) = 27/64\) \(\approx 0{,}422\)
\(H_4\) \(1\) \(3 \times 1^2 \times 0 = 0\) \(0\)

Compare os valores da Tabela 8 com os da Tabela 3. A verossimilhança binomial é exatamente \(\binom{3}{2} = 3\) vezes maior em cada hipótese. Isso ocorre porque a Tabela 3 calculou a probabilidade da sequência específica [🔵, ⚪, 🔵], enquanto a Tabela 8 considera qualquer sequência com 2 azuis em 3 retiradas (há 3 dessas sequências, listadas nas linhas 5, 6 e 7 da Tabela 4). Como o fator 3 é idêntico para todas as hipóteses, ele se cancela na normalização, e a distribuição a posteriori é idêntica nos dois casos.

6 Cálculo das verossimilhanças

6.1 Conexão com a Aula 01

Na Aula 01, calculamos a verossimilhança como a probabilidade dos dados observados dado um modelo:

\[\mathcal{L}(H;\text{dados}) = P(\text{dados} \mid H)\]

No exemplo das bolinhas, a mesma definição se aplica. Sob \(H_j\), cada retirada é independente e cada bolinha é igualmente provável de ser sorteada. A probabilidade de uma sequência de \(n\) retiradas com \(k\) azuis e \((n - k)\) brancas depende apenas de \(p_j\) e das posições em que as cores aparecem. Para a sequência [🔵, ⚪, 🔵]:

\[\mathcal{L}(H_j;\text{🔵, ⚪, 🔵}) = p_j \cdot (1 - p_j) \cdot p_j = p_j^2 (1 - p_j)\]

Nessa expressão, os dados são fixos e o que varia é \(p_j\), que depende da hipótese. A verossimilhança mede a probabilidade de observar os dados, assumindo que \(H_j\) seja verdadeira. O que varia entre hipóteses é o valor de \(p_j\), enquanto os dados permanecem fixos.

NotaVerossimilhança e probabilidade: definições e notações

A verossimilhança é definida como:

\[\mathcal{L}(H_j;\text{dados}) = P(\text{dados}\mid H_j)\]

O valor numérico é idêntico ao de \(P(\text{dados} \mid H_j)\). A diferença está na interpretação:

  • Probabilidade \(P(\text{dados} \mid H_j)\): os dados variam, a hipótese é fixa. Dado um modelo, qual é a chance de observar este resultado?
  • Verossimilhança \(\mathcal{L}(H_j;\text{dados})\): os dados são fixos, a hipótese varia. Dado que observamos estes dados, quão compatível é cada hipótese?

A verossimilhança não é uma probabilidade sobre as hipóteses. É a probabilidade dos dados vista como função da hipótese.

Essa distinção aparece diretamente no Teorema de Bayes:

\[P(H_j \mid \text{dados}) \propto \mathcal{L}(H_j;\text{dados}) \times P(H_j)\]

ou seja: posteriori ∝ verossimilhança × priori.

6.2 Comparação entre duas hipóteses quaisquer

Na Aula 01, usamos a razão de verossimilhanças \(\Lambda = \mathcal{L}(H_2;\text{dados})/\mathcal{L}(H_1;\text{dados})\) para comparar dois modelos. No exemplo das bolinhas, podemos calcular a mesma razão para qualquer par de hipóteses. Por exemplo, comparando \(H_3\) com \(H_2\):

\[\Lambda = \frac{\mathcal{L}(H_3;\text{dados})}{\mathcal{L}(H_2;\text{dados})} = \frac{9/64}{8/64} = \frac{9}{8} \approx 1{,}13\]

Os dados observados são cerca de 1,13 vezes mais compatíveis com \(H_3\) do que com \(H_2\). A comparação é informativa, mas nos diz apenas qual das duas é preferível. A atualização bayesiana, vista a seguir, distribui a plausibilidade entre todas as hipóteses de forma simultânea.

7 Atualização bayesiana

7.1 Os três componentes da inferência bayesiana

A atualização bayesiana combina três elementos para distribuir a plausibilidade entre as hipóteses à luz dos dados:

NotaDistribuição a priori

\(P(H_j)\) expressa o grau de crença em cada hipótese antes de observar os dados. Pode refletir conhecimento teórico, resultados de estudos anteriores ou, na ausência de informação, uma distribuição uniforme que atribui igual plausibilidade a todas as hipóteses.

NotaVerossimilhança

\(\mathcal{L}(H_j;\text{dados})\) mede a compatibilidade de cada hipótese com os dados observados. Reflete o que os dados dizem, independentemente de qualquer crença prévia.

NotaDistribuição a posteriori

\(P(H_j \mid \text{dados})\) expressa o grau de crença em cada hipótese depois de incorporar os dados. É o resultado da atualização e representa o conhecimento acumulado até o momento.

7.2 O Teorema de Bayes

A relação entre os três componentes é formalizada pelo Teorema de Bayes:

\[P(H_j \mid \text{dados}) = \frac{P(H_j) \times \mathcal{L}(H_j;\text{dados})}{\displaystyle\sum_{i=0}^{4} P(H_i) \times \mathcal{L}(H_i;\text{dados})} \tag{4}\]

O denominador é uma constante de normalização que garante que as probabilidades a posteriori somem 1. O que governa as diferenças relativas entre as hipóteses é o numerador, \(P(H_j) \times \mathcal{L}(H_j;\text{dados})\).

7.3 Cálculo passo a passo com distribuição a priori uniforme

Com uma distribuição a priori uniforme em que \(P(H_j) = 1/5\) para todo \(j\), a Tabela 9 mostra o cálculo completo da distribuição a posteriori.

Tabela 9: Distribuição a posteriori após observar [🔵, ⚪, 🔵] com distribuição a priori uniforme.
Hipótese \(P(H_j)\) \(\mathcal{L}(H_j;\text{dados})\) Produto \(P(H_j) \times \mathcal{L}(H_j;\text{dados})\) \(P(H_j \mid \text{dados})\)
\(H_0\) \(1/5\) \(0\) \(0/320\) \(0{,}000\)
\(H_1\) \(1/5\) \(3/64\) \(3/320\) \(0{,}150\)
\(H_2\) \(1/5\) \(8/64\) \(8/320\) \(0{,}400\)
\(H_3\) \(1/5\) \(9/64\) \(9/320\) \(0{,}450\)
\(H_4\) \(1/5\) \(0\) \(0/320\) \(0{,}000\)
Soma \(1{,}000\) \(20/320\) \(1{,}000\)

A divisão de cada produto pelo total (\(20/320 = 1/16\)) normaliza os valores, gerando probabilidades que somam 1. Com a distribuição a priori uniforme, o fator \(1/5\) é o mesmo para todas as hipóteses e se cancela na normalização. Portanto, a distribuição a posteriori é diretamente proporcional às verossimilhanças.

ImportanteLendo os resultados

A hipótese com maior probabilidade a posteriori é \(H_3\) (três bolinhas azuis, com 0,450), seguida de \(H_2\) (duas bolinhas azuis, com 0,400). As hipóteses \(H_0\) e \(H_4\) foram eliminadas pelos dados. Isso reflete o que os dados sugerem, a sequência [🔵, ⚪, 🔵] contém mais azuis do que brancas, favorecendo hipóteses com maior proporção de bolinhas azuis, mas a presença de uma branca impede \(H_4\) de ser plausível.

O mesmo cálculo em R usa a função dbinom(), que computa diretamente a probabilidade de observar \(k\) azuis em \(n\) retiradas com probabilidade \(p\):

# Proporção de bolinhas azuis em cada hipótese
p <- c(0, 1/4, 2/4, 3/4, 4/4)

# Verossimilhança: probabilidade de observar 2 azuis em 3 retiradas
# [azul, branca, azul] tem 2 azuis em 3 retiradas
likelihood <- dbinom(x = 2, size = 3, prob = p)

# Distribuição a priori uniforme
prior <- rep(1/5, 5)

# Produto não normalizado
nao_normalizado <- prior * likelihood

# Distribuição a posteriori
posterior <- nao_normalizado / sum(nao_normalizado)

# Resultado
data.frame(
  hipotese   = paste0("H", 0:4, " (N=", 0:4, ")"),
  prior      = round(prior, 3),
  verossim   = round(likelihood, 3),
  posteriori = round(posterior, 3)
)
  hipotese prior verossim posteriori
1 H0 (N=0)   0.2    0.000       0.00
2 H1 (N=1)   0.2    0.141       0.15
3 H2 (N=2)   0.2    0.375       0.40
4 H3 (N=3)   0.2    0.422       0.45
5 H4 (N=4)   0.2    0.000       0.00

8 Exemplos passo a passo

8.1 Atualização sequencial

Uma das propriedades mais importantes da inferência bayesiana é que a distribuição a posteriori obtida com os dados atuais pode ser usada como distribuição a priori ao incorporar novas observações. O ciclo se repete quantas vezes forem necessárias em que cada nova evidência atualiza o conhecimento acumulado.

Suponha que, após a sequência [🔵, ⚪, 🔵], realizemos uma quarta retirada e observemos novamente 🔵. Para incorporar essa nova evidência, usamos a distribuição a posteriori da Tabela 9 como nova distribuição a priori.

A verossimilhança desta nova observação, para cada hipótese, é simplesmente \(p_j\): a probabilidade de retirar uma bolinha azul em uma única retirada.

Tabela 10: Atualização sequencial após a quarta retirada (🔵), usando a posteriori anterior como nova priori.
Hipótese Priori (post. anterior) \(\mathcal{L}(H_j;\text{🔵}) = p_j\) Produto Posteriori
\(H_0\) 0,000 0,000 0,0000 0,000
\(H_1\) 0,150 0,250 0,0375 0,065
\(H_2\) 0,400 0,500 0,2000 0,348
\(H_3\) 0,450 0,750 0,3375 0,587
\(H_4\) 0,000 1,000 0,0000 0,000
Soma 1,000 0,5750 1,000

A observação adicional de uma bolinha azul desloca a plausibilidade para \(H_3\) ainda mais e a probabilidade a posteriori dessa hipótese passa de 0,450 para 0,587. A hipótese \(H_2\) permanece plausível (0,348), mas perde terreno para \(H_3\).

ImportanteAtualização sequencial em R

Abaixo, o cálculo da atualização sequencial. O resultado é idêntico ao de recalcular a distribuição a posteriori usando todos os quatro dados de uma só vez.

# Usando a posteriori anterior como nova priori
prior_atualizada <- posterior   # resultado do bloco anterior

# Nova observação: uma bolinha azul
# Verossimilhança de azul em uma retirada = p
nova_likelihood <- p

# Produto não normalizado
nao_norm_2 <- prior_atualizada * nova_likelihood

# Nova distribuição a posteriori
posterior_2 <- nao_norm_2 / sum(nao_norm_2)

# Verificação: equivalente a calcular do zero com 4 observações
# [azul, branca, azul, azul] = 3 azuis em 4 retiradas
posterior_direto <- dbinom(x = 3, size = 4, prob = p)
posterior_direto <- posterior_direto / sum(posterior_direto)

# Comparação (devem ser iguais)
round(posterior_2, 3)
[1] 0.000 0.065 0.348 0.587 0.000
round(posterior_direto, 3)
[1] 0.000 0.065 0.348 0.587 0.000

A equivalência entre as duas abordagens (atualizar sequencialmente ou recalcular do zero com todos os dados) só vale quando as observações são independentes entre si. Neste problema, a reposição da bolinha após cada retirada garante essa independência.

8.2 A influência da distribuição a priori

Até agora, usamos uma distribuição a priori uniforme, isto é, sem informação prévia, cada hipótese recebe o mesmo peso inicial. Em situações reais, pode haver conhecimento anterior que justifique distribuições a priori diferentes da uniforme.

Suponha que um fornecedor informe que a caixa [🔵⚪⚪⚪] é produzida com três vezes mais frequência do que [🔵🔵⚪⚪], e que a caixa [🔵🔵🔵⚪] é produzida com metade da frequência de [🔵🔵⚪⚪]. Além disso, o fornecedor garante que todas as caixas contêm pelo menos uma bolinha de cada cor, eliminando \(H_0\) e \(H_4\).

Essa informação pode ser traduzida em uma distribuição a priori informativa. A Tabela 11 mostra como a distribuição a posteriori muda quando substituímos a priori uniforme por essa priori informativa, após observar a mesma sequência [🔵, ⚪, 🔵].

Tabela 11: Distribuição a posteriori com priori informativa. A crença prévia de que \(H_1\) é mais comum reduz a vantagem de \(H_3\).
Hipótese Priori informativa \(\mathcal{L}(H_j;\text{dados})\) Produto Posteriori
\(H_0\) \(0\) \(0\) \(0\) \(0{,}000\)
\(H_1\) \(6/9 \approx 0{,}667\) \(3/64\) \(18/576\) \(18/43 \approx 0{,}419\)
\(H_2\) \(2/9 \approx 0{,}222\) \(8/64\) \(16/576\) \(16/43 \approx 0{,}372\)
\(H_3\) \(1/9 \approx 0{,}111\) \(9/64\) \(9/576\) \(9/43 \approx 0{,}209\)
\(H_4\) \(0\) \(0\) \(0\) \(0{,}000\)
Soma \(1{,}000\) \(43/576\) \(1{,}000\)

Com a priori uniforme, a hipótese \(H_3\) tinha a maior probabilidade a posteriori (0,450), pois sua verossimilhança era a mais alta. Com a priori informativa, \(H_1\) passa a liderar (0,419), seguida de \(H_2\) (0,372) e \(H_3\) (0,209). O peso inicial elevado de \(H_1\) (0,667) compensa sua verossimilhança menor e desloca a probabilidade posterior em direção a essa hipótese, mesmo com apenas três observações.

ImportantePriori informativa em R
# Priori informativa: pesos proporcionais às frequências do fornecedor
# H0=0, H1=3, H2=1, H3=0.5, H4=0
pesos <- c(0, 3, 1, 0.5, 0)
prior_inform <- pesos / sum(pesos)

# Verossimilhança para [azul, branca, azul]
likelihood <- dbinom(x = 2, size = 3, prob = p)

# Distribuição a posteriori com priori informativa
nao_norm_inf <- prior_inform * likelihood
posterior_inf <- nao_norm_inf / sum(nao_norm_inf)

data.frame(
  hipotese        = paste0("H", 0:4, " (N=", 0:4, ")"),
  prior_inform    = round(prior_inform, 3),
  verossim        = round(likelihood, 3),
  posteriori      = round(posterior_inf, 3)
)
  hipotese prior_inform verossim posteriori
1 H0 (N=0)        0.000    0.000      0.000
2 H1 (N=1)        0.667    0.141      0.419
3 H2 (N=2)        0.222    0.375      0.372
4 H3 (N=3)        0.111    0.422      0.209
5 H4 (N=4)        0.000    0.000      0.000

Com dados suficientes, pesquisadores que partem de distribuições a priori diferentes chegam a distribuições a posteriori semelhantes. O peso da distribuição a priori diminui à medida que a quantidade de dados aumenta. Com poucas observações, a distribuição a priori pode exercer influência considerável sobre os resultados. É por isso que explicitar e justificar a distribuição a priori é parte fundamental da análise bayesiana.

8.3 O ciclo da inferência bayesiana

A sequência de etapas desta leitura forma um ciclo completo de inferência:

  1. Definir as hipóteses e os parâmetros que as representam.
  2. Estabelecer a distribuição a priori, codificando o conhecimento disponível antes dos dados.
  3. Calcular a verossimilhança de cada hipótese dado os dados observados.
  4. Aplicar o Teorema de Bayes para obter a distribuição a posteriori.
  5. Atualizar com novas observações, usando a distribuição a posteriori como nova distribuição a priori.

Esse ciclo é idêntico ao que usamos na Aula 01, com a diferença de que, naquele caso, havia apenas dois candidatos e comparávamos suas verossimilhanças diretamente pela razão \(\Lambda\). Aqui, ao tratar a verossimilhança de cada hipótese em relação ao conjunto completo e incorporar uma distribuição a priori, obtemos probabilidades a posteriori para todas as hipóteses simultaneamente.

A mensagem central é que os dados sozinhos não determinam qual hipótese é verdadeira. Os dados, combinados com o conhecimento prévio, nos permitem atualizar racionalmente a plausibilidade de cada hipótese.

Referências

McElreath, Richard. 2020. Statistical Rethinking: A Bayesian Course with Examples in R and Stan. 2º ed. Chapman; Hall/CRC.