Leitura Prévia - Aula 01

Contrastando Hipóteses: da formulação de modelos à atualização do conhecimento

Prof. Fabio Cop (fcferreira@unifesp.br)

Instituto do Mar - Unifesp

Data de Publicação

29 de março de 2026

1 Por que contrastamos hipóteses?

Toda investigação científica começa com uma pergunta. Na ciência, entretanto, as perguntas precisam ser estruturadas de modo que possamos gerar dados que nos ajudem a respondê-las. Para isso, precisamos transformar nossas intuições e conjecturas em hipóteses e modelos.

Imagine que você deseja saber se juvenis de peixes costeiros se concentram preferencialmente em trechos influenciados por aporte fluvial. Uma hipótese natural seria: “juvenis preferem trechos próximos à desembocadura de pequenos rios, possivelmente devido ao maior aporte de nutrientes, alimento ou abrigo”. Essa hipótese nos levaria a um modelo em que as densidades seriam desproporcionalmente maiores nessas áreas. Por outro lado, podemos pensar em uma hipótese mais simples que poderia ser formulada como: “a proximidade da desembocadura de rios não influencia a distribuição dos juvenis”, o que nos levaria a um modelo em que suas densidades próximas às desembocaduras não seriam consistentemente maiores ou menores que no restante da praia. A questão é: quais dados poderíamos obter para sermos capazes de distinguir entre essas duas hipóteses e como devemos tratar esses dados?

2 De hipóteses a modelos probabilísticos

2.1 O que é uma hipótese no sentido estatístico?

No uso cotidiano, “hipótese” costuma significar uma conjectura vaga ou uma simples suspeita. No contexto estatístico, o termo se refere a uma afirmação sobre como o mundo funciona, formulada de maneira suficientemente específica para ser contrastada com dados. Uma hipótese deve permitir antecipar o que se espera observar em relação aos possíveis resultados de um fenômeno. Isso só é possível quando, a partir dela, podemos construir um modelo que gere resultados compatíveis com suas premissas. Como esse modelo representa uma forma possível de manifestação do fenômeno, ele é, em essência, um modelo probabilístico, isto é, um modelo que atribui diferentes probabilidades aos resultados possíveis de uma observação, condicionadas à hipótese ser verdadeira.

Definição

Modelo probabilístico: função matemática que especifica, para cada resultado possível de um experimento, a probabilidade de aquele resultado ocorrer. Um modelo probabilístico é a representação matemática de uma hipótese sobre o mecanismo que gera os dados.

Vamos ilustrar esse processo com um exemplo simples. O contexto é o seguinte: sabemos que, ao lançar um dado de seis lados, cada face tem probabilidade igual a 1/6 de sair voltada para cima. A pergunta que podemos fazer é: sabendo disso, somos capazes de simular mentalmente o lançamento de um dado escolhendo aleatoriamente um número de 1 a 6?

A partir dessa questão, podemos formular duas hipóteses, que chamaremos de hipótese 1 ($H_1$) e hipótese 2 ($H_2$), conforme descrito abaixo:

$H_1$ (uniforme): ao simular mentalmente o lançamento, temos a mesma chance de escolher qualquer uma das seis faces, mimetizando o que seria esperado por um lançamento de um dado físico real.
$H_2$ (viés central): o ser humano tende a evitar a escolha de valores extremos, selecionando com mais frequência valores intermediários. Nesse caso, as faces centrais (3 e 4) seriam preferidas, enquanto as faces extremas (1 e 6) seriam evitadas.

Para que essas hipóteses sejam operacionais, precisamos traduzi-las em modelos formais. A pergunta exata passa a ser: qual é a probabilidade de obter cada face sob estas duas hipóteses?

Definição formal dos modelos

Modelo $M_1$ (uniforme):

\[M_1: \quad P(X = k) = \frac{1}{6}, \quad k = 1, 2, 3, 4, 5, 6\]

Modelo $M_2$ (viés central):

\[M_2: \quad P(X = k) = \frac{w_k}{14}, \quad \text{onde } w = (1, 2, 4, 4, 2, 1)\]

Ou seja: $P(X=1) = P(X=6) = 1/14$, $P(X=2) = P(X=5) = 2/14$, $P(X=3) = P(X=4) = 4/14$.

Ambos os modelos são distribuições de probabilidade válidas, pois as probabilidades somam 1 e são todas não-negativas. Eles representam, porém, mecanismos muito distintos para gerar os dados. Sob $M_1$, uma pessoa escolhe cada face com a mesma frequência a longo prazo. Sob $M_2$, se pedirmos a uma pessoa que imagine um número entre 1 e 6, ela tenderá a escolher 3 ou 4 com muito mais frequência do que 1 ou 6.

2.2 Por que precisamos de pelo menos duas hipóteses?

Uma das ideias mais importantes desta aula é que uma única hipótese não é suficiente para fazer ciência.

Para ilustrar por quê, pense no que $H_1$ nos diz sobre qualquer resultado possível. Se cada face tem probabilidade $1/6$, então qualquer combinação de contagens é, em princípio, possível. Uma turma em que todos os 50 alunos responderam “3” ao imaginar um dado é um evento de baixíssima probabilidade, mas ainda é possível sob $H_1$. Uma turma com resultados perfeitamente equilibrados também é possível. A pergunta “será que $H_1$ é verdadeira?” não tem uma resposta clara, porque $H_1$ nunca diz “isso não pode acontecer”. Para o modelo uniforme, esta questão é especialmente relevante como você pode ler em Tip 1.

A evidência emerge apenas quando confrontamos duas hipóteses e decidimos se os resultados observados são mais compatíveis com $H_1$ ou com $H_2$. A comparação é o que produz discriminação e nos possibilita escolher uma hipótese mais plausível.

Analogia: imagine que você lança uma moeda e obtém “cara” em 7 dos 10 lançamentos. Isso é incomum? A resposta depende do que você está comparando. Se a única hipótese disponível é “a moeda é justa”, tudo que pode dizer é que o resultado é possível (mesmo que improvável). Mas se você também considera “a moeda está viciada para cara”, pode quantificar qual hipótese é mais compatível com os dados observados. A comparação entre duas hipóteses é o que gera evidência.

A formulação das hipóteses antes da obtenção dos dados é importante. Ao definir $H_1$ e $H_2$ antecipadamente, você cria um critério de comparação que não depende dos resultados do experimento, mas das suas expectativas iniciais. Assim, quando os dados são compatíveis com $H_2$, isso pode ser considerado uma evidência real a favor dessa hipótese.

3 Verossimilhança: quantificando a compatibilidade

3.1 O conceito de verossimilhança

Dado um conjunto de dados observados e um modelo probabilístico, a verossimilhança mede o grau de compatibilidade entre o modelo e os dados.

É essencial distinguir verossimilhança de probabilidade, pois os dois conceitos olham em direções opostas:

Probabilidade olha para frente: dado um modelo, qual é a chance de observar um determinado resultado? “$P(\text{dados} \mid H)$”
Verossimilhança olha para trás: dado que já observamos um resultado, quão plausível é este modelo? “$\mathcal{L}(H;\text{dados})$”

Na prática, o valor numérico de $\mathcal{L}(H;\text{dados})$ é calculado exatamente como $P(\text{dados} \mid H)$. A diferença está na interpretação. Ao calcular a verossimilhança, os dados são fixos e o modelo é o que varia.

Verossimilhança: definição e notação

Verossimilhança (likelihood): para um conjunto de dados observados $x$ e um modelo $H$, a verossimilhança é definida como:

\[\mathcal{L}(H;x) = P(x \mid H)\]

O valor numérico é idêntico ao de $P(x \mid H)$. A diferença está na interpretação: na verossimilhança, os dados são fixos e a hipótese é o que varia. A verossimilhança não é uma probabilidade sobre as hipóteses. É a probabilidade dos dados vista como função da hipótese.

Isso nos permite comparar a compatibilidade de diferentes hipóteses ($H_1, H_2, \cdots, H_r$) com os dados observados em $x$.

3.2 A fórmula para dados categóricos

No exemplo do dado mental, os resultados consistem nas contagens $n_1, n_2, \ldots, n_6$, onde $n_k$ é o número de vezes que a face $k$ apareceu. O total de observações é $n = \sum_{k=1}^{6} n_k$.

Se o modelo atribui probabilidade $p_k$ à face $k$, então a probabilidade de observar a sequência completa de resultados que produziu as contagens $n_1, \ldots, n_6$ é o produto das probabilidades de cada resultado individual. Isso nos dá a verossimilhança multinomial:

\[\mathcal{L}(H;\text{dados}) = \prod_{k=1}^{6} p_k^{n_k}\]

Na prática, é mais conveniente trabalhar com o logaritmo da verossimilhança (log-verossimilhança), que transforma o produto em soma e evita problemas de precisão numérica com números muito pequenos:

\[\log \mathcal{L}(H;\text{dados}) = \sum_{k=1}^{6} n_k \cdot \log(p_k)\]

Exemplo de cálculo

Suponha que, em $n = 4$ escolhas, tenhamos observado a sequência $3, 4, 3, 1$. As contagens são:

\[ n_1 = 1,\quad n_2 = 0,\quad n_3 = 2,\quad n_4 = 1,\quad n_5 = 0,\quad n_6 = 0 \]

Sob a hipótese $H_1$ e o modelo uniforme $M_1$, temos $p_k = 1/6$ para todo $k$. Logo,

\[ \mathcal{L}(H_1;\text{dados}) = \prod_{k=1}^{6} p_k^{n_k} = \left(\frac{1}{6}\right)^1 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^2 \left(\frac{1}{6}\right)^1 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^0 = \left(\frac{1}{6}\right)^4 = \frac{1}{1296} \approx 0{,}00077 \]

Sob a hipótese $H_2$ e o modelo com viés central $M_2$, as probabilidades são $p_1 = 1/14$, $p_2 = 2/14$, $p_3 = 4/14$, $p_4 = 4/14$, $p_5 = 2/14$, $p_6 = 1/14$. Portanto,

\[ \mathcal{L}(H_2;\text{dados}) = \left(\frac{1}{14}\right)^1 \left(\frac{2}{14}\right)^0 \left(\frac{4}{14}\right)^2 \left(\frac{4}{14}\right)^1 \left(\frac{2}{14}\right)^0 \left(\frac{1}{14}\right)^0 = \left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3 = \frac{4}{2401} \approx 0{,}00167 \]

Podemos obter a log-verossimilhança por:

\[ \log \mathcal{L}(H_1;\text{dados}) = \log\!\left[\left(\frac{1}{6}\right)^4\right] = 4 \log\!\left(\frac{1}{6}\right) \approx -7{,}167 \]

\[ \log \mathcal{L}(H_2;\text{dados}) = \log\!\left[\left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3\right] = \log\!\left(\frac{1}{14}\right) + 3 \log\!\left(\frac{4}{14}\right) \approx -6{,}397 \]

A conclusão é a mesma nas duas escalas: como $\mathcal{L}(H_2;\text{dados}) > \mathcal{L}(H_1;\text{dados})$ e também $\log \mathcal{L}(H_2;\text{dados}) > \log \mathcal{L}(H_1;\text{dados})$, os dados são mais compatíveis com $H_2$. Isso ocorre porque a sequência observada concentra resultados nas faces centrais, às quais $H_2$ atribui probabilidades maiores.

Façamos um exemplo usando o R, porém utilizando um exemplo maior para 57 lançamentos. O cálculo é direto:

# Probabilidades dos dois modelos
p_h1 <- rep(1/6, 6)                   # M1: modelo uniforme
p_h2 <- c(1, 2, 4, 4, 2, 1) / 14      # M2: modelo com viés central

# Frequências observadas no lançamento
freq_obs <- c(n1 = 7, n2 = 8, n3 = 12, n4 = 15, n5 = 8, n6 = 7)

# Log-verossimilhanças de cada modelo dado o mesmo conjunto de dados
loglik_h1 <- sum(freq_obs * log(p_h1))
loglik_h2 <- sum(freq_obs * log(p_h2))

# Exibir os valores
cat(
  "\n","Log-verossimilhança de H1 (M1):", round(loglik_h1, 3), "\n",
  "Log-verossimilhança de H2 (M2):", round(loglik_h2, 3), "\n"
)


 Log-verossimilhança de H1 (M1): -102.13 
 Log-verossimilhança de H2 (M2): -101.906

Note que o resultado são dois números negativos. O log da verossimilhança é sempre $\leq 0$ porque as probabilidades $p_k \leq 1$ e, portanto, $\log(p_k) \leq 0$. O que importa não é o valor absoluto, mas a diferença entre as duas log-verossimilhanças. Preferimos a hipótese cuja log-verossimilhança é maior, pois ela é mais plausível segundo os resultados obtidos.

Dica 1: O ponto cego de $H_1$ uniforme

Uma propriedade da log-verossimilhança do modelo uniforme $M_1$ é que, como $p_k = 1/6$ para todo $k$, o fator $\log(1/6)$ pode ser fatorado para fora da soma:

\[ \log \mathcal{L}(H_1;\text{dados}) = \sum_{k=1}^{6} n_k \cdot \log\!\left(\frac{1}{6}\right) = \log\!\left(\frac{1}{6}\right) \cdot \underbrace{\sum_{k=1}^{6} n_k}_{= n} = n \cdot \log\!\left(\frac{1}{6}\right) \]

O resultado depende apenas do número total de observações $n$, pois sob o modelo uniforme, a parte da verossimilhança que depende das probabilidades não distingue padrões diferentes nos dados e apenas o número total de observações importa.

Isso ocorre porque todas as faces recebem exatamente a mesma probabilidade. Assim, enquanto o total de observações for o mesmo, essa parte da log-verossimilhança será idêntica para qualquer distribuição das contagens entre as faces.

Na prática, isso significa que, no modelo uniforme $M_1$, todos os padrões são igualmente compatíveis com as probabilidades que ele atribui às faces. Ao executar o código a seguir, você verá que as duas log-verossimilhanças sob $M_1$ são iguais, pois somente um modelo como $M_2$, que atribui probabilidades diferentes às faces, pode distinguir entre padrões de dados mais ou menos plausíveis.

# Dois conjuntos de dados com o mesmo total n = 50, mas padrões opostos
freq_equilibrado <- c(8, 9, 8, 9, 8, 8)    # frequências próximas ao uniforme
freq_concentrado <- c(0, 0, 25, 25, 0, 0)  # tudo concentrado nas faces 3 e 4

# Confirmar que ambos têm o mesmo total
sum(freq_equilibrado)  # 50

[1] 50

sum(freq_concentrado)  # 50

[1] 50

# Log-verossimilhanças sob M1
sum(freq_equilibrado * log(p_h1))  # idêntico ao de baixo

[1] -89.58797

sum(freq_concentrado * log(p_h1))  # idêntico ao de cima

[1] -89.58797

3.3 A razão de verossimilhanças

Para comparar dois modelos, calculamos a razão de verossimilhanças $\Lambda$:

\[\Lambda = \frac{\mathcal{L}(H_2;\text{dados})}{\mathcal{L}(H_1;\text{dados})}\]

Em escala logarítmica, a razão se torna uma diferença:

\[\log \Lambda = \log \mathcal{L}(H_2;\text{dados}) - \log \mathcal{L}(H_1;\text{dados})\]

Podemos reescrever a log-razão de forma mais reveladora:

\[\log \Lambda = \sum_{k=1}^{6} n_k \cdot \log\!\left(\frac{p_k^{(H_2)}}{p_k^{(H_1)}}\right)\]

Essa forma mostra que cada face contribui com um peso proporcional à sua contagem $n_k$, multiplicado pelo log da razão entre a probabilidade que $H_2$ atribui à face e a probabilidade que $H_1$ atribui à mesma face. Quando $H_2$ atribui uma probabilidade maior do que $H_1$ a uma face que apareceu frequentemente, essa face contribui positivamente para $\log \Lambda$, favorecendo $H_2$. Quando $H_2$ atribui uma probabilidade menor que $H_1$ a uma face frequente, ela contribui negativamente.

Interpretação da razão de verossimilhanças

$\Lambda > 1$ (ou $\log \Lambda > 0$): os dados são mais compatíveis com $H_2$ / $M_2$ do que com $H_1$ / $M_1$.
$\Lambda < 1$ (ou $\log \Lambda < 0$): os dados são mais compatíveis com $H_1$ / $M_1$.
$\Lambda = 1$ (ou $\log \Lambda = 0$): as duas hipóteses explicam os dados igualmente bem.
$\Lambda = 10$: $H_2$ / $M_2$ é 10 vezes mais compatível com os dados do que $H_1$ / $M_1$.

Exemplo de cálculo

Retomando o exemplo de cálculo manual em que observamos a sequência $3, 4, 3, 1$, com contagens $n_1 = 1$, $n_2 = 0$, $n_3 = 2$, $n_4 = 1$, $n_5 = 0$ e $n_6 = 0$.

A hipótese $H_1$ corresponde ao modelo uniforme $M_1$, em que $p_k = 1/6$ para todo $k$. A hipótese $H_2$ corresponde ao modelo com viés central $M_2$, em que $p_1 = 1/14$, $p_2 = 2/14$, $p_3 = 4/14$, $p_4 = 4/14$, $p_5 = 2/14$ e $p_6 = 1/14$.

As verossimilhanças para esse conjunto de dados são:

\[ \mathcal{L}(H_1;\text{dados}) = \left(\frac{1}{6}\right)^4 = \frac{1}{1296} \]

\[ \mathcal{L}(H_2;\text{dados}) = \left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3 = \frac{4}{2401} \]

A razão de verossimilhanças é:

\[ \Lambda = \frac{\mathcal{L}(H_2;\text{dados})}{\mathcal{L}(H_1;\text{dados})} \]

Substituindo os valores obtidos:

\[ \Lambda = \frac{4/2401}{1/1296} = \frac{4}{2401}\cdot 1296 = \frac{5184}{2401} \approx 2{,}16 \]

Isso significa que os dados observados são aproximadamente $2{,}16$ vezes mais compatíveis com $H_2$ do que com $H_1$. Como a sequência observada concentra resultados nas faces centrais, ela favorece o modelo com viés central, que atribui probabilidades maiores a essas faces.

Podemos realizar estes mesmos cálculos no R, porém para nosso exemplo de 57 lançamentos:

# Razão de verossimilhanças (na escala original, não logarítmica)
razao <- exp(loglik_h2 - loglik_h1)
cat("Razão H2/H1:", round(razao, 3), "\n")

Razão H2/H1: 1.251

--- title: "Leitura Prévia - Aula 01" subtitle: "Contrastando Hipóteses: da formulação de modelos à atualização do conhecimento" author: - "Prof. Fabio Cop (*fcferreira@unifesp.br*)" - "Instituto do Mar - Unifesp" date: today lang: pt-BR language: title-block-author-single: "" title-block-author-plural: "" format: html: toc: true toc-title: "Conteúdo" toc-depth: 2 number-sections: true embed-resources: true code-fold: false code-tools: true execute: eval: true echo: true --- # Por que contrastamos hipóteses? Toda investigação científica começa com uma pergunta. Na ciência, entretanto, as perguntas precisam ser estruturadas de modo que possamos gerar dados que nos ajudem a respondê-las. Para isso, precisamos transformar nossas intuições e conjecturas em **hipóteses** e **modelos**. Imagine que você deseja saber se juvenis de peixes costeiros se concentram preferencialmente em trechos influenciados por aporte fluvial. Uma hipótese natural seria: "juvenis preferem trechos próximos à desembocadura de pequenos rios, possivelmente devido ao maior aporte de nutrientes, alimento ou abrigo". Essa hipótese nos levaria a um modelo em que as densidades seriam desproporcionalmente maiores nessas áreas. Por outro lado, podemos pensar em uma hipótese mais simples que poderia ser formulada como: "a proximidade da desembocadura de rios não influencia a distribuição dos juvenis", o que nos levaria a um modelo em que suas densidades próximas às desembocaduras não seriam consistentemente maiores ou menores que no restante da praia. A questão é: *quais dados poderíamos obter para sermos capazes de distinguir entre essas duas hipóteses e como devemos tratar esses dados?* # De hipóteses a modelos probabilísticos ## O que é uma hipótese no sentido estatístico? No uso cotidiano, **"hipótese"** costuma significar uma conjectura vaga ou uma simples suspeita. No contexto estatístico, o termo se refere a uma afirmação sobre como o mundo funciona, formulada de maneira suficientemente específica para ser **contrastada com dados**. Uma hipótese deve permitir antecipar o que se espera observar em relação aos possíveis resultados de um fenômeno. Isso só é possível quando, a partir dela, podemos construir um **modelo** que gere resultados compatíveis com suas premissas. Como esse modelo representa uma forma possível de manifestação do fenômeno, ele é, em essência, um **modelo probabilístico**, isto é, um modelo que atribui diferentes probabilidades aos resultados possíveis de uma observação, condicionadas à hipótese ser verdadeira. ::: {.callout-note appearance="minimal" title="Definição"} **Modelo probabilístico:** função matemática que especifica, para cada resultado possível de um experimento, a probabilidade de aquele resultado ocorrer. Um modelo probabilístico é a representação matemática de uma hipótese sobre o mecanismo que gera os dados. ::: Vamos ilustrar esse processo com um exemplo simples. O contexto é o seguinte: sabemos que, ao lançar um dado de seis lados, cada face tem probabilidade igual a 1/6 de sair voltada para cima. A pergunta que podemos fazer é: sabendo disso, somos capazes de simular mentalmente o lançamento de um dado escolhendo aleatoriamente um número de 1 a 6? A partir dessa questão, podemos formular duas hipóteses, que chamaremos de **hipótese 1 ($H_1$)** e **hipótese 2 ($H_2$)**, conforme descrito abaixo: - **$H_1$ (uniforme):** ao simular mentalmente o lançamento, temos a mesma chance de escolher qualquer uma das seis faces, mimetizando o que seria esperado por um lançamento de um dado físico real. - **$H_2$ (viés central):** o ser humano tende a evitar a escolha de valores extremos, selecionando com mais frequência valores intermediários. Nesse caso, as faces centrais (3 e 4) seriam preferidas, enquanto as faces extremas (1 e 6) seriam evitadas. Para que essas hipóteses sejam operacionais, precisamos traduzi-las em modelos formais. A pergunta exata passa a ser: qual é a probabilidade de obter cada face sob estas duas hipóteses? ::: {.callout-note appearance="minimal" title="Definição formal dos modelos"} **Modelo $M_1$ (uniforme):** $$M_1: \quad P(X = k) = \frac{1}{6}, \quad k = 1, 2, 3, 4, 5, 6$$ **Modelo $M_2$ (viés central):** $$M_2: \quad P(X = k) = \frac{w_k}{14}, \quad \text{onde } w = (1, 2, 4, 4, 2, 1)$$ Ou seja: $P(X=1) = P(X=6) = 1/14$, $P(X=2) = P(X=5) = 2/14$, $P(X=3) = P(X=4) = 4/14$. ::: Ambos os modelos são distribuições de probabilidade válidas, pois as probabilidades somam 1 e são todas não-negativas. Eles representam, porém, mecanismos muito distintos para gerar os dados. Sob $M_1$, uma pessoa escolhe cada face com a mesma frequência a longo prazo. Sob $M_2$, se pedirmos a uma pessoa que imagine um número entre 1 e 6, ela tenderá a escolher 3 ou 4 com muito mais frequência do que 1 ou 6. ## Por que precisamos de pelo menos duas hipóteses? Uma das ideias mais importantes desta aula é que **uma única hipótese não é suficiente para fazer ciência**. Para ilustrar por quê, pense no que $H_1$ nos diz sobre qualquer resultado possível. Se cada face tem probabilidade $1/6$, então qualquer combinação de contagens é, em princípio, possível. Uma turma em que todos os 50 alunos responderam "3" ao imaginar um dado é um evento de baixíssima probabilidade, mas ainda é possível sob $H_1$. Uma turma com resultados perfeitamente equilibrados também é possível. A pergunta *"será que $H_1$ é verdadeira?"* não tem uma resposta clara, porque $H_1$ nunca diz *"isso não pode acontecer"*. *Para o modelo uniforme, esta questão é especialmente relevante como você pode ler em @tip-cego-h1.* A evidência emerge apenas quando confrontamos duas hipóteses e decidimos se os resultados observados são mais compatíveis com $H_1$ ou com $H_2$. A comparação é o que produz discriminação e nos possibilita escolher uma hipótese mais plausível. ::: {.callout-tip appearance="minimal"} **Analogia:** imagine que você lança uma moeda e obtém "cara" em 7 dos 10 lançamentos. Isso é incomum? A resposta depende do que você está comparando. Se a única hipótese disponível é *"a moeda é justa"*, tudo que pode dizer é que o resultado *é possível* (mesmo que improvável). Mas se você também considera *"a moeda está viciada para cara"*, pode quantificar qual hipótese é mais compatível com os dados observados. A comparação entre duas hipóteses é o que gera evidência. ::: A formulação das hipóteses antes da obtenção dos dados é importante. Ao definir $H_1$ e $H_2$ antecipadamente, você cria um **critério de comparação** que não depende dos resultados do experimento, mas das suas expectativas iniciais. Assim, quando os dados são compatíveis com $H_2$, isso pode ser considerado uma evidência real a favor dessa hipótese. # Verossimilhança: quantificando a compatibilidade ## O conceito de verossimilhança Dado um conjunto de dados observados e um modelo probabilístico, a **verossimilhança** mede o grau de compatibilidade entre o modelo e os dados. É essencial distinguir verossimilhança de probabilidade, pois os dois conceitos olham em direções opostas: - **Probabilidade** olha *para frente*: dado um modelo, qual é a chance de observar um determinado resultado? "$P(\text{dados} \mid H)$" - **Verossimilhança** olha *para trás*: dado que já observamos um resultado, quão plausível é este modelo? "$\mathcal{L}(H;\text{dados})$" Na prática, o valor numérico de $\mathcal{L}(H;\text{dados})$ é calculado exatamente como $P(\text{dados} \mid H)$. A diferença está na *interpretação*. Ao calcular a verossimilhança, os dados são fixos e o modelo é o que varia. ::: {.callout-note appearance="minimal" title="Verossimilhança: definição e notação"} **Verossimilhança** (*likelihood*): para um conjunto de dados observados $x$ e um modelo $H$, a verossimilhança é definida como: $$\mathcal{L}(H;x) = P(x \mid H)$$ O valor numérico é idêntico ao de $P(x \mid H)$. A diferença está na interpretação: na verossimilhança, os dados são fixos e a hipótese é o que varia. A verossimilhança não é uma probabilidade sobre as hipóteses. É a probabilidade dos dados **vista como função da hipótese**. Isso nos permite comparar a compatibilidade de diferentes hipóteses ($H_1, H_2, \cdots, H_r$) com os dados observados em $x$. ::: ## A fórmula para dados categóricos No exemplo do *dado mental*, os resultados consistem nas contagens $n_1, n_2, \ldots, n_6$, onde $n_k$ é o número de vezes que a face $k$ apareceu. O total de observações é $n = \sum_{k=1}^{6} n_k$. Se o modelo atribui probabilidade $p_k$ à face $k$, então a probabilidade de observar a sequência completa de resultados que produziu as contagens $n_1, \ldots, n_6$ é o produto das probabilidades de cada resultado individual. Isso nos dá a **verossimilhança multinomial**: $$\mathcal{L}(H;\text{dados}) = \prod_{k=1}^{6} p_k^{n_k}$$ Na prática, é mais conveniente trabalhar com o **logaritmo da verossimilhança** (log-verossimilhança), que transforma o produto em soma e evita problemas de precisão numérica com números muito pequenos: $$\log \mathcal{L}(H;\text{dados}) = \sum_{k=1}^{6} n_k \cdot \log(p_k)$$ ::: {.callout-important appearance="minimal" title="Exemplo de cálculo"} Suponha que, em $n = 4$ escolhas, tenhamos observado a sequência $3, 4, 3, 1$. As contagens são: $$ n_1 = 1,\quad n_2 = 0,\quad n_3 = 2,\quad n_4 = 1,\quad n_5 = 0,\quad n_6 = 0 $$ Sob a hipótese $H_1$ e o modelo uniforme $M_1$, temos $p_k = 1/6$ para todo $k$. Logo, $$ \mathcal{L}(H_1;\text{dados}) = \prod_{k=1}^{6} p_k^{n_k} = \left(\frac{1}{6}\right)^1 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^2 \left(\frac{1}{6}\right)^1 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^0 = \left(\frac{1}{6}\right)^4 = \frac{1}{1296} \approx 0{,}00077 $$ Sob a hipótese $H_2$ e o modelo com viés central $M_2$, as probabilidades são $p_1 = 1/14$, $p_2 = 2/14$, $p_3 = 4/14$, $p_4 = 4/14$, $p_5 = 2/14$, $p_6 = 1/14$. Portanto, $$ \mathcal{L}(H_2;\text{dados}) = \left(\frac{1}{14}\right)^1 \left(\frac{2}{14}\right)^0 \left(\frac{4}{14}\right)^2 \left(\frac{4}{14}\right)^1 \left(\frac{2}{14}\right)^0 \left(\frac{1}{14}\right)^0 = \left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3 = \frac{4}{2401} \approx 0{,}00167 $$ Podemos obter a log-verossimilhança por: $$ \log \mathcal{L}(H_1;\text{dados}) = \log\!\left[\left(\frac{1}{6}\right)^4\right] = 4 \log\!\left(\frac{1}{6}\right) \approx -7{,}167 $$ $$ \log \mathcal{L}(H_2;\text{dados}) = \log\!\left[\left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3\right] = \log\!\left(\frac{1}{14}\right) + 3 \log\!\left(\frac{4}{14}\right) \approx -6{,}397 $$ A conclusão é a mesma nas duas escalas: como $\mathcal{L}(H_2;\text{dados}) > \mathcal{L}(H_1;\text{dados})$ e também $\log \mathcal{L}(H_2;\text{dados}) > \log \mathcal{L}(H_1;\text{dados})$, os dados são mais compatíveis com $H_2$. Isso ocorre porque a sequência observada concentra resultados nas faces centrais, às quais $H_2$ atribui probabilidades maiores. ::: Façamos um exemplo usando o R, porém utilizando um exemplo maior para **57 lançamentos**. O cálculo é direto: ```{r} # Probabilidades dos dois modelos p_h1 <- rep(1/6, 6) # M1: modelo uniforme p_h2 <- c(1, 2, 4, 4, 2, 1) / 14 # M2: modelo com viés central # Frequências observadas no lançamento freq_obs <- c(n1 = 7, n2 = 8, n3 = 12, n4 = 15, n5 = 8, n6 = 7) # Log-verossimilhanças de cada modelo dado o mesmo conjunto de dados loglik_h1 <- sum(freq_obs * log(p_h1)) loglik_h2 <- sum(freq_obs * log(p_h2)) ``` ```{r} # Exibir os valores cat( "\n","Log-verossimilhança de H1 (M1):", round(loglik_h1, 3), "\n", "Log-verossimilhança de H2 (M2):", round(loglik_h2, 3), "\n" ) ``` Note que o resultado são dois números negativos. O log da verossimilhança é sempre $\leq 0$ porque as probabilidades $p_k \leq 1$ e, portanto, $\log(p_k) \leq 0$. O que importa não é o valor absoluto, mas a *diferença* entre as duas log-verossimilhanças. Preferimos a hipótese cuja log-verossimilhança é **maior**, pois ela é mais plausível segundo os resultados obtidos. ::: {.callout-tip appearance="minimal" title="O ponto cego de $H_1$ uniforme" #tip-cego-h1} Uma propriedade da log-verossimilhança do modelo uniforme $M_1$ é que, como $p_k = 1/6$ para todo $k$, o fator $\log(1/6)$ pode ser fatorado para fora da soma: $$ \log \mathcal{L}(H_1;\text{dados}) = \sum_{k=1}^{6} n_k \cdot \log\!\left(\frac{1}{6}\right) = \log\!\left(\frac{1}{6}\right) \cdot \underbrace{\sum_{k=1}^{6} n_k}_{= n} = n \cdot \log\!\left(\frac{1}{6}\right) $$ O resultado depende apenas do número total de observações $n$, pois **sob o modelo uniforme, a parte da verossimilhança que depende das probabilidades não distingue padrões diferentes nos dados e apenas o número total de observações importa.** Isso ocorre porque todas as faces recebem exatamente a mesma probabilidade. Assim, enquanto o total de observações for o mesmo, essa parte da log-verossimilhança será idêntica para qualquer distribuição das contagens entre as faces. Na prática, isso significa que, no modelo uniforme $M_1$, todos os padrões são igualmente compatíveis com as probabilidades que ele atribui às faces. Ao executar o código a seguir, você verá que as duas log-verossimilhanças sob $M_1$ são iguais, pois somente um modelo como $M_2$, que atribui probabilidades diferentes às faces, pode distinguir entre padrões de dados mais ou menos plausíveis. ```{r} # Dois conjuntos de dados com o mesmo total n = 50, mas padrões opostos freq_equilibrado <- c(8, 9, 8, 9, 8, 8) # frequências próximas ao uniforme freq_concentrado <- c(0, 0, 25, 25, 0, 0) # tudo concentrado nas faces 3 e 4 ``` ```{r} # Confirmar que ambos têm o mesmo total sum(freq_equilibrado) # 50 sum(freq_concentrado) # 50 # Log-verossimilhanças sob M1 sum(freq_equilibrado * log(p_h1)) # idêntico ao de baixo sum(freq_concentrado * log(p_h1)) # idêntico ao de cima ``` ::: ## A razão de verossimilhanças Para comparar dois modelos, calculamos a **razão de verossimilhanças** $\Lambda$: $$\Lambda = \frac{\mathcal{L}(H_2;\text{dados})}{\mathcal{L}(H_1;\text{dados})}$$ Em escala logarítmica, a razão se torna uma diferença: $$\log \Lambda = \log \mathcal{L}(H_2;\text{dados}) - \log \mathcal{L}(H_1;\text{dados})$$ Podemos reescrever a log-razão de forma mais reveladora: $$\log \Lambda = \sum_{k=1}^{6} n_k \cdot \log\!\left(\frac{p_k^{(H_2)}}{p_k^{(H_1)}}\right)$$ Essa forma mostra que cada face contribui com um peso proporcional à sua contagem $n_k$, multiplicado pelo log da razão entre a probabilidade que $H_2$ atribui à face e a probabilidade que $H_1$ atribui à mesma face. Quando $H_2$ atribui uma probabilidade maior do que $H_1$ a uma face que apareceu frequentemente, essa face contribui positivamente para $\log \Lambda$, favorecendo $H_2$. Quando $H_2$ atribui uma probabilidade menor que $H_1$ a uma face frequente, ela contribui negativamente. ::: {.callout-note appearance="minimal" title="Interpretação da razão de verossimilhanças"} - $\Lambda > 1$ (ou $\log \Lambda > 0$): os dados são mais compatíveis com $H_2$ / $M_2$ do que com $H_1$ / $M_1$. - $\Lambda < 1$ (ou $\log \Lambda < 0$): os dados são mais compatíveis com $H_1$ / $M_1$. - $\Lambda = 1$ (ou $\log \Lambda = 0$): as duas hipóteses explicam os dados igualmente bem. - $\Lambda = 10$: $H_2$ / $M_2$ é 10 vezes mais compatível com os dados do que $H_1$ / $M_1$. ::: ::: {.callout-important appearance="minimal" title="Exemplo de cálculo"} Retomando o exemplo de cálculo manual em que observamos a sequência $3, 4, 3, 1$, com contagens $n_1 = 1$, $n_2 = 0$, $n_3 = 2$, $n_4 = 1$, $n_5 = 0$ e $n_6 = 0$. A hipótese $H_1$ corresponde ao modelo uniforme $M_1$, em que $p_k = 1/6$ para todo $k$. A hipótese $H_2$ corresponde ao modelo com viés central $M_2$, em que $p_1 = 1/14$, $p_2 = 2/14$, $p_3 = 4/14$, $p_4 = 4/14$, $p_5 = 2/14$ e $p_6 = 1/14$. As verossimilhanças para esse conjunto de dados são: $$ \mathcal{L}(H_1;\text{dados}) = \left(\frac{1}{6}\right)^4 = \frac{1}{1296} $$ $$ \mathcal{L}(H_2;\text{dados}) = \left(\frac{1}{14}\right)\left(\frac{4}{14}\right)^3 = \frac{4}{2401} $$ A razão de verossimilhanças é: $$ \Lambda = \frac{\mathcal{L}(H_2;\text{dados})}{\mathcal{L}(H_1;\text{dados})} $$ Substituindo os valores obtidos: $$ \Lambda = \frac{4/2401}{1/1296} = \frac{4}{2401}\cdot 1296 = \frac{5184}{2401} \approx 2{,}16 $$ Isso significa que os dados observados são aproximadamente $2{,}16$ vezes mais compatíveis com $H_2$ do que com $H_1$. Como a sequência observada concentra resultados nas faces centrais, ela favorece o modelo com viés central, que atribui probabilidades maiores a essas faces. ::: Podemos realizar estes mesmos cálculos no R, porém para nosso exemplo de **57 lançamentos**: ```{r} # Razão de verossimilhanças (na escala original, não logarítmica) razao <- exp(loglik_h2 - loglik_h1) cat("Razão H2/H1:", round(razao, 3), "\n") ```