Ferramenta gratuita

Calculadora de Significância para Testes A/B

Descubra se os resultados do seu experimento são estatisticamente significativos ou apenas variação aleatória.

📊 Dados do Experimento
Grupo A — Controle
Grupo B — Variante
Use bilateral na maioria dos casos
📈 Resultado
Confiança estatística
90% 95% 99%
Taxa A (Controle)
taxa de conversão
Taxa B (Variante)
taxa de conversão
Uplift Relativo
variação vs. controle
Z-score
estatística do teste
p-valor
probabilidade de acaso
Confiança
nível atingido

Metodologia: Teste z de duas proporções com aproximação normal. Adequado para amostras com n·p ≥ 5 e n·(1−p) ≥ 5 em ambos os grupos. Confiança = 1 − p-valor (bicaudal). Não confundir significância estatística com significância prática — avalie o uplift absoluto em contexto de negócio.

🎯 Calculadora de Tamanho de Amostra

Quantos visitantes você precisa por grupo para detectar um efeito com confiança estatística?

Taxa atual do grupo controle (A)
Uplift relativo mínimo que vale detectar (ex: 10 = +10% sobre a base)
Probabilidade de detectar o efeito se ele existir
Leia também
Fundamentos
O que é significância estatística e por que ela importa no seu teste A/B
Boas práticas
Quanto tempo deve durar um teste A/B? A regra dos 7 dias
Erros comuns
5 erros que invalidam um teste A/B (e como evitar cada um)
Publicidade

Guia: Testes A/B e Significância Estatística

Tudo que você precisa saber para interpretar os resultados do seu experimento com segurança.

🔬 O que é significância estatística?

Quando você roda um teste A/B, sempre existe a possibilidade de que a diferença observada entre A e B seja pura coincidência — causada por variação aleatória dos dados, não por uma mudança real.

A significância estatística mede a probabilidade de isso acontecer. Um resultado com 95% de confiança significa que há apenas 5% de chance de a diferença ser acaso.

📉 Como interpretar o p-valor

O p-valor é a probabilidade de observar uma diferença tão grande (ou maior) entre A e B assumindo que não há diferença real:

  • p < 0,05 → significativo a 95% de confiança
  • p < 0,10 → significativo a 90% de confiança
  • p < 0,01 → significativo a 99% de confiança
  • p > 0,05 → resultado inconclusivo

⏱️ Quando encerrar um teste A/B?

  • Somente após atingir o tamanho de amostra planejado — use a aba "Tamanho de Amostra" para calcular
  • Nunca encerre cedo só porque o resultado parece significativo — isso infla a taxa de falso positivo
  • Defina duração mínima de 1 a 2 ciclos de negócio (ex: pelo menos 1 semana completa)
  • Inclua todos os dias da semana para capturar sazonalidade de comportamento do usuário

⚠️ Erros comuns em testes A/B

  • Encerrar cedo (peeking): verificar e parar ao ver significância antes do tempo planejado
  • Múltiplas variantes sem correção: testar A/B/C/D sem ajustar o alfa aumenta falsos positivos
  • Amostras desbalanceadas: grupos com tamanhos muito diferentes reduzem o poder do teste
  • Ignorar o uplift absoluto: resultado significativo com uplift de 0,01 pp pode não ter valor prático
  • Poluição de amostra: usuários que veem A e B ao mesmo tempo (vazamento entre grupos)

🗓️ Qual é o tempo mínimo de um teste A/B?

Não existe um número mágico de dias — o tempo mínimo depende do volume de tráfego e do tamanho de amostra necessário. Mas existem duas regras práticas que todo experimento deve respeitar, independentemente dos números:

Regra 1 — Mínimo de 7 dias corridos

O comportamento do usuário varia bastante entre dias úteis e fim de semana. Encerrar um teste em 3 ou 4 dias pode capturar apenas um perfil de audiência, distorcendo o resultado. Sempre inclua pelo menos um ciclo completo de 7 dias, mesmo que a amostra já tenha sido atingida antes disso.

Regra 2 — Atingir o tamanho de amostra planejado

Use a aba "Tamanho de Amostra" para calcular quantos visitantes você precisa antes de iniciar o teste. Só encerre quando ambas as condições forem verdadeiras: os 7 dias foram cumpridos e a amostra foi atingida.

Cuidado: encerrar cedo infla falsos positivos

Se você verificar o resultado várias vezes durante o teste e parar assim que ver significância, a chance real de falso positivo pode passar de 5% para mais de 25%. Isso é conhecido como peeking problem. Defina o tamanho de amostra antes, e só olhe o resultado final.

Referência prática por contexto

E-commerce de alta frequência: 1–2 semanas.
SaaS / ciclo de compra longo: 2–4 semanas.
Campanhas de mídia paga: mínimo 7 dias, idealmente 14.
Baixo tráfego (< 500 visitas/dia): pode levar meses — avalie se o teste é viável.

📖 Glossário dos termos

Uplift relativo
Variação percentual da taxa de conversão da variante em relação ao controle. Ex: de 5% para 5,5% = uplift de +10%.
Z-score
Número de desvios padrão que a diferença observada está da hipótese nula (sem diferença). Quanto maior o valor absoluto, mais evidência contra o acaso.
Nível de confiança
Probabilidade de que o resultado não seja acaso. 95% é o padrão da indústria para decisões de produto e mídia.
Poder estatístico (power)
Probabilidade de detectar um efeito real quando ele existe. O padrão é 80% — significa que 1 em 5 experimentos válidos pode passar despercebido.
MDE — Efeito Mínimo Detectável
O menor uplift que o experimento é capaz de detectar dado o tamanho de amostra. Quanto menor o MDE desejado, maior a amostra necessária.
Teste bilateral vs. unilateral
Imagine que você mudou o texto de um botão de compra. Antes de ver os dados, você não sabe se a mudança vai aumentar ou diminuir as conversões — ela pode piorar, e isso importa saber.

O teste bilateral (2 caudas) verifica os dois lados: "B foi melhor ou pior que A de forma significativa?" É o mais seguro e deve ser usado na grande maioria dos casos.

O teste unilateral (1 cauda) só verifica um lado: "B foi melhor que A?" Ele é ligeiramente mais sensível a detectar melhoras, mas ignora completamente a possibilidade de piora — e se B for pior, o teste não vai te avisar. Por isso, só faz sentido em situações muito específicas onde piorar é literalmente impossível (ex: testar se adicionar um campo opcional de formulário aumenta o preenchimento — ele nunca pode reduzir o que já existe).

Na dúvida, use sempre bilateral.