🔬 O que é significância estatística?

Quando você roda um teste A/B, sempre existe a possibilidade de que a diferença observada entre A e B seja pura coincidência — causada por variação aleatória dos dados, não por uma mudança real.

A significância estatística mede a probabilidade de isso acontecer. Um resultado com 95% de confiança significa que há apenas 5% de chance de a diferença ser acaso.

📉 Como interpretar o p-valor

O p-valor é a probabilidade de observar uma diferença tão grande (ou maior) entre A e B assumindo que não há diferença real:

p < 0,05 → significativo a 95% de confiança
p < 0,10 → significativo a 90% de confiança
p < 0,01 → significativo a 99% de confiança
p > 0,05 → resultado inconclusivo

⏱️ Quando encerrar um teste A/B?

Somente após atingir o tamanho de amostra planejado — use a aba "Tamanho de Amostra" para calcular
Nunca encerre cedo só porque o resultado parece significativo — isso infla a taxa de falso positivo
Defina duração mínima de 1 a 2 ciclos de negócio (ex: pelo menos 1 semana completa)
Inclua todos os dias da semana para capturar sazonalidade de comportamento do usuário

⚠️ Erros comuns em testes A/B

Encerrar cedo (peeking): verificar e parar ao ver significância antes do tempo planejado
Múltiplas variantes sem correção: testar A/B/C/D sem ajustar o alfa aumenta falsos positivos
Amostras desbalanceadas: grupos com tamanhos muito diferentes reduzem o poder do teste
Ignorar o uplift absoluto: resultado significativo com uplift de 0,01 pp pode não ter valor prático
Poluição de amostra: usuários que veem A e B ao mesmo tempo (vazamento entre grupos)

🗓️ Qual é o tempo mínimo de um teste A/B?

Não existe um número mágico de dias — o tempo mínimo depende do volume de tráfego e do tamanho de amostra necessário. Mas existem duas regras práticas que todo experimento deve respeitar, independentemente dos números:

Regra 1 — Mínimo de 7 dias corridos

O comportamento do usuário varia bastante entre dias úteis e fim de semana. Encerrar um teste em 3 ou 4 dias pode capturar apenas um perfil de audiência, distorcendo o resultado. Sempre inclua pelo menos um ciclo completo de 7 dias, mesmo que a amostra já tenha sido atingida antes disso.

Regra 2 — Atingir o tamanho de amostra planejado

Use a aba "Tamanho de Amostra" para calcular quantos visitantes você precisa antes de iniciar o teste. Só encerre quando ambas as condições forem verdadeiras: os 7 dias foram cumpridos e a amostra foi atingida.

Cuidado: encerrar cedo infla falsos positivos

Se você verificar o resultado várias vezes durante o teste e parar assim que ver significância, a chance real de falso positivo pode passar de 5% para mais de 25%. Isso é conhecido como peeking problem. Defina o tamanho de amostra antes, e só olhe o resultado final.

Referência prática por contexto

E-commerce de alta frequência: 1–2 semanas.
SaaS / ciclo de compra longo: 2–4 semanas.
Campanhas de mídia paga: mínimo 7 dias, idealmente 14.
Baixo tráfego (< 500 visitas/dia): pode levar meses — avalie se o teste é viável.

📖 Glossário dos termos

Uplift relativo

Variação percentual da taxa de conversão da variante em relação ao controle. Ex: de 5% para 5,5% = uplift de +10%.

Z-score

Número de desvios padrão que a diferença observada está da hipótese nula (sem diferença). Quanto maior o valor absoluto, mais evidência contra o acaso.

Nível de confiança

Probabilidade de que o resultado não seja acaso. 95% é o padrão da indústria para decisões de produto e mídia.

Poder estatístico (power)

Probabilidade de detectar um efeito real quando ele existe. O padrão é 80% — significa que 1 em 5 experimentos válidos pode passar despercebido.

MDE — Efeito Mínimo Detectável

O menor uplift que o experimento é capaz de detectar dado o tamanho de amostra. Quanto menor o MDE desejado, maior a amostra necessária.

Teste bilateral vs. unilateral

Imagine que você mudou o texto de um botão de compra. Antes de ver os dados, você não sabe se a mudança vai aumentar ou diminuir as conversões — ela pode piorar, e isso importa saber.

O teste bilateral (2 caudas) verifica os dois lados: "B foi melhor ou pior que A de forma significativa?" É o mais seguro e deve ser usado na grande maioria dos casos.

O teste unilateral (1 cauda) só verifica um lado: "B foi melhor que A?" Ele é ligeiramente mais sensível a detectar melhoras, mas ignora completamente a possibilidade de piora — e se B for pior, o teste não vai te avisar. Por isso, só faz sentido em situações muito específicas onde piorar é literalmente impossível (ex: testar se adicionar um campo opcional de formulário aumenta o preenchimento — ele nunca pode reduzir o que já existe).

Na dúvida, use sempre bilateral.

Calculadora de Significância para Testes A/B