Descubra se os resultados do seu experimento são estatisticamente significativos ou apenas variação aleatória.
Metodologia: Teste z de duas proporções com aproximação normal. Adequado para amostras com n·p ≥ 5 e n·(1−p) ≥ 5 em ambos os grupos. Confiança = 1 − p-valor (bicaudal). Não confundir significância estatística com significância prática — avalie o uplift absoluto em contexto de negócio.
Quantos visitantes você precisa por grupo para detectar um efeito com confiança estatística?
Tudo que você precisa saber para interpretar os resultados do seu experimento com segurança.
Quando você roda um teste A/B, sempre existe a possibilidade de que a diferença observada entre A e B seja pura coincidência — causada por variação aleatória dos dados, não por uma mudança real.
A significância estatística mede a probabilidade de isso acontecer. Um resultado com 95% de confiança significa que há apenas 5% de chance de a diferença ser acaso.
O p-valor é a probabilidade de observar uma diferença tão grande (ou maior) entre A e B assumindo que não há diferença real:
Não existe um número mágico de dias — o tempo mínimo depende do volume de tráfego e do tamanho de amostra necessário. Mas existem duas regras práticas que todo experimento deve respeitar, independentemente dos números:
O comportamento do usuário varia bastante entre dias úteis e fim de semana. Encerrar um teste em 3 ou 4 dias pode capturar apenas um perfil de audiência, distorcendo o resultado. Sempre inclua pelo menos um ciclo completo de 7 dias, mesmo que a amostra já tenha sido atingida antes disso.
Use a aba "Tamanho de Amostra" para calcular quantos visitantes você precisa antes de iniciar o teste. Só encerre quando ambas as condições forem verdadeiras: os 7 dias foram cumpridos e a amostra foi atingida.
Se você verificar o resultado várias vezes durante o teste e parar assim que ver significância, a chance real de falso positivo pode passar de 5% para mais de 25%. Isso é conhecido como peeking problem. Defina o tamanho de amostra antes, e só olhe o resultado final.
E-commerce de alta frequência: 1–2 semanas.
SaaS / ciclo de compra longo: 2–4 semanas.
Campanhas de mídia paga: mínimo 7 dias, idealmente 14.
Baixo tráfego (< 500 visitas/dia): pode levar meses — avalie se o teste é viável.