Você está rodando um teste A/B. No terceiro dia, o painel mostra que a variante B já atingiu 95% de confiança. Você encerra o teste e implementa B. Faz sentido, certo?

Errado. Esse é um dos erros mais comuns — e mais custosos — em experimentação. A duração de um teste A/B não é determinada pelo momento em que a significância aparece. Ela é determinada por dois critérios objetivos que precisam ser definidos antes do teste começar.

Por que encerrar cedo é um problema

Imagine que você joga uma moeda 10 vezes e obtém 7 caras. Parece que a moeda pode ser viciada. Mas se continuar jogando até 1.000 vezes, o resultado vai convergir para perto de 50% — porque era só variação aleatória no começo.

Testes A/B funcionam da mesma forma. Nos primeiros dias, a diferença entre A e B flutua bastante. Em algum momento essa flutuação vai cruzar o limiar de significância — mesmo que não haja diferença real entre as variantes. Se você parar nesse momento, estará cometendo um falso positivo.

O peeking problem em números Se você verificar o resultado do teste a cada dia e parar quando atingir p < 0,05, a taxa real de falsos positivos pode ultrapassar 25% — cinco vezes mais do que o esperado. Você acharia que tem 95% de confiança, mas na prática estaria errando em 1 de cada 4 decisões.

Regra 1: mínimo de 7 dias corridos

O comportamento dos usuários muda significativamente entre dias da semana. Terça-feira não é igual a domingo. Usuários que acessam um e-commerce na segunda têm intenção de compra diferente dos que acessam no sábado.

Se você encerrar o teste após 3 ou 4 dias, está medindo apenas um subconjunto do comportamento real da sua audiência. O resultado pode ser fortemente influenciado pelo perfil do usuário daqueles dias específicos — e não pela diferença entre A e B.

A solução é simples: sempre inclua pelo menos um ciclo completo de 7 dias, independentemente do volume de tráfego ou da confiança atingida. Isso garante que todos os perfis de comportamento semanal estejam representados na amostra.

Casos especiais Para negócios com sazonalidade muito marcada (ex: Black Friday, campanhas sazonais), considere estender o teste para 2 semanas para capturar variação maior. Da mesma forma, evite iniciar testes em períodos atípicos — feriados, picos de demanda, promoções — a menos que seja exatamente esse o contexto que você quer testar.

Regra 2: atingir o tamanho de amostra planejado

O segundo critério — e o mais rigoroso — é o tamanho de amostra. Antes de iniciar qualquer teste, você precisa calcular quantos visitantes são necessários por grupo para detectar o efeito que você espera encontrar.

Esse cálculo depende de três variáveis:

Com esses três valores, a calculadora de tamanho de amostra te diz exatamente quantos visitantes você precisa por grupo. Só encerre o teste quando esse número for atingido — e os 7 dias tiverem sido cumpridos.

Exemplo prático Taxa base de 3%, MDE de 15% (detectar uma melhora para 3,45%), confiança de 95% e poder de 80%: você precisaria de aproximadamente 11.000 visitantes por grupo — 22.000 no total. Se seu site tem 1.000 visitas por dia divididas igualmente entre A e B (500 por grupo), o teste precisa rodar por pelo menos 22 dias — e respeitar os 7 dias mínimos, o que nesse caso já é superado.

Quanto tempo na prática: referência por tipo de negócio

ContextoDuração recomendadaObservação
E-commerce de alta frequência7–14 diasCiclo de compra curto, variação semanal alta
SaaS / ciclo de compra longo14–28 diasUsuários podem retornar em diferentes momentos do ciclo
Campanhas de mídia pagaMínimo 7 dias, ideal 14Sazonalidade de CPM/CPC varia ao longo da semana
Site com baixo tráfego (< 500 visitas/dia)30–90 dias ou maisAvalie se o teste é viável antes de iniciar
Aplicativos móveis14–21 diasComportamento de uso varia entre dias úteis e fim de semana

O checklist antes de encerrar qualquer teste

Se todas as respostas forem sim, você pode encerrar o teste com confiança e analisar o resultado.

Conclusão

A duração de um teste A/B não é "até dar significativo". É a combinação de dois critérios objetivos: 7 dias mínimos e o tamanho de amostra planejado. Definir esses critérios antes de iniciar — e resistir à tentação de olhar os resultados antes da hora — é o que garante que suas decisões de negócio estejam baseadas em evidência real.