Quanto Tempo Deve Durar um Teste A/B? A Regra dos 7 Dias

Você está rodando um teste A/B. No terceiro dia, o painel mostra que a variante B já atingiu 95% de confiança. Você encerra o teste e implementa B. Faz sentido, certo?

Errado. Esse é um dos erros mais comuns — e mais custosos — em experimentação. A duração de um teste A/B não é determinada pelo momento em que a significância aparece. Ela é determinada por dois critérios objetivos que precisam ser definidos antes do teste começar.

Por que encerrar cedo é um problema

Imagine que você joga uma moeda 10 vezes e obtém 7 caras. Parece que a moeda pode ser viciada. Mas se continuar jogando até 1.000 vezes, o resultado vai convergir para perto de 50% — porque era só variação aleatória no começo.

Testes A/B funcionam da mesma forma. Nos primeiros dias, a diferença entre A e B flutua bastante. Em algum momento essa flutuação vai cruzar o limiar de significância — mesmo que não haja diferença real entre as variantes. Se você parar nesse momento, estará cometendo um falso positivo.

O peeking problem em números Se você verificar o resultado do teste a cada dia e parar quando atingir p < 0,05, a taxa real de falsos positivos pode ultrapassar 25% — cinco vezes mais do que o esperado. Você acharia que tem 95% de confiança, mas na prática estaria errando em 1 de cada 4 decisões.

Regra 1: mínimo de 7 dias corridos

O comportamento dos usuários muda significativamente entre dias da semana. Terça-feira não é igual a domingo. Usuários que acessam um e-commerce na segunda têm intenção de compra diferente dos que acessam no sábado.

Se você encerrar o teste após 3 ou 4 dias, está medindo apenas um subconjunto do comportamento real da sua audiência. O resultado pode ser fortemente influenciado pelo perfil do usuário daqueles dias específicos — e não pela diferença entre A e B.

A solução é simples: sempre inclua pelo menos um ciclo completo de 7 dias, independentemente do volume de tráfego ou da confiança atingida. Isso garante que todos os perfis de comportamento semanal estejam representados na amostra.

Casos especiais Para negócios com sazonalidade muito marcada (ex: Black Friday, campanhas sazonais), considere estender o teste para 2 semanas para capturar variação maior. Da mesma forma, evite iniciar testes em períodos atípicos — feriados, picos de demanda, promoções — a menos que seja exatamente esse o contexto que você quer testar.

Regra 2: atingir o tamanho de amostra planejado

O segundo critério — e o mais rigoroso — é o tamanho de amostra. Antes de iniciar qualquer teste, você precisa calcular quantos visitantes são necessários por grupo para detectar o efeito que você espera encontrar.

Esse cálculo depende de três variáveis:

Taxa de conversão base — qual é a taxa atual do controle (A)?
Efeito mínimo detectável (MDE) — qual o menor uplift que vale a pena detectar? Ex: 10% de melhora relativa
Nível de confiança e poder desejados — normalmente 95% de confiança e 80% de poder

Com esses três valores, a calculadora de tamanho de amostra te diz exatamente quantos visitantes você precisa por grupo. Só encerre o teste quando esse número for atingido — e os 7 dias tiverem sido cumpridos.

Exemplo prático Taxa base de 3%, MDE de 15% (detectar uma melhora para 3,45%), confiança de 95% e poder de 80%: você precisaria de aproximadamente 11.000 visitantes por grupo — 22.000 no total. Se seu site tem 1.000 visitas por dia divididas igualmente entre A e B (500 por grupo), o teste precisa rodar por pelo menos 22 dias — e respeitar os 7 dias mínimos, o que nesse caso já é superado.

Quanto tempo na prática: referência por tipo de negócio

Contexto	Duração recomendada	Observação
E-commerce de alta frequência	7–14 dias	Ciclo de compra curto, variação semanal alta
SaaS / ciclo de compra longo	14–28 dias	Usuários podem retornar em diferentes momentos do ciclo
Campanhas de mídia paga	Mínimo 7 dias, ideal 14	Sazonalidade de CPM/CPC varia ao longo da semana
Site com baixo tráfego (< 500 visitas/dia)	30–90 dias ou mais	Avalie se o teste é viável antes de iniciar
Aplicativos móveis	14–21 dias	Comportamento de uso varia entre dias úteis e fim de semana

O checklist antes de encerrar qualquer teste

O tamanho de amostra planejado foi atingido em ambos os grupos?
O teste rodou por pelo menos 7 dias corridos completos?
Não houve eventos externos que possam ter distorcido os dados (feriados, campanhas, problemas técnicos)?
A divisão de tráfego entre A e B está balanceada (50/50 ou próximo)?
O resultado foi avaliado uma única vez — ou verificado várias vezes ao longo do período?

Se todas as respostas forem sim, você pode encerrar o teste com confiança e analisar o resultado.

Conclusão

A duração de um teste A/B não é "até dar significativo". É a combinação de dois critérios objetivos: 7 dias mínimos e o tamanho de amostra planejado. Definir esses critérios antes de iniciar — e resistir à tentação de olhar os resultados antes da hora — é o que garante que suas decisões de negócio estejam baseadas em evidência real.

Quanto tempo deve durar um teste A/B? A regra dos 7 dias (e o que mais importa)

Por que encerrar cedo é um problema

Regra 1: mínimo de 7 dias corridos

Regra 2: atingir o tamanho de amostra planejado

Quanto tempo na prática: referência por tipo de negócio

O checklist antes de encerrar qualquer teste

Conclusão

Calcule quantos visitantes seu teste precisa