Você está rodando um teste A/B. No terceiro dia, o painel mostra que a variante B já atingiu 95% de confiança. Você encerra o teste e implementa B. Faz sentido, certo?
Errado. Esse é um dos erros mais comuns — e mais custosos — em experimentação. A duração de um teste A/B não é determinada pelo momento em que a significância aparece. Ela é determinada por dois critérios objetivos que precisam ser definidos antes do teste começar.
Por que encerrar cedo é um problema
Imagine que você joga uma moeda 10 vezes e obtém 7 caras. Parece que a moeda pode ser viciada. Mas se continuar jogando até 1.000 vezes, o resultado vai convergir para perto de 50% — porque era só variação aleatória no começo.
Testes A/B funcionam da mesma forma. Nos primeiros dias, a diferença entre A e B flutua bastante. Em algum momento essa flutuação vai cruzar o limiar de significância — mesmo que não haja diferença real entre as variantes. Se você parar nesse momento, estará cometendo um falso positivo.
Regra 1: mínimo de 7 dias corridos
O comportamento dos usuários muda significativamente entre dias da semana. Terça-feira não é igual a domingo. Usuários que acessam um e-commerce na segunda têm intenção de compra diferente dos que acessam no sábado.
Se você encerrar o teste após 3 ou 4 dias, está medindo apenas um subconjunto do comportamento real da sua audiência. O resultado pode ser fortemente influenciado pelo perfil do usuário daqueles dias específicos — e não pela diferença entre A e B.
A solução é simples: sempre inclua pelo menos um ciclo completo de 7 dias, independentemente do volume de tráfego ou da confiança atingida. Isso garante que todos os perfis de comportamento semanal estejam representados na amostra.
Regra 2: atingir o tamanho de amostra planejado
O segundo critério — e o mais rigoroso — é o tamanho de amostra. Antes de iniciar qualquer teste, você precisa calcular quantos visitantes são necessários por grupo para detectar o efeito que você espera encontrar.
Esse cálculo depende de três variáveis:
- Taxa de conversão base — qual é a taxa atual do controle (A)?
- Efeito mínimo detectável (MDE) — qual o menor uplift que vale a pena detectar? Ex: 10% de melhora relativa
- Nível de confiança e poder desejados — normalmente 95% de confiança e 80% de poder
Com esses três valores, a calculadora de tamanho de amostra te diz exatamente quantos visitantes você precisa por grupo. Só encerre o teste quando esse número for atingido — e os 7 dias tiverem sido cumpridos.
Quanto tempo na prática: referência por tipo de negócio
| Contexto | Duração recomendada | Observação |
|---|---|---|
| E-commerce de alta frequência | 7–14 dias | Ciclo de compra curto, variação semanal alta |
| SaaS / ciclo de compra longo | 14–28 dias | Usuários podem retornar em diferentes momentos do ciclo |
| Campanhas de mídia paga | Mínimo 7 dias, ideal 14 | Sazonalidade de CPM/CPC varia ao longo da semana |
| Site com baixo tráfego (< 500 visitas/dia) | 30–90 dias ou mais | Avalie se o teste é viável antes de iniciar |
| Aplicativos móveis | 14–21 dias | Comportamento de uso varia entre dias úteis e fim de semana |
O checklist antes de encerrar qualquer teste
- O tamanho de amostra planejado foi atingido em ambos os grupos?
- O teste rodou por pelo menos 7 dias corridos completos?
- Não houve eventos externos que possam ter distorcido os dados (feriados, campanhas, problemas técnicos)?
- A divisão de tráfego entre A e B está balanceada (50/50 ou próximo)?
- O resultado foi avaliado uma única vez — ou verificado várias vezes ao longo do período?
Se todas as respostas forem sim, você pode encerrar o teste com confiança e analisar o resultado.
Conclusão
A duração de um teste A/B não é "até dar significativo". É a combinação de dois critérios objetivos: 7 dias mínimos e o tamanho de amostra planejado. Definir esses critérios antes de iniciar — e resistir à tentação de olhar os resultados antes da hora — é o que garante que suas decisões de negócio estejam baseadas em evidência real.