5 Erros que Invalidam um Teste A/B e Como Evitar

5 erros que invalidam um teste A/B (e como evitar cada um)

⏱ 7 min de leitura 📅 2026 🏷 Testes A/B · Experimentação · CRO

Testes A/B têm a reputação de ser o padrão ouro da tomada de decisão baseada em dados. E são — quando bem executados. O problema é que a maioria dos erros em experimentação é silenciosa: o teste roda, um resultado aparece, uma decisão é tomada, e ninguém percebe que a conclusão foi equivocada desde o início.

Estes são os cinco erros mais comuns — e mais perigosos — que comprometem a validade de um teste A/B.

Encerrar o teste cedo — o peeking problem

É o erro mais comum e o mais difícil de resistir. O teste está rodando, você abre o painel no terceiro dia, vê 96% de confiança e pensa: "já deu, vamos implementar". Parece razoável. É um erro grave.

O problema é que a confiança estatística flutua durante o teste. Nos primeiros dias, pequenas variações nos dados podem cruzar o limiar de significância por acaso — especialmente quando a amostra ainda é pequena. Se você verificar o resultado repetidamente e parar quando atingir significância, está aumentando artificialmente a sua taxa de erro.

Um experimento monitorado diariamente com encerramento na primeira vez que atingir 95% de confiança pode ter uma taxa real de falsos positivos acima de 25% — não os 5% esperados. Isso significa que 1 em cada 4 decisões baseadas nessa metodologia seria errada.

Como evitar Defina o tamanho de amostra necessário antes de iniciar o teste e só olhe o resultado final quando esse número for atingido. Se precisar monitorar durante o experimento por razões operacionais, use correções estatísticas como o método de O'Brien-Fleming, disponível em plataformas de experimentação mais avançadas.

Testar múltiplas variantes sem correção estatística

Você quer testar três versões diferentes de um banner: A (controle), B e C. Roda o teste, compara B com A e C com A separadamente, e encontra que C tem p-valor de 0,04. Resultado: C vence. Certo?

Não necessariamente. Quando você faz múltiplas comparações no mesmo experimento, a probabilidade de encontrar pelo menos um falso positivo aumenta rapidamente. Com duas comparações e alfa de 5%, a chance de pelo menos uma delas ser um falso positivo já sobe para quase 10%. Com quatro variantes, passa de 18%.

Isso é chamado de problema de comparações múltiplas ou multiple testing problem, e é particularmente comum em times que testam muitas variantes ao mesmo tempo para "ir mais rápido".

Como evitar Prefira testes com uma única variante por rodada. Se precisar testar múltiplas variantes simultaneamente, aplique a correção de Bonferroni: divida o alfa pelo número de comparações (ex: com 3 variantes, use alfa = 0,05 / 3 ≈ 0,017, ou seja, exija confiança de ~98,3% para cada comparação individual).

Amostras desbalanceadas entre os grupos

Um teste A/B pressupõe que o tráfego é dividido de forma aleatória e balanceada entre os grupos. Quando os grupos têm tamanhos muito diferentes — por exemplo, 80% do tráfego em A e 20% em B — dois problemas surgem.

Primeiro, o grupo menor atinge o tamanho de amostra necessário muito mais devagar, prolongando o teste desnecessariamente. Segundo, e mais crítico: se o desbalanceamento não foi intencional (ou seja, o sistema de divisão de tráfego falhou), pode indicar que a aleatorização está comprometida — o que invalida os resultados independentemente do que os dados mostrem.

Outro cenário comum é comparar grupos históricos: usar dados de um período passado como "controle" e um período recente como "variante". Isso não é um teste A/B — é uma comparação temporal que confunde o efeito da mudança com fatores externos (sazonalidade, campanhas, mudanças de mercado).

Como evitar Sempre use divisão de tráfego simultânea e aleatória, preferencialmente 50/50. Antes de analisar os resultados, verifique se os grupos estão equilibrados em tamanho e em variáveis de controle como fonte de tráfego, dispositivo e localização.

Confundir significância estatística com significância prática

Com uma amostra grande o suficiente, qualquer diferença se torna estatisticamente significativa. Se você tiver 5 milhões de usuários no teste, um uplift de 0,01 ponto percentual pode ter p-valor de 0,001. Tecnicamente, é um resultado "significativo". Mas implementar uma mudança para ganhar 0,01 pp de conversão provavelmente não justifica o esforço de desenvolvimento, o risco de regressão e o custo operacional.

O inverso também acontece: com amostras pequenas, um uplift expressivo de 15% pode não atingir significância estatística — o que não significa que o efeito não existe, apenas que os dados são insuficientes para confirmá-lo com o rigor exigido.

Como evitar Antes de iniciar o teste, defina o efeito mínimo detectável (MDE) — o menor uplift que teria valor prático para o negócio. Use esse número no cálculo de tamanho de amostra. Ao analisar o resultado, avalie sempre os dois critérios juntos: o resultado é estatisticamente significativo e o uplift absoluto justifica a decisão?

Poluição de amostra — vazamento entre grupos

Para que um teste A/B seja válido, cada usuário deve ser exposto a apenas uma das variantes durante todo o experimento. Quando um mesmo usuário vê tanto A quanto B, os grupos deixam de ser independentes — e o teste perde validade.

Isso acontece com mais frequência do que se imagina. Exemplos comuns: um usuário que acessa o site em dispositivos diferentes (celular e desktop) e é alocado em grupos distintos em cada dispositivo; um usuário que limpa os cookies e é realocado para o outro grupo; campanhas de retargeting que entregam criativos de uma variante para usuários do outro grupo.

Outro caso frequente é o efeito de rede: quando a ação de um usuário no grupo B afeta a experiência de usuários no grupo A. Isso é comum em marketplaces, redes sociais e sistemas de recomendação, onde os grupos não são verdadeiramente independentes.

Como evitar Use identificação persistente (ID de usuário logado) ao invés de cookies para a alocação de grupos. Audite regularmente a sobreposição entre grupos durante o teste. Em casos de efeito de rede, considere estratégias de randomização por cluster (ex: por cidade ou por cohort de usuários) ao invés de randomização individual.

Conclusão

A maior armadilha dos testes A/B é a sensação de rigor que eles transmitem. Ter um painel mostrando "95% de confiança" parece científico e confiável — mas esse número só tem significado se o experimento foi estruturado corretamente desde o início.

Os cinco erros acima são silenciosos: o teste roda, o resultado aparece, e a decisão é tomada sem que ninguém perceba que os dados estavam comprometidos. A defesa contra eles está no processo: definir critérios antes, não durante; aleatorizar corretamente; e avaliar o resultado uma única vez, no final.

Avalie o resultado do seu teste com rigor

Use a calculadora gratuita para verificar a significância estatística do seu experimento e o tamanho de amostra necessário.

Abrir a Calculadora Gratuita →