Você quer testar três versões diferentes de um banner: A (controle), B e C. Roda o teste, compara B com A e C com A separadamente, e encontra que C tem p-valor de 0,04. Resultado: C vence. Certo?
Não necessariamente. Quando você faz múltiplas comparações no mesmo experimento, a probabilidade de encontrar pelo menos um falso positivo aumenta rapidamente. Com duas comparações e alfa de 5%, a chance de pelo menos uma delas ser um falso positivo já sobe para quase 10%. Com quatro variantes, passa de 18%.
Isso é chamado de problema de comparações múltiplas ou multiple testing problem, e é particularmente comum em times que testam muitas variantes ao mesmo tempo para "ir mais rápido".
Como evitar
Prefira testes com uma única variante por rodada. Se precisar testar múltiplas variantes simultaneamente, aplique a correção de Bonferroni: divida o alfa pelo número de comparações (ex: com 3 variantes, use alfa = 0,05 / 3 ≈ 0,017, ou seja, exija confiança de ~98,3% para cada comparação individual).