Inferência Causal · Avançado
Causal Effect: como medir o impacto real de mídia quando o holdout perfeito não existe
⏱ 12 min de leitura
📅 2026
🏷 Causal Inference · Retail Media · Experimentação
Um teste de holdout bem randomizado é o padrão ouro para medir incrementalidade. Mas na prática — especialmente em marketplaces e campanhas de retargeting — a randomização perfeita raramente existe. É aí que entram os métodos de inferência causal: técnicas que estimam o impacto real de uma campanha mesmo quando os dados observacionais são tudo que você tem.
O problema: viés de seleção destrói a medição
Imagine que você quer medir o impacto incremental de uma campanha de retargeting. Você compara os usuários que viram o anúncio com os que não viram — e encontra que o grupo exposto converteu 3x mais. Sucesso?
Não necessariamente. Os usuários que viram o anúncio provavelmente visitaram o site antes, adicionaram itens ao carrinho, demonstraram intenção de compra. São intrinsecamente mais propensos a converter. A comparação está enviesada desde o início — não porque o anúncio não funcionou, mas porque os grupos não eram comparáveis antes da exposição.
Esse é o viés de seleção: a diferença observada entre os grupos não reflete apenas o efeito da campanha, mas também as diferenças pré-existentes entre quem foi e quem não foi exposto.
O problema no contexto de marketplace
Em plataformas como Mercado Livre, o viés de seleção é ainda mais pronunciado: anúncios são entregues por leilão, o que significa que usuários de maior intenção de compra tendem a ver mais anúncios (CPCs mais altos = mais impressões para quem tem maior propensão). Comparar expostos e não-expostos sem correção quase sempre superestima o impacto da mídia.
O framework de resultados potenciais
A base teórica da inferência causal moderna é o framework de resultados potenciais (Rubin, 1974). A ideia é simples: para cada usuário i, existem dois resultados possíveis:
Y(1) = resultado SE o usuário ver o anúncio
Y(0) = resultado SE o usuário NÃO ver o anúncio
τᵢ = Y(1)ᵢ − Y(0)ᵢ
Todo método de inferência causal é, em essência, uma forma diferente de estimar esse contrafactual — o que teria acontecido com os usuários expostos se eles não tivessem visto o anúncio.
O holdout aleatório resolve isso de forma limpa: os grupos são idênticos em expectativa antes da exposição, então o grupo holdout é o contrafactual do grupo exposto. Quando isso não é possível, precisamos de outras estratégias.
O DiD compara a variação de conversão entre dois períodos (antes e depois da campanha) entre o grupo tratado e o grupo controle. A lógica é: se ambos os grupos teriam evoluído de forma paralela sem a intervenção, qualquer divergência pós-campanha é atribuível à mídia.
τ_DiD = (Ȳ_exposto_depois − Ȳ_exposto_antes) − (Ȳ_controle_depois − Ȳ_controle_antes)
Exposto: antes = 2,0% | depois = 3,5% | variação = +1,5 pp
Controle: antes = 2,1% | depois = 2,4% | variação = +0,3 pp
τ_DiD = 1,5 − 0,3 = +1,2 pp incremental
A premissa central é a tendência paralela (parallel trends assumption): sem a campanha, os dois grupos teriam evoluído de forma similar. Isso pode ser verificado analisando o comportamento histórico de ambos os grupos em períodos anteriores sem intervenção.
Quando usar: quando você tem um grupo de controle pré-existente e dados históricos suficientes para validar a tendência paralela. Muito usado em análises de campanhas de awareness e brand, onde o holdout não foi configurado beforehand.
✓ Não exige randomização
✓ Usa dados históricos
✗ Requer tendência paralela
✗ Sensível a choques externos assimétricos
O PSM resolve o viés de seleção de uma forma mais direta: para cada usuário exposto, encontra um usuário não-exposto com características similares — e usa esse par como base de comparação. Em vez de comparar toda a população, você compara gêmeos estatísticos.
O processo tem duas etapas. Primeiro, estima-se a probabilidade de cada usuário ter sido exposto ao anúncio dado suas características observáveis (propensity score), geralmente com uma regressão logística:
e(X) = P(Tratamento = 1 | X)
− Histórico de visitas e compras
− Categorias de interesse
− Recência da última visita (recency)
− Ticket médio histórico
− Canal de aquisição original
− Dispositivo, localização, perfil demográfico
τ_ATT = E[Y(1) − Y(0) | Tratamento = 1]
Depois do matching, compara-se a taxa de conversão entre os pares. Usuários com o mesmo propensity score têm, em média, as mesmas características observáveis — o que elimina (ou reduz muito) o viés de seleção observável.
A limitação crítica: o PSM só controla pelo que você observa. Se há um fator não observado que afeta tanto a exposição quanto a conversão (ex: intenção de compra implícita que o modelo não captura), o viés persiste. Esse problema é chamado de confoundimento não observado.
✓ Não exige randomização
✓ Intuitivo e auditável
✗ Só controla confounders observáveis
✗ Pode eliminar muito do grupo de controle
O Synthetic Control é especialmente útil quando você tem poucas unidades de tratamento (ex: uma região, uma categoria, um seller) e muitas unidades de controle. Em vez de usar uma única unidade de controle, ele cria um "controle sintético" que é uma combinação ponderada de várias unidades de controle — escolhida para replicar o comportamento pré-intervenção da unidade tratada.
Ŷ(0)_tratado = Σ wⱼ × Y_controle_j
||X_tratado − Σ wⱼ × X_controle_j||²
τ_t = Y_tratado_t − Ŷ(0)_tratado_t (para t > início da campanha)
Um exemplo prático: você quer medir o impacto de uma campanha de brand em uma categoria específica (ex: smartphones). Você usa outras categorias similares como controle, combinadas com pesos que fazem o "sintético" replicar o histórico de buscas e vendas de smartphones antes da campanha. O que divergir depois é o efeito estimado.
Quando usar: análises de impacto de campanhas de brand, lançamentos de produto, intervenções em nível agregado (categoria, região, canal). Muito usado em estudos de econometria de mídia e geo-experiments.
✓ Excelente para unidades agregadas
✓ Contrafactual visualmente auditável
~ Requer série histórica longa
✗ Não funciona bem com muitas unidades tratadas
Os três métodos anteriores estimam o efeito médio da campanha sobre a população (ATE ou ATT). Mas e se o impacto for muito diferente entre segmentos? Um anúncio pode ter iROAS de 3x para compradores novos e -0,5x para compradores recorrentes. Os meta-learners estimam esse efeito heterogêneo — o CATE (Conditional Average Treatment Effect).
Os três principais meta-learners têm abordagens diferentes para estimar τ(X) = E[Y(1) − Y(0) | X]:
μ(X, T) = E[Y | X, T]
τ(X) = μ(X, T=1) − μ(X, T=0)
μ₁(X) = E[Y | X, T=1] ← modelo para expostos
μ₀(X) = E[Y | X, T=0] ← modelo para controle
τ(X) = μ₁(X) − μ₀(X)
D̃ᵢ = Yᵢ − μ₀(Xᵢ) para expostos (imputed ITE)
D̃ᵢ = μ₁(Xᵢ) − Yᵢ para controle (imputed ITE)
τ(X) = e(X)·τ₀(X) + (1−e(X))·τ₁(X)
Por que isso importa na prática: em vez de um iROAS médio de 1,8x que "parece ok", você descobre que o iROAS é 4x para novos compradores e 0,3x para recorrentes de alto ticket — o que muda completamente a estratégia de segmentação e o budget allocation.
✓ Estima efeito por segmento
✓ Permite otimização de targeting
✗ Requer volume alto de dados
✗ Complexidade de implementação e validação
O desafio extra do marketplace: efeito de rede
Em plataformas como Mercado Livre, há uma complicação adicional que todos os métodos acima assumem não existir: a interferência entre unidades.
A premissa padrão de causalidade — chamada de SUTVA (Stable Unit Treatment Value Assumption) — exige que o resultado de um usuário não seja afetado pelo tratamento de outro. Em marketplaces, isso raramente é verdade:
- Um anúncio que converte um comprador aumenta o GMV do seller, que pode investir mais em mídia — afetando outros compradores
- Um anúncio que gera demanda em uma categoria pode pressionar o estoque e alterar o preço — afetando quem está no holdout
- Usuários do holdout podem ver o produto comprado por alguém do grupo exposto e decidir comprar também (social spillover)
Como mitigar o efeito de rede
A solução mais robusta é a randomização por cluster: em vez de aleatorizar por usuário, aleatorize por unidade natural — região geográfica, cohort de data de cadastro, categoria de produto. Clusters que estão no grupo exposto recebem todos o tratamento; clusters no holdout não recebem nenhum. Isso reduz o spillover entre grupos ao custo de precisar de mais clusters (e portanto mais tráfego total) para atingir o mesmo poder estatístico.
Como escolher o método certo
| Situação |
Método recomendado |
Por quê |
| Holdout randomizado disponível |
Z-test simples |
Randomização já garante comparabilidade. Complexidade desnecessária. |
| Dados históricos disponíveis, sem randomização |
DiD |
Usa variação temporal para controlar diferenças pré-existentes. |
| Dados observacionais, grupos com perfis diferentes |
PSM |
Cria grupos comparáveis controlando por covariáveis observáveis. |
| Intervenção em nível agregado (categoria, região) |
Synthetic Control |
Constrói contrafactual a partir de combinações de controles similares. |
| Otimizar targeting por segmento |
X-Learner / Meta-learners |
Estima CATE — efeito heterogêneo por perfil de usuário. |
| Efeito de rede / marketplace |
Randomização por cluster + DiD |
Minimiza spillover entre grupos e usa variação temporal como controle adicional. |
A hierarquia de evidência em medição de mídia
Na prática, nenhum método é universalmente superior. A escolha depende do que você tem disponível — dados, volume, tempo e capacidade técnica. Uma forma útil de pensar é como uma hierarquia de confiança:
- RCT / Holdout randomizado — padrão ouro. Sem viés de seleção por design.
- DiD com tendência paralela validada — forte, se a premissa for verificável no histórico.
- PSM / Matching com covariáveis ricas — bom quando há muitas features e grupos grandes.
- Synthetic Control — robusto para intervenções agregadas com série histórica longa.
- Correlação simples exposto vs. não-exposto — fraco. Só útil como proxy inicial, nunca como evidência definitiva.
Regra prática
Sempre que possível, combine métodos. Usar DiD e PSM no mesmo dataset e verificar se os resultados convergem é uma forma poderosa de aumentar a confiança na estimativa. Se os métodos divergem significativamente, isso é um sinal de que alguma premissa está sendo violada — e vale investigar antes de tomar decisões de budget.
Conclusão
A pergunta "essa campanha funcionou?" parece simples. Mas respondê-la honestamente exige ir além das métricas de atribuição convencional e questionar: esse resultado teria acontecido sem o anúncio?
Os métodos de inferência causal — DiD, PSM, Synthetic Control e Meta-learners — são ferramentas para responder essa pergunta quando o holdout perfeito não foi configurado. Cada um tem premissas, pontos fortes e limitações. Conhecê-los não é apenas um exercício acadêmico: é o que separa análises que influenciam decisões de budget de análises que apenas confirmam o que o anunciante queria ouvir.
Valide o impacto incremental do seu holdout
Quando você tiver um teste de holdout bem estruturado, use as ferramentas abaixo para calcular lift, iCPA e iROAS com significância estatística.