Causal Effect: Como Medir o Impacto Real de Mídia com Inferência Causal

Causal Effect: como medir o impacto real de mídia quando o holdout perfeito não existe

⏱ 12 min de leitura 📅 2026 🏷 Causal Inference · Retail Media · Experimentação

Um teste de holdout bem randomizado é o padrão ouro para medir incrementalidade. Mas na prática — especialmente em marketplaces e campanhas de retargeting — a randomização perfeita raramente existe. É aí que entram os métodos de inferência causal: técnicas que estimam o impacto real de uma campanha mesmo quando os dados observacionais são tudo que você tem.

O problema: viés de seleção destrói a medição

Imagine que você quer medir o impacto incremental de uma campanha de retargeting. Você compara os usuários que viram o anúncio com os que não viram — e encontra que o grupo exposto converteu 3x mais. Sucesso?

Não necessariamente. Os usuários que viram o anúncio provavelmente visitaram o site antes, adicionaram itens ao carrinho, demonstraram intenção de compra. São intrinsecamente mais propensos a converter. A comparação está enviesada desde o início — não porque o anúncio não funcionou, mas porque os grupos não eram comparáveis antes da exposição.

Esse é o viés de seleção: a diferença observada entre os grupos não reflete apenas o efeito da campanha, mas também as diferenças pré-existentes entre quem foi e quem não foi exposto.

O problema no contexto de marketplace Em plataformas como Mercado Livre, o viés de seleção é ainda mais pronunciado: anúncios são entregues por leilão, o que significa que usuários de maior intenção de compra tendem a ver mais anúncios (CPCs mais altos = mais impressões para quem tem maior propensão). Comparar expostos e não-expostos sem correção quase sempre superestima o impacto da mídia.

O framework de resultados potenciais

A base teórica da inferência causal moderna é o framework de resultados potenciais (Rubin, 1974). A ideia é simples: para cada usuário i, existem dois resultados possíveis:

Y(1) = resultado SE o usuário ver o anúncio Y(0) = resultado SE o usuário NÃO ver o anúncio # Efeito causal individual (ITE): τᵢ = Y(1)ᵢ − Y(0)ᵢ # Problema fundamental da inferência causal: # nunca observamos os dois resultados para o mesmo usuário. # Y(0) para quem foi exposto é sempre um contrafactual.

Todo método de inferência causal é, em essência, uma forma diferente de estimar esse contrafactual — o que teria acontecido com os usuários expostos se eles não tivessem visto o anúncio.

O holdout aleatório resolve isso de forma limpa: os grupos são idênticos em expectativa antes da exposição, então o grupo holdout é o contrafactual do grupo exposto. Quando isso não é possível, precisamos de outras estratégias.

Difference-in-Differences (DiD)

O método mais usado quando há dados históricos disponíveis

O DiD compara a variação de conversão entre dois períodos (antes e depois da campanha) entre o grupo tratado e o grupo controle. A lógica é: se ambos os grupos teriam evoluído de forma paralela sem a intervenção, qualquer divergência pós-campanha é atribuível à mídia.

# Estimativa DiD: τ_DiD = (Ȳ_exposto_depois − Ȳ_exposto_antes) − (Ȳ_controle_depois − Ȳ_controle_antes) # Exemplo numérico: Exposto: antes = 2,0% | depois = 3,5% | variação = +1,5 pp Controle: antes = 2,1% | depois = 2,4% | variação = +0,3 pp τ_DiD = 1,5 − 0,3 = +1,2 pp incremental

A premissa central é a tendência paralela (parallel trends assumption): sem a campanha, os dois grupos teriam evoluído de forma similar. Isso pode ser verificado analisando o comportamento histórico de ambos os grupos em períodos anteriores sem intervenção.

Quando usar: quando você tem um grupo de controle pré-existente e dados históricos suficientes para validar a tendência paralela. Muito usado em análises de campanhas de awareness e brand, onde o holdout não foi configurado beforehand.

✓ Não exige randomização ✓ Usa dados históricos ✗ Requer tendência paralela ✗ Sensível a choques externos assimétricos

Propensity Score Matching (PSM)

Constrói um grupo controle comparável a partir de dados observacionais

O PSM resolve o viés de seleção de uma forma mais direta: para cada usuário exposto, encontra um usuário não-exposto com características similares — e usa esse par como base de comparação. Em vez de comparar toda a população, você compara gêmeos estatísticos.

O processo tem duas etapas. Primeiro, estima-se a probabilidade de cada usuário ter sido exposto ao anúncio dado suas características observáveis (propensity score), geralmente com uma regressão logística:

# Propensity score: e(X) = P(Tratamento = 1 | X) # Variáveis típicas em mídia digital (X): − Histórico de visitas e compras − Categorias de interesse − Recência da última visita (recency) − Ticket médio histórico − Canal de aquisição original − Dispositivo, localização, perfil demográfico # Após o matching, o efeito estimado é: τ_ATT = E[Y(1) − Y(0) | Tratamento = 1]

Depois do matching, compara-se a taxa de conversão entre os pares. Usuários com o mesmo propensity score têm, em média, as mesmas características observáveis — o que elimina (ou reduz muito) o viés de seleção observável.

A limitação crítica: o PSM só controla pelo que você observa. Se há um fator não observado que afeta tanto a exposição quanto a conversão (ex: intenção de compra implícita que o modelo não captura), o viés persiste. Esse problema é chamado de confoundimento não observado.

✓ Não exige randomização ✓ Intuitivo e auditável ✗ Só controla confounders observáveis ✗ Pode eliminar muito do grupo de controle

Synthetic Control

Constrói um contrafactual sintético a partir de combinações de unidades de controle

O Synthetic Control é especialmente útil quando você tem poucas unidades de tratamento (ex: uma região, uma categoria, um seller) e muitas unidades de controle. Em vez de usar uma única unidade de controle, ele cria um "controle sintético" que é uma combinação ponderada de várias unidades de controle — escolhida para replicar o comportamento pré-intervenção da unidade tratada.

# Contrafactual sintético: Ŷ(0)_tratado = Σ wⱼ × Y_controle_j # Os pesos wⱼ são escolhidos para minimizar: ||X_tratado − Σ wⱼ × X_controle_j||² # Onde X inclui variáveis pré-tratamento (vendas, buscas, etc.) # Restrição: wⱼ ≥ 0 e Σ wⱼ = 1 (interpolação convexa) # Efeito estimado: τ_t = Y_tratado_t − Ŷ(0)_tratado_t (para t > início da campanha)

Um exemplo prático: você quer medir o impacto de uma campanha de brand em uma categoria específica (ex: smartphones). Você usa outras categorias similares como controle, combinadas com pesos que fazem o "sintético" replicar o histórico de buscas e vendas de smartphones antes da campanha. O que divergir depois é o efeito estimado.

Quando usar: análises de impacto de campanhas de brand, lançamentos de produto, intervenções em nível agregado (categoria, região, canal). Muito usado em estudos de econometria de mídia e geo-experiments.

✓ Excelente para unidades agregadas ✓ Contrafactual visualmente auditável ~ Requer série histórica longa ✗ Não funciona bem com muitas unidades tratadas

Meta-learners: S, T e X-learner

Efeito heterogêneo de tratamento (HTE/CATE) com machine learning

Os três métodos anteriores estimam o efeito médio da campanha sobre a população (ATE ou ATT). Mas e se o impacto for muito diferente entre segmentos? Um anúncio pode ter iROAS de 3x para compradores novos e -0,5x para compradores recorrentes. Os meta-learners estimam esse efeito heterogêneo — o CATE (Conditional Average Treatment Effect).

Os três principais meta-learners têm abordagens diferentes para estimar τ(X) = E[Y(1) − Y(0) | X]:

── S-Learner (Single model) ────────────────────────── # Treina UM modelo com tratamento como feature: μ(X, T) = E[Y | X, T] τ(X) = μ(X, T=1) − μ(X, T=0) # Simples, mas pode subestimar HTE se o modelo "apagar" # a feature de tratamento durante o fit. ── T-Learner (Two models) ──────────────────────────── # Treina DOIS modelos separados: μ₁(X) = E[Y | X, T=1] ← modelo para expostos μ₀(X) = E[Y | X, T=0] ← modelo para controle τ(X) = μ₁(X) − μ₀(X) # Melhor quando os grupos são grandes. Sensível a # desbalanceamento entre expostos e controle. ── X-Learner (Cross model) ─────────────────────────── # Melhor dos dois mundos — usa imputed treatment effects: D̃ᵢ = Yᵢ − μ₀(Xᵢ) para expostos (imputed ITE) D̃ᵢ = μ₁(Xᵢ) − Yᵢ para controle (imputed ITE) τ(X) = e(X)·τ₀(X) + (1−e(X))·τ₁(X) # Onde e(X) é o propensity score. Muito robusto com # grupos desbalanceados — comum em mídia digital.

Por que isso importa na prática: em vez de um iROAS médio de 1,8x que "parece ok", você descobre que o iROAS é 4x para novos compradores e 0,3x para recorrentes de alto ticket — o que muda completamente a estratégia de segmentação e o budget allocation.

✓ Estima efeito por segmento ✓ Permite otimização de targeting ✗ Requer volume alto de dados ✗ Complexidade de implementação e validação

O desafio extra do marketplace: efeito de rede

Em plataformas como Mercado Livre, há uma complicação adicional que todos os métodos acima assumem não existir: a interferência entre unidades.

A premissa padrão de causalidade — chamada de SUTVA (Stable Unit Treatment Value Assumption) — exige que o resultado de um usuário não seja afetado pelo tratamento de outro. Em marketplaces, isso raramente é verdade:

Um anúncio que converte um comprador aumenta o GMV do seller, que pode investir mais em mídia — afetando outros compradores
Um anúncio que gera demanda em uma categoria pode pressionar o estoque e alterar o preço — afetando quem está no holdout
Usuários do holdout podem ver o produto comprado por alguém do grupo exposto e decidir comprar também (social spillover)

Como mitigar o efeito de rede A solução mais robusta é a randomização por cluster: em vez de aleatorizar por usuário, aleatorize por unidade natural — região geográfica, cohort de data de cadastro, categoria de produto. Clusters que estão no grupo exposto recebem todos o tratamento; clusters no holdout não recebem nenhum. Isso reduz o spillover entre grupos ao custo de precisar de mais clusters (e portanto mais tráfego total) para atingir o mesmo poder estatístico.

Como escolher o método certo

Situação	Método recomendado	Por quê
Holdout randomizado disponível	Z-test simples	Randomização já garante comparabilidade. Complexidade desnecessária.
Dados históricos disponíveis, sem randomização	DiD	Usa variação temporal para controlar diferenças pré-existentes.
Dados observacionais, grupos com perfis diferentes	PSM	Cria grupos comparáveis controlando por covariáveis observáveis.
Intervenção em nível agregado (categoria, região)	Synthetic Control	Constrói contrafactual a partir de combinações de controles similares.
Otimizar targeting por segmento	X-Learner / Meta-learners	Estima CATE — efeito heterogêneo por perfil de usuário.
Efeito de rede / marketplace	Randomização por cluster + DiD	Minimiza spillover entre grupos e usa variação temporal como controle adicional.

A hierarquia de evidência em medição de mídia

Na prática, nenhum método é universalmente superior. A escolha depende do que você tem disponível — dados, volume, tempo e capacidade técnica. Uma forma útil de pensar é como uma hierarquia de confiança:

RCT / Holdout randomizado — padrão ouro. Sem viés de seleção por design.
DiD com tendência paralela validada — forte, se a premissa for verificável no histórico.
PSM / Matching com covariáveis ricas — bom quando há muitas features e grupos grandes.
Synthetic Control — robusto para intervenções agregadas com série histórica longa.
Correlação simples exposto vs. não-exposto — fraco. Só útil como proxy inicial, nunca como evidência definitiva.

Regra prática Sempre que possível, combine métodos. Usar DiD e PSM no mesmo dataset e verificar se os resultados convergem é uma forma poderosa de aumentar a confiança na estimativa. Se os métodos divergem significativamente, isso é um sinal de que alguma premissa está sendo violada — e vale investigar antes de tomar decisões de budget.

Conclusão

A pergunta "essa campanha funcionou?" parece simples. Mas respondê-la honestamente exige ir além das métricas de atribuição convencional e questionar: esse resultado teria acontecido sem o anúncio?

Os métodos de inferência causal — DiD, PSM, Synthetic Control e Meta-learners — são ferramentas para responder essa pergunta quando o holdout perfeito não foi configurado. Cada um tem premissas, pontos fortes e limitações. Conhecê-los não é apenas um exercício acadêmico: é o que separa análises que influenciam decisões de budget de análises que apenas confirmam o que o anunciante queria ouvir.

Valide o impacto incremental do seu holdout

Quando você tiver um teste de holdout bem estruturado, use as ferramentas abaixo para calcular lift, iCPA e iROAS com significância estatística.

Calc. de Incrementalidade → Calc. de Significância A/B