Aula 7: Métodos de Matching e Difference-in-Differences no Mercado Financeiro

Aula 7: Métodos de Matching e Difference-in-Differences

Aplicações no Mercado Financeiro Brasileiro

Objetivos de Aprendizagem

  • Compreender os fundamentos teóricos dos métodos de Matching e Difference-in-Differences (DiD)
  • Identificar situações em que cada método é apropriado para inferência causal
  • Aplicar essas técnicas a questões relevantes do mercado financeiro brasileiro
  • Interpretar corretamente os resultados e reconhecer limitações dos métodos

1. Métodos Quasi-Experimentais: Visão Geral

Nas aulas anteriores, discutimos experimentos aleatorizados como o "padrão-ouro" da inferência causal. No entanto, em muitos contextos do mercado financeiro, não é possível ou ético conduzir experimentos aleatorizados. Felizmente, existem métodos alternativos que, sob certas hipóteses, permitem inferência causal com dados observacionais.

Métodos Quasi-Experimentais

Os métodos quasi-experimentais tentam replicar as propriedades de um experimento aleatorizado sem aleatorização explícita. Eles exploram variação que ocorre "naturalmente" nos dados e aplicam técnicas estatísticas para aproximar a comparação de um experimento genuíno.

Principais abordagens quasi-experimentais para inferência causal:

  • Métodos de Matching: Pareiam unidades tratadas e não tratadas com características observáveis similares
  • Difference-in-Differences (DiD): Compara mudanças ao longo do tempo entre grupos tratados e não tratados
  • Regressão Descontínua: Explora descontinuidades em regras de alocação do tratamento
  • Variáveis Instrumentais: Usam variação exógena para identificar o efeito causal (discutido na Aula 5)
  • Synthetic Control: Cria um contrafactual sintético usando combinação ponderada de unidades não tratadas
Métodos de Matching

Supõe que seleção para tratamento é baseada apenas em características observáveis.

Simples de implementar e interpretar
Não requer dados temporais
Pode ser combinado com outros métodos
Supõe ausência de confundidores não observáveis
Sensível ao problema de suporte comum
Difference-in-Differences

Controla para confundidores não observáveis fixos no tempo.

Permite confundidores não observáveis fixos
Intuição gráfica clara
Aplicável a intervenções em nível agregado
Requer dados antes e depois do tratamento
Sensível à hipótese de tendências paralelas
Espectro de Métodos Causais Complexidade Metodológica / Requisitos de Dados Validade Causal Correlação Simples Regressão com Controles Matching Diff-in-Diff Variáveis Instrumentais Regressão Descontínua Experimentos Aleatorizados Foco da Aula 7 Menor exigência de dados Maior exigência de dados Maior validade causal Menor validade causal

Figura 1: Espectro de métodos para inferência causal, destacando Matching e Difference-in-Differences

Verificação de Leitura #1

De acordo com a Figura 1, qual a principal diferença entre os métodos de Matching e Difference-in-Differences em termos de validade causal?




2. Métodos de Matching: Teoria e Aplicação

Os métodos de matching tentam lidar com o problema do viés de seleção criando um grupo de controle que seja o mais similar possível ao grupo de tratamento em termos de características observáveis.

Fundamentos Teóricos do Matching

A ideia central é que, condicionado a um conjunto adequado de características observáveis X, o tratamento torna-se "tão bom quanto aleatório":

Y(0), Y(1) ⊥ D | X

Onde Y(0) e Y(1) são os resultados potenciais, D é o indicador de tratamento, e X são as covariáveis observáveis.

Esta hipótese é conhecida como Ignorabilidade Condicional ou Seleção nas Observáveis.

O matching também requer a hipótese de Suporte Comum: para cada valor de X, deve haver probabilidade positiva de receber e não receber o tratamento.

0 < P(D=1|X) < 1
Lógica do Método de Matching Dados Originais Tratamento Controle Matching Após Matching Pares casados Estimação do Efeito Causal ATT = E[Y(1) | D=1] - E[Y(0) | D=1] ≈ Média dos resultados nos tratados - Média dos resultados nos controles pareados ATE = E[Y(1) - Y(0)] ≈ Média das diferenças entre pares casados

Figura 2: Representação visual da lógica do método de matching

Principais Variantes do Matching

  1. Exact Matching: Pareamento exato em todas as características observáveis
  2. Propensity Score Matching (PSM): Pareamento baseado na probabilidade estimada de receber tratamento
  3. Nearest Neighbor Matching: Pareamento com a unidade mais próxima em termos de alguma métrica
  4. Coarsened Exact Matching (CEM): Pareamento exato após agrupar (coarsen) as variáveis
  5. Mahalanobis Distance Matching: Pareamento baseado na distância de Mahalanobis entre as covariáveis
# Exemplo de implementação de Propensity Score Matching em Python
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import NearestNeighbors

def propensity_score_matching(df, treatment_col, covariates, outcome_col, n_neighbors=1):
    """
    Implementa Propensity Score Matching
    
    Args:
        df: DataFrame com os dados
        treatment_col: Nome da coluna de tratamento (0 ou 1)
        covariates: Lista de nomes das colunas das covariáveis
        outcome_col: Nome da coluna do resultado
        n_neighbors: Número de vizinhos para matching
    
    Returns:
        ATT: Average Treatment Effect on the Treated
        matched_data: DataFrame com dados pareados
    """
    # Estimar propensity scores
    model = LogisticRegression(max_iter=1000)
    model.fit(df[covariates], df[treatment_col])
    df['propensity_score'] = model.predict_proba(df[covariates])[:, 1]
    
    # Separar grupos de tratamento e controle
    treated = df[df[treatment_col] == 1]
    control = df[df[treatment_col] == 0]
    
    # Encontrar matches baseados no propensity score
    nbrs = NearestNeighbors(n_neighbors=n_neighbors).fit(
        control[['propensity_score']])
    distances, indices = nbrs.kneighbors(treated[['propensity_score']])
    
    # Criar DataFrame com matches
    matched_control = pd.DataFrame()
    for i, idx_list in enumerate(indices):
        matches = control.iloc[idx_list].copy()
        matches['treated_id'] = treated.index[i]
        matched_control = pd.concat([matched_control, matches])
    
    # Calcular ATT
    att = (treated[outcome_col].mean() - 
           matched_control.groupby('treated_id')[outcome_col].mean().mean())
    
    # Preparar dados pareados para retorno
    matched_data = pd.concat([
        treated,
        matched_control.drop('treated_id', axis=1)
    ])
    
    return att, matched_data

Verificação de Leitura #2

O que significa a hipótese de "Ignorabilidade Condicional" no contexto dos métodos de matching?




Aplicação: Impacto da Adesão aos Segmentos Especiais da B3 no Valor das Empresas

Considere uma pesquisa avaliando o impacto da adesão ao Novo Mercado (segmento de governança da B3) no valor de mercado das empresas brasileiras.

Problema: A decisão de aderir ao Novo Mercado não é aleatória, criando potencial viés de seleção.

Abordagem de Matching:

  • Tratamento: Adesão ao Novo Mercado (1 = aderiu, 0 = não aderiu)
  • Covariáveis para matching: Tamanho (log dos ativos), setor, idade da empresa, rentabilidade pré-adesão, alavancagem, estrutura de propriedade
  • Variáveis de resultado: Q de Tobin (valor de mercado/valor contábil)
  • Método: Propensity Score Matching com nearest neighbor (1:1)

Resultados: Após o matching, as empresas que aderiram ao Novo Mercado apresentaram um Q de Tobin 0.23 pontos maior que empresas similares que não aderiram, indicando um prêmio de valor associado a melhores práticas de governança.

3. Difference-in-Differences (DiD): Teoria e Aplicação

O método Difference-in-Differences (DiD) é uma técnica poderosa para estimar efeitos causais quando se dispõe de dados em painel ou repetidos no tempo, especialmente quando existem confundidores não observáveis fixos no tempo.

Fundamentos Teóricos do DiD

O DiD compara a mudança no resultado entre dois períodos (antes e depois do tratamento) para os grupos tratado e controle. A ideia central é que, na ausência do tratamento, os dois grupos teriam seguido trajetórias paralelas.

A hipótese fundamental é a de Tendências Paralelas: sem o tratamento, a diferença nos resultados entre os grupos tratado e controle permaneceria constante ao longo do tempo.

E[Yt1(0) - Yt0(0) | D=1] = E[Yt1(0) - Yt0(0) | D=0]

O estimador DiD é:

δDiD = (Ȳt1,D=1 - Ȳt0,D=1) - (Ȳt1,D=0 - Ȳt0,D=0)

Ou seja, a diferença das diferenças entre os dois grupos ao longo do tempo.

Lógica do Método Difference-in-Differences Tempo Resultado Antes (t0) Depois (t1) Intervenção Y(t0, D=1) Y(t1, D=1) Y(t0, D=0) Y(t1, D=0) Contrafactual Efeito do tratamento Diferença inicial Tendência paralela Grupo Tratado Grupo Controle

Figura 3: Representação visual do método Difference-in-Differences

# Exemplo de implementação de Difference-in-Differences em Python
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

def diff_in_diff_estimation(df, time_var, treat_var, outcome_var, covariates=None):
    """
    Implementa estimação Difference-in-Differences
    
    Args:
        df: DataFrame com os dados
        time_var: Nome da coluna que indica período (0=antes, 1=depois)
        treat_var: Nome da coluna que indica tratamento (0=controle, 1=tratado)
        outcome_var: Nome da coluna da variável de resultado
        covariates: Lista de nomes das covariáveis adicionais (opcional)
    
    Returns:
        Modelo estimado e coeficiente DiD
    """
    # Criar termo de interação
    df['treat_post'] = df[treat_var] * df[time_var]
    
    # Construir fórmula
    formula = f"{outcome_var} ~ {treat_var} + {time_var} + treat_post"
    
    # Adicionar covariáveis se especificadas
    if covariates:
        for cov in covariates:
            formula += f" + {cov}"
    
    # Estimar modelo
    model = smf.ols(formula=formula, data=df).fit(cov_type='HC1')
    
    # O coeficiente de interesse é a interação (treat_post)
    did_effect = model.params['treat_post']
    
    return model, did_effect

Verificação de Leitura #3

Qual é a principal hipótese necessária para a validade do método Difference-in-Differences?




Aplicação: Impacto da Lei das Estatais (Lei nº 13.303/2016) no Valor das Empresas Estatais

A Lei das Estatais de 2016 estabeleceu novos requisitos de governança corporativa para empresas estatais brasileiras. Este caso usa DiD para estimar o impacto dessa regulação no valor das empresas estatais listadas.

Setup do DiD:

  • Grupo de tratamento: Empresas estatais listadas na B3
  • Grupo de controle: Empresas privadas comparáveis (pareadas por setor e tamanho)
  • Período pré-tratamento: 2015-2016 (antes da implementação da Lei)
  • Período pós-tratamento: 2017-2018 (após implementação da Lei)
  • Variável de resultado: Q de Tobin

Especificação econométrica:

Yit = β0 + β1Estatali + β2Póst + β3(Estatali × Póst) + γXit + αi + λt + εit

Onde Xit são controles variantes no tempo, αi são efeitos fixos de empresa, e λt são efeitos fixos de tempo.

Resultados: O coeficiente β3 (DiD) foi estimado em 0.17, indicando que a Lei das Estatais aumentou o Q de Tobin das empresas estatais em 0.17 pontos em relação às empresas privadas comparáveis.

4. Extensões e Refinamentos

Tanto os métodos de Matching quanto o Difference-in-Differences possuem extensões avançadas que permitem lidar com situações mais complexas e relaxar algumas hipóteses:

Extensões do Matching

  • Matching com Regressão: Combina matching com ajuste de regressão para maior robustez
  • Kernel Matching: Usa todos os controles com pesos definidos por um kernel
  • Genetic Matching: Usa algoritmos genéticos para otimizar o balanceamento das covariáveis
  • Entropy Balancing: Repondera os controles para balancear diretamente os momentos das distribuições
  • FLAME (Fast Large-scale Almost Matching Exactly): Algoritmo eficiente para grandes bases de dados

Extensões do DiD

  • Event Studies: DiD com múltiplos períodos e efeitos dinâmicos
  • Triple Differences (DDD): Adiciona uma terceira dimensão de diferenças
  • Synthetic Control: Cria controle sintético como combinação ponderada de unidades não tratadas
  • DiD com matching: Combina DiD com matching para melhorar comparabilidade dos grupos
  • DiD com tendências específicas: Permite tendências diferentes entre grupos antes do tratamento
  • DiD com tratamento heterogêneo no tempo: Lida com tratamentos que ocorrem em momentos diferentes para diferentes unidades

Verificação de Leitura #4

Por que combinar DiD com matching pode ser uma estratégia vantajosa para estimar efeitos causais?




5. Aplicações ao Mercado Financeiro Brasileiro

Os métodos de Matching e Difference-in-Differences têm diversas aplicações interessantes no contexto do mercado financeiro brasileiro:

Método Área de Aplicação Exemplos de Pesquisas
Matching Governança Corporativa Efeito da adoção voluntária de práticas de governança no custo de capital e valor
Estrutura de Capital Impacto da estrutura de propriedade no desempenho e política de dividendos
Fusões e Aquisições Retornos anormais de longo prazo após M&A para empresas adquirentes e adquiridas
Difference-in-Differences Mudanças Regulatórias Impacto da Instrução CVM 552, Lei das Estatais, ou mudanças nos padrões contábeis
Intervenções Macroeconômicas Efeitos de mudanças na taxa Selic sobre diferentes setores ou tipos de empresas
Crises Econômicas ou Políticas Resposta diferencial dos mercados a crises (ex: Operação Lava Jato, COVID-19)

Desafios Específicos do Mercado Brasileiro

Ao aplicar esses métodos no contexto brasileiro, é importante considerar:

  • Amostra reduzida: Número limitado de empresas listadas, afetando o poder estatístico
  • Alta concentração de propriedade: Estruturas de controle familiar frequentes, afetando decisões corporativas
  • Volatilidade macroeconômica: Choques frequentes que podem violar hipóteses como tendências paralelas
  • Mudanças institucionais frequentes: Alterações regulatórias que podem causar múltiplos tratamentos simultâneos
  • Disponibilidade de dados: Histórico mais limitado e potenciais falhas na qualidade dos dados

Estudo de Caso: Impacto da B3 Divulgar o "Relatório de Empresas Listadas com Mulheres na Liderança"

Em 2019, a B3 passou a divulgar um relatório destacando empresas com maior participação feminina em cargos de liderança. Vamos analisar o impacto dessa divulgação.

Contexto: A divulgação pode aumentar a visibilidade e pressão para diversidade de gênero, potencialmente afetando valor e decisões corporativas

Design de Pesquisa:

  • Método principal: Difference-in-Differences combinado com Matching
  • Tratamento: Empresas destacadas no primeiro relatório
  • Controle: Empresas similares não destacadas (pareadas por setor, tamanho, e desempenho pré-tratamento)
  • Período: 2018-2020 (1 ano antes e após)
  • Variáveis de resultado: Q de Tobin, retornos anormais, volatilidade

Resultados hipotéticos: Empresas destacadas apresentaram aumento de 0.15 no Q de Tobin e redução de 5% na volatilidade em comparação ao grupo controle após o matching e DiD, sugerindo um prêmio de mercado para empresas com maior diversidade de gênero em posições de liderança.

Verificação de Leitura #5

Qual dos seguintes eventos seria mais adequado para uma análise usando Difference-in-Differences no mercado financeiro brasileiro?




Quiz Final

1. Qual é a principal diferença entre os pressupostos dos métodos de Matching e Difference-in-Differences?




2. Em um estudo utilizando Propensity Score Matching para avaliar o impacto da adesão ao Novo Mercado no custo de capital das empresas, o que significa encontrar um "suporte comum" adequado?




3. Para testar a validade do pressuposto de tendências paralelas em um estudo de Difference-in-Differences sobre o impacto de uma nova regulação da CVM, qual abordagem seria mais adequada?




4. Um pesquisador está estudando o impacto da adoção de práticas ESG (Environmental, Social, and Governance) no valor das empresas brasileiras. Considerando que as empresas adotam essas práticas em momentos diferentes, qual seria a abordagem metodológica mais apropriada?




5. Ao aplicar métodos de Matching e DiD no mercado financeiro brasileiro, qual das seguintes afirmações é FALSA?




Leituras Recomendadas

  • Angrist, J. D., & Pischke, J. S. (2008). Mostly Harmless Econometrics. Princeton University Press. Capítulos 3 e 5.
  • Caliendo, M., & Kopeinig, S. (2008). "Some practical guidance for the implementation of propensity score matching". Journal of Economic Surveys, 22(1), 31-72.
  • Bertrand, M., Duflo, E., & Mullainathan, S. (2004). "How much should we trust differences-in-differences estimates?". The Quarterly Journal of Economics, 119(1), 249-275.
  • Lazzarini, S. G., & Mello, J. M. P. (2015). "Assessing the impact of governance reforms on corporate performance: Evidence from Brazil". Revista Brasileira de Economia, 69(4), 371-394.
  • Stuart, E. A. (2010). "Matching methods for causal inference: A review and a look forward". Statistical Science, 25(1), 1-21.

Para a Próxima Aula

Preparem-se para discutir Regressão Descontínua e Synthetic Control Methods. Leiam Angrist & Pischke (2008), capítulo 6, e Abadie & Gardeazabal (2003).

Referência em aprendizagem

About Us

Terms of Use

Our Team

How It Works

Accessibility

Support

FAQs

Terms & Conditions

Privacy Policy

Career

Download nosso App

Quick Links

About

Help Centre

Business

Contact

© 2025 Axioma Informática e Tecnologia