Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Explorando a base de dados do artigo "Nutrition, information and household behavior: Experimental evidence from Malawi" (2016)

0 votos
32 visitas
perguntada Mai 21 em Economia por Vinícius Oliveira (11 pontos)  
editado Mai 21 por Vinícius Oliveira

Este exercício econométrico baseia-se na seguinte referência principal:

FITZSIMONS, Emla et al. Nutrition, information and household behavior: Experimental evidence from Malawi. Journal of Development Economics, v. 122, p. 113-126, 2016.

Esse artigo, bem como a base de dados utilizada encontram-se disponíveis no link a seguir:

Artigo e base de dados utilizada.

A proposta é discutir brevemente o artigo, apresentar algumas estatístiscas descritivas da amostra e replicar parcialmente as Tabelas 1 e 4 do paper

As referências adicionais serão explicitadas ao final da resposta

Compartilhe

1 Resposta

0 votos
respondida Mai 21 por Vinícius Oliveira (11 pontos)  
editado Mai 21 por Vinícius Oliveira

Introdução e Motivação

No Malawi, um país localizado na África Oriental, existe um problema crônico de má nutrição infantil. Como reflexo dessa realidade, em 2004, de acordo com dados do Demographic and Helth Survey (DHS), a taxa de mortalidade de crianças menores de 5 anos de idade era de 113 por 1000. Diante desse cenário, os autores do artigo em análise estudam uma intervenção randomizada, ocorrida em 2005, na qual se forneceu informações sobre nutrição infantil à mães de crianças na zona rural desse país.

Nesse sentido, os autores objetivam avaliar qual o impacto desse programa sobre diversas variáveis relacionadas a saúde e nutrição infantil. Do ponto de vista metodológico, experimentos controlados são ferramentas interessantes em economia, pois nos permitem, por exemplo, combinar econometria com teoria econômica para estudar causalidade.

Revisão de Literatura

Esse estudo se relaciona a literatura empírica da área de Saúde e Economia da Saúde. Nestas, em geral, a evidência é mista quanto ao efeito de se provisionar informações sobre saúde no comportamento das pessoas. Por exemplo, Dupas (2011) encontra, num experimento controlado, impacto positivo de se fornecer informações de medidas preventivas ao HIV sobre o comportamento sexual de adolescentes no Kenya. Contudo, Kamali et al (2003) não encontram impacto algum nesse sentido num experimento análogo realizado na Uganda.

Por outro lado, quando se analisa, mais especificamente, intervenções sobre informação nutricional, a literatura tem encontrado, de forma mais consistente, efeito positivo sobre práticas nutricionais e saúde infantil. Por exemplo, Haider et al (2000) encontram, num experimento controlado no Bangladesh, impacto positivo no sentido de aumentar a taxa de crianças com até 6 meses de vida que são alimentadas exclusivamente por leite materno. Por sua vez, Alderman (2007) encontra, por meio de métodos não experimentais, melhorias no peso por idade de crianças na Uganda.

Modelo Teórico

Com vistas a justificar o efeito esperado da intervenção, os autores propõem um modelo teórico. Neste, em essência, os adultos decidem o consumo alimentício próprio e o dos filhos num problema típico de otimização microeconômico. Nesse processo, a decisão do consumo das crianças é influenciada pela percepção, não necessariamente perfeita, dos pais em relação a uma função de produção da saúde infantil. Nesse contexto, o papel do programa seria melhorar o conhecimento dos pais sobre essa função de produção e, a partir disso, promover melhorias em práticas nutricionais e na saúde infantil.

Desenho do Experimento

A imagem será apresentada aqui.
Fonte: Elaboração própria com base em informações de Fitzsimons et al (2016)

Consoante a figura acima, nesse experimento, dividiu-se geograficamente o distrito Mchinji (cidade do Malawi) em 48 clusters (grupos), dos quais 12 foram escolhidos aleatoriamente para receber o tratamento, e outros 12 foram selecionados para o grupo de comparação. Em cada cluster, havia cerca 3000 pessoas elegíveis para participar do experimento.

A intervenção consistiu no seguinte: em 2005, os domicílios contemplados receberiam visitas periódicas de pessoas treinadas para fornecer orientações a mães de crianças pequenas sobre práticas nutricionais infantis. Após 3 anos e meio, os pesquisadores retornaram ao Malawi para fazer o 1º Follow Up: entrevistas com os participantes do experimento para averiguar os resultados do programa. Alguns meses depois, realizou-se de forma análoga um 2º Follow Up

Características da Amostra

De cada um dos 24 clusters analisados no experimento, os autores selecionaram aleatoriamente alguns domicílios, totalizando 1248 domicílios tratados, e 1248 de controle. Com base nessa subamostra, observa-se que, em média, as mulheres possuem idade de 24,5 anos, das quais 61% são casadas, mais de 70% fizeram ensino primário, mas só 7% realizaram ensino secundário. Além disso, a maioria dos domicílios analisados não possuem energia elétrica e localizam-se em zona rural

1º Exercício: Balanceamento da Amostra

A imagem será apresentada aqui.
Fonte: Elaboração própria com base em dados de Fitzsimons et al (2016)

O primeiro exercício realizado é um tentativa de reproduzir uma versão simplificada da Tabela 1 do artigo original, no qual os autores realizam um teste de balanceamento da amostra. Em essência, a ideia é, para um conjunto de características observadas pré tratamento, calcular a média para os grupo de tratamento e de controle, tirar a diferença e avaliar se esta é estatisticamente significativa. Nesse cenário, caso a amostra esteja balanceada, espera-se não ser possível rejeitar a hipótese nula de que essa diferença seria zero em todas ou, pelo menos, na maioria das características observadas.

No artigo original, os autores encontram evidência de balanceamento, pois, das 23 características analisadas, só em "h_sroom", variável indicadora do número de dormitórios no domicílio, rejeita-se a hipótese nula a 5%. Por outro lado, consoante a tabela acima, em nosso exercício, o resultado é diferente: rejeitamos a hipótese nula em 8 características (as linhas em vermelho na tabela). Isso se deve ao fato de nosso procedimento de inferência estatística estar inadequado. Afinal, simplesmente calculamos a estatística t e o p valor associado da distribuição t de student. Isso com base num erro padrão não robusto a correlação intra cluster, a qual ocorre quando a randomização é realizada por grupo.

Nesse sentido, os autores argumentam o seguinte: quando há poucos clusters na amostra (no caso, há 24), ainda que se compute erros padrão robustos a correlação intra cluster, a inferência estatística tradicional, realizada neste exercício, está sujeita a um viés no sentido de se rejeitar excessivamente a hipótese nula. Isso ocorre, pois a robustez desse erro padrão funciona melhor assintoticamente, quando o número de clusters é grande o suficiente. Em função disso, os autores corrigem esse problema adotando uma metodologia de inferência, proposta por Cameron et al (2008), chamada wild cluster bootstrap t.

No entanto, a proposta deste primeiro exercício é tão somente verificar o que acontece se utilizarmos um procedimento mais simples de inferência estatística quando é inadequado utilizá-lo. Como resultado, encontramos realmente o que os autores alertaram: uma rejeição excessiva da hipótese nula.

Modelos de Regressão

Com o intuito de avaliar empiricamente o impacto da intervenção, os autores estimam por Mínimos Quadrados Ordinários (MQO) diversos modelos com a seguinte especificação:

\[Y_{ic} = \alpha + \beta_{1}T_{c} + X_{ic} \beta_{2} + Z_{c0} \beta_{3} + \mu + u_{ic} \hspace{0,3cm} (1)\]

A imagem será apresentada aqui.

Na equação \((1)\), a medida de resultado da variável dependente \( Y_{ic} \) pode se referir a: conhecimentos sobre nutrição infantil, medidas relacionadas a nutrição e saúde infantil e oferta de trabalho. Nesse contexto, como são muitas regressões estimadas, o foco, na próxima seção, será no tópico "conhecimentos sobre nutrição infantil".

2º Exercício: Resultados da Estimação das Regressões

A imagem será apresentada aqui.
Fonte: Elaboração própria com base em dados de Fitzsimons et al (2016)

A imagem será apresentada aqui.

A tabela acima reproduz parcialmente a Tabela 4 do artigo original. A diferença está no modelo 6, no qual o conhecimento avaliado é ligeiramente diferente da perguntam utilizada pelos autores, a qual estava indisponível na base de dados disponibilizada. Feita essa ressalva, as variáveis dependentes de cada modelo são dummies que indicam se a mãe no domicílio respondeu corretamente ou não a perguntas de acordo com os temas acima descritos. Uma outra diferença em relação a tabela original consiste no fato de não realizarmos uma oitava regressão na qual utiliza-se um índice agregador de todas essas dummies.

Nesse sentido, assim como no artigo original, estimamos as regressões acima com variáveis de controle, omitidas por questão de espaço, para escolaridade e proporção de pessoas da etnia Chewa avaliadas na média por cluster, bem como idade e dummies indicadoras do mês no qual ocorreu as entrevistas de cada Follow Up. Além disso, com exceção do modelo 6, os coeficientes estimados da variável de interesse (dummy do tratamento) e os respectivos erro padrão (robustos a heterocedasticidade e a correlação intracluster) são iguais aos obtidos no paper em análise

Por outro lado, a inferência estatística das regressões acima estimadas difere da realizada no artigo original. Neste utiliza-se o procedimento denominado wild cluster bootstrap t, enquanto aqui realizamos a inferência tradicional via estatística t e p valor associado a distribuição t de student. Tendo isso em mente, a interpretação é: nos modelos de 2 a 7, consistente com os achados do paper, os coeficientes estimados da variável de interesse não são estatisticamente significativos nem a 10%. Já no modelo 1, obtemos significância estatística a 5 %, enquanto os autores, em função da inferência estatística distinta, encontram essa significância só a 10%.

De toda forma, no caso do modelo (1), interpretamos isto: em média, nos domicílios contemplados pelo tratamento, 21,5% a mais das mães responderam corretamente a pergunta sobre amamentação quando a criança tem diarreia. Isso evidencia um impacto positivo do programa sobre o conhecimento em relação a nutrição infantil, o que reforça a intuição do modelo teórico segundo o qual a intervenção deveria melhorar o conhecimento dos pais acerca da função de produção da saúde infantil.

Código em R

Código para criar a função t.table, que será carregada no script principal. Essa função serve para fazer o teste de diferença de médias. Para utiliza-la, basta salvar o código abaixo num arquivo . R e carregá-la seguindo os passos do script principal

        t.table <- function(data, dvs, iv,
                            var_equal = TRUE,
                            p_adj = "none",
                            alpha = 0.05,
                            paired = FALSE,
                            wilcoxon = FALSE) {
          if (!inherits(data, "data.frame")) {
            stop("data must be a data.frame")
          }
          if (!all(c(dvs, iv) %in% names(data))) {
            stop("at least one column given
     in dvs and iv are not in the data")
          }
          if (!all(sapply(data[, dvs], is.numeric))) {
            stop("all dvs must be numeric")
          }
          if (length(unique(na.omit(data[[iv]]))) != 2) {
            stop("independent variable 
must only have two unique values")
          }
          out <- lapply(dvs, function(x) {
            if (paired == FALSE & wilcoxon == FALSE) {
              tres <- t.test(data[[x]] ~ data[[iv]],
 var.equal = var_equal)
            }
            else if (paired == FALSE & wilcoxon == TRUE) {
              tres <- wilcox.test(data[[x]] ~ data[[iv]])
            }
            else if (paired == TRUE & wilcoxon == FALSE) {
              tres <- t.test(data[[x]] ~ data[[iv]],
                             var.equal = var_equal,
                             paired = TRUE
              )
            }
            else {
              tres <- wilcox.test(data[[x]] ~ data[[iv]],
                                  paired = TRUE
              )
            }
            c(
             tres$estimate, 
difference=tres$estimate[[1]]-tres$estimate[[2]],
  p_value = tres$p.value
            )

          })
          out <- as.data.frame(do.call(rbind, out))
          out <- cbind(variable = dvs, out)
          names(out) <- gsub("[^0-9A-Za-z_]", "", names(out))
          out$p_value <- ifelse(out$p_value < 0.001,
                                "<0.001",
                                round(p.adjust(out$p_value, p_adj), 3)
          )
          out$conclusion <- ifelse(out$p_value < alpha,
                                   paste0("Reject H0 at ",
 alpha * 100, "%"),
                                   paste0("Do not reject H0 at ", 
alpha * 100, "%")
          )

          return(out)
        }

Abaixo encontra-se o script principal

# Instalando pacotes necessários

install.packages("stats")
install.packages("haven")
install.packages("base")
install.packages("stargazer")
install.packages("sandwich")
install.packages("lmtest")
install.packages("knitr")



        # Carregando bibliotecas necessárias:

        library(stats) #regression
        library(haven) #read.dta
        library(base) #round
        library(stargazer) # regression output tables
        library(sandwich) # vcovCl
        library(lmtest) #coeftest
        library(knitr) # output tables

        # Carregando função t.table

        source("C:/Users/vinic/Desktop/t.table.R") 

    ### Tabela 1 do Artigo

        # Abrindo a base com dados baseline (full sample)

        wd <- "C:/Users/vinic/Desktop" # working directory

        bmalawi <- read_dta(paste(wd,
        "/sample_balance_wave1.dta", sep=""))

        colnames(bmalawi)

        # Características da Amostra (estatíticas descritivas)

        summary(bmalawi) 

        # Teste de Balanceamento - Teste t (Full Sample)

        baseline <- c("married",  "pri", "sec", "wcba_w_age", 
        "chewa", "christian", "w_farmer","student", 
        "small_bus", "h_agri_wk","dirt_floor", "roof_nat",
         "piped", "trad_pit", "h_member", "h_sroom", 
        "h_electric", "h_radio","h_cycle","h_mbike", 
        "h_car", "h_lamp", "h_oxcart")

        balance <- t.table(data = bmalawi,
         baseline, "treatment_o")

        table_bt <- subset(balance, select = -conclusion)

        coltable <- c("meaningroup1",
         "meaningroup4", "difference")

        for (t in coltable)
        {
          table_bt[, t] = round(table_bt[, t], digits = 3) 
        }

        kable(table_bt, format = "latex",
              caption=" Teste de Balanceamento
         da Amostra Completa ")

        ### Regressões Tabela 4 do artigo

        # Abrindo base da Tabela 4

        bmalawi_know <- read_dta(paste(wd,
        "/main_respondent_knowledge.dta", sep=""))

        # Definindo e organizando variaveis

        y <- c("diarrhoea_breastfeeding", 
        "nutrition_infants_6mto3yrs",
              "solids_to_babies", "hiv_feed_baby",
              "nutritious_child",
              "cook_fish_phala","eggs_infant")

        bmalawi_know$t <-
        ifelse(bmalawi_know$treatment_o==1,
        1, 0)

        x <- c(" age + z_chewa + z_sec + z_pri +")

        #Especificando os 7 modelos

        for (i in 1:7) {

          assign(paste("mod", i, sep = ""),
            paste(paste(paste0(paste(y[i], " ~ t +"), x)),
                paste(paste0("month_", 1:10), collapse = "+")))
        }

        modelst4 <- c(mod1, mod2, mod3, mod4, 
        mod5, mod6, mod7)

        # Estimando os 7 modelos

        li <- list()

        li[["Run"]] <- list()

        for (i in 1:7) { 

          li[["Run"]][[i]] = lm(modelst4[i],
          data = bmalawi_know)

          li[["Run"]][[i]][[14]] = vcovCL(li[["Run"]][[i]],
          type="HC1", cluster=bmalawi_know$zone_o)
        }

        # Tabela com Resultados

        cof <- list()

        cof[["cofs"]] <- list()

        for (i in 1:7)
        {
          cof[["cofs"]][[i]] = coeftest(li[["Run"]][[i]],
         li[["Run"]][[i]][[14]])
        }

        stargazer(cof[["cofs"]], align = TRUE,
         type = "text")

Referências (principal e adicionais)

CAMERON, A. Colin; GELBACH, Jonah B.; MILLER, Douglas L. Bootstrap-based improvements for inference with clustered errors. The Review of Economics and Statistics, v. 90, n. 3, p. 414-427, 2008.

DUPAS, Pascaline. Do teenagers respond to HIV risk information? Evidence from a field experiment in Kenya. American Economic Journal: Applied Economics, v. 3, n. 1, p. 1-34, 2011.

FITZSIMONS, Emla et al. Nutrition, information and household behavior: Experimental evidence from Malawi. Journal of Development Economics, v. 122, p. 113-126, 2016.

KAMALI, Anatoli et al. Syndromic management of sexually-transmitted infections and behaviour change interventions on transmission of HIV-1 in rural Uganda: a community randomised trial. The Lancet, v. 361, n. 9358, p. 645-652, 2003.

...