Como pesquisadores uma fonte de informação rica e muito importante para a academia são as bases de dados do Instituto Brasileiro de Geografia e Estatística (IBGE).
A leitura das principais bases de dados nacionais pode ser realizada por meio do pacote microdadosBrasil.
O primeiro passo é a instalação do pacote no R, fazemos isso da seguinte forma:
1 2 3 4 5 6 | #Habilita o pacote devtools library (devtools) #Instala o pacote microdadosBrasil devtools:: install_github ( "lucasmation/microdadosBrasil" ) #Habilita o pacote microdadosBrasil library (microdadosBrasil) |
Nesse post, trataremos da Pesquisa Nacional por Amostra de Domicílios (PNAD) como exemplo, para baixar e ler a PNAD precisamos dos seguintes comandos:
1 2 3 4 5 6 | #Fazemos somente uma vez caso os dados não existam localmente download_sourceData ( "PNAD" , 2015, root_path = "C:\\Dados" ) #Lê os dados da PNAD pnad <- read_PNAD ( "pessoas" , 2015, root_path = "C:\\Dados" ) #Salva a PNAD lida save.image ( "C:\\Dados\\pnad.RData" ) |
1 2 | #Chama os dados da pnad salvos no RData load ( "C:\\Dados\\pnad.RData" ) |
1 2 3 4 5 6 7 8 9 10 | #Chama a biblioteca dplyr library (dplyr) #Exemplo Média do Rendimento pnad %>% group_by (UF) %>% filter (V9532<999999999)%>% summarise ( weighted.mean (V9532 , w = V4729, na.rm = TRUE ) ) -> agg.df |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | #Calcula a proporção pnad %>% group_by (UF, V0404) %>% summarise (n.cor = sum (V4729))%>% group_by (UF) %>% mutate (n = sum (n.cor)) %>% mutate (freq = n.cor/n) %>% mutate (freq2 = paste0 ( round (freq,6)*100, "%" )) -> cor.df #Define os labels dos factors cor.df[, "Cor" ] = factor (cor.df$V0404, levels= c (2,4,6,8,0,9), labels= c ( "Branca" , "Preta" , "Amarela" , "Parda" , "Indígena" , "Sem declaração" ), ordered= FALSE ) |
1 2 3 4 5 6 | #Exemplo Gini library (reldist) pnad %>% group_by (UF) %>% filter (V9532<999999999)%>% summarise (gini.idx= gini (V9532,V4729)) |