Dando continuidade ao nosso estudo sobre o Revolution R, vimos no post Revolution R - Parte 1, como trabalhar inicialmente com a IDE fornecida pelo grupo Revolution Analytics.
Nesse post veremos como manipular grandes bases de dados usando para isso o Revolution R. Para isso, considere o arquivo Pobreza.csv. É claro que essa base não é uma "base grande", mas vamos fazer os exercícios com ela, e, sem perda de generalidade, podemos posteriormente utilizar algum conjunto de dados com maior massa de informações.
O primeiro comando para manipulação de banco de dados no formato *.XDF será o comando rxDataStep. O primeiro passo é ler a base de dados Pobreza.csv:
1 2 | #Importa os dados no formato XDF pobreza.xdf <- rxImport (inData = "Pobreza.csv" ,outFile = "pobreza.xdf" , overwrite= TRUE ) |
1 2 3 4 5 6 7 8 9 10 11 12 | #Cria as bases Pobres.xdf e Ricos.xdf Pobres.xdf<- rxDataStep (inData = "pobreza.xdf" , outFile = "Pobres.xdf" , rowSelection = Var09>=0.4 & Var03>50) #Mostra as primeiras linhas head (Pobres.xdf) Ricos.xdf<- rxDataStep (inData = "pobreza.xdf" , outFile = "Ricos.xdf" , rowSelection = Var09<0.4 & Var03<=50) #Mostra as primeiras linhas head (Ricos.xdf) |
1 2 3 4 5 6 7 8 9 10 11 | #Mantêm somente as variáveis de interesse rxDataStep (inData = "pobreza.xdf" , outFile = "Pobres.xdf" , rowSelection = Var09>=0.4 & Var03>50, overwrite= TRUE ,varsToKeep= c ( "Var01" , "Var03" , "Var09" )) #Retira as variáveis que não são necessárias rxDataStep (inData = "pobreza.xdf" , outFile = "Ricos.xdf" , rowSelection = Var09<0.4 & Var03<=50, overwrite= TRUE ,varsToDrop= c ( "Var02" , "Var04" , "Var05" , "Var06" , "Var07" , "Var08" , "Var10" , "Var11" )) |
1 2 3 4 5 6 7 8 9 10 11 12 13 | #Cria a variavel Tipo para a base Pobres rxDataStep (inData = "Pobres.xdf" ,outFile = "Pobres.xdf" , transforms = list (Tipo = Var01 < 0),overwrite= TRUE ) #Mostra as primeiras observações head (Pobres.xdf) #Cria a variavel Tipo para a base Ricos rxDataStep (inData = "Ricos.xdf" ,outFile = "Ricos.xdf" , transforms = list (Tipo = Var01 > 0),overwrite= TRUE ) #Mostra as primeiras observações head (Ricos.xdf) |