Inicialmente vimos no post Text Mining com kernels string no R - Parte 1 como gerar Wordclouds as quais são úteis na análise descritiva de informação textual, entretanto, podemos fazer algo mais complexo do que simplesmente uma análise descritiva. Podemos reconhecer padrões associados aos textos.
Considere uma lista de 40 textos obtidos da reuters e armazenados no pacote kernlab:
1 2 3 4 5 6 7 8 9 10 11 | #Habilita o pacote kernlab library (kernalb) #Base de notícias da reuters data (reuters) #Armazena as palavras chave y <- rlabels #Armazena os textos x <- reuters |
1 2 3 4 5 6 7 8 | #Cria o Kernel String sk <- stringdot (type= "spectrum" , length=2, normalized= TRUE ) #Faz o Kernel Principal Component Analysis com base nos textos kpc <- kpca (x,kernel=sk,scale= c ()) #Plota o Kernel Principal Component Analysis plot ( rotated (kpc),col= ifelse (y== levels (y)[1],1,2)) |