Inicialmente vimos no post Text Mining com kernels string no R - Parte 1 como gerar Wordclouds as quais são úteis na análise descritiva de informação textual, entretanto, podemos fazer algo mais complexo do que simplesmente uma análise descritiva. Podemos reconhecer padrões associados aos textos.
Considere uma lista de 40 textos obtidos da reuters e armazenados no pacote kernlab:
#Habilita o pacote kernlab library(kernalb) #Base de notícias da reuters data(reuters) #Armazena as palavras chave y <- rlabels #Armazena os textos x <- reutersEm seguida podemos fazer um Kernel Principal Component Analysis para estudar o padrão das palavras chave:
#Cria o Kernel String sk <- stringdot(type="spectrum", length=2, normalized=TRUE) #Faz o Kernel Principal Component Analysis com base nos textos kpc <- kpca(x,kernel=sk,scale=c()) #Plota o Kernel Principal Component Analysis plot(rotated(kpc),col=ifelse(y==levels(y)[1],1,2))Obtendo assim: O Kernel Principal Component Analysis é uma boa ferramenta para estudar os "tipos" de textos existentes, por exemplo, podemos encontrar textos mais "otimistas", "pessimistas" e atribuir a esses textos um valor quantitativo que pode ser utilizado nos campos de marketing e finanças.
Olá Pedro, parabéns pelo blog !!
ResponderExcluirNão consegui entender muito bem como interpretar o KPCA. Como sabemos quais textos foram agrupados em cada cluster ?
Abraços !!
Luiz
Oi Luiz,
ExcluirNão sou especialista nesse pacote, mas creio que no objeto kpc deve ter algum outro objeto referenciando os textos.
Grande abraço.
Pedro