Uma
rede neural artificial, muitas vezes chamada apenas de
rede neural, é um modelo matemático inspirado pelas redes neurais biológicas.
Uma rede neural consiste em um grupo de neurônios artificiais interligados e processa a informação através de uma abordagem conexionista à computação. Na maioria dos casos, uma rede neural é um sistema adaptável, que muda a sua estrutura durante uma fase de aprendizagem.
As redes neurais são usadas para modelar relações complexas entre entradas e saídas ou para encontrar padrões em dados.
Considere, por exemplo, a órbita dos planetas em torno do sol ou o calendário das mares.
A ideia central do
aprendizado de máquina é:
"Pode-se usar o computador para descobrir e descrever padrões baseados em dados ?"
De maneira formal, a hipótese básica do
aprendizado de máquina é a
Hipótese de Aprendizagem Indutiva:
Uma função adequada encontrada para modelar a função alvo para um conjunto suficientemente grande de dados também irá funcionar para modelar adequadamente exemplos não observados.
Isso quer dizer que se encontrarmos alguma "boa fórmula" para o movimento dos planetas em torno do sol, por exemplo, e que essa fórmula tenha sido construída com base em uma amostra suficientemente grande, espera-se que essa "boa fórmula" funcione bem
"out-of-sample".
Nesse
post mostrarei como usar o pacote
neuralnet com uma aplicação a finanças.
Pacote neuralnet.
O pacote
neuralnet foi construído de forma a ser possível trabalhar com Perceptron Multi-camadas (
multi-layer perceptrons) no contexto da análise de regressão, isto é, para aproximar as relações funcionais entre
variáveis independentes e variáveis resposta.
Assim, as redes neurais podem ser utilizadas como extensões do
modelo linear generalizado.
Uma das vantagens do pacote
neuralnet é a possibilidade de poder se trabalhar com um número arbitrário de covariáveis e também de variáveis de resposta, assim como o número de camadas ocultas.
Redes neurais.
Em muitas situações, a relação funcional entre as covariáveis (também conhecidas como variáveis de entrada ou variáveis independentes) e as variáveis de resposta (também conhecidas como variáveis de saída ou variáveis dependentes) é de grande interesse.
As
redes neurais artificiais podem ser aplicadas como aproximação a qualquer relação funcional complexa.
Ao contrário dos
modelos lineares generalizados (
McCullagh e Nelder, 1989), não é necessário que o tipo de relação entre variáveis dependentes e variáveis resposta seja, por exemplo, uma combinação linear.
Isso faz das
redes neurais artificiais uma valiosa ferramenta quantitativa. Esses modelos são, particularmente, extensões diretas dos
modelos lineares generalizados e podem ser aplicados de maneira semelhante.
Dados observados são usados para treinar a rede neural, fazendo assim com que a rede neural "aprenda" uma aproximação da relação entre as variáveis independentes e dependentes de forma iterativa por meio da adaptação contínua dos seus parâmetros. De fato, usando a nomenclatura estatística, os
parâmetros do modelo são
estimados por meio da
amostra.
Perceptron Multi-Camadas.
O pacote
neuralnet se concentra nos modelos
Perceptron Multi-Camadas (Multi-Layer Perceptrons (MLP))(
Bishop, 1995), os quais são úteis na modelagem por meio de relações funcionais entre as variáveis.
A estrutura subjacente de um MLP é um grafo orientado, isto é, consiste de vértices (
neurônios) e arestas (
sinapses).
Os neurônios são organizados em
camadas, que são normalmente ligadas por sinapses. No pacote
neuralnet, uma sinapse só pode se conectar a camadas posteriores.
A camada de entrada é constituída por todas as covariáveis (um neurônio para cada covariável) separadas por neurônios (camadas ocultas) até as variáveis resposta.
Essas camadas intermédias são denominadas camadas ocultas (ou variáveis latentes), por não serem diretamente observáveis.
As
camadas de entrada e as
camadas ocultas incluem um
neurônio constante, o qual estará associado ao intercepto em modelos lineares, ou seja, não é diretamente influenciado por qualquer covariável.
A figura anterior retirada de
Günther e Fritsch (2010) representa um exemplo de uma rede neural com dois neurônios de entrada (A e B) e um neurônio de saída (Y), além de uma camada oculta composta de três neurônios.
Um peso (
parâmetro) está associado a cada uma das sinapses, representando o efeito correspondente do neurônio e de todos os dados passam pela rede neural como sinais.
Os sinais são processados inicialmente pela
função de integração combinando todos os sinais de entrada e, em seguida, pela
função de ativação transformando os resultados do neurônio.
O modelo
perceptron multicamada mais simples consiste de uma única camada de entrada com $n$ covariáveis e uma camada de saída com um único neurônio de saída. Esse modelo calcula a seguinte função:
onde $w_{0}$ denota o intercepto, $\mathbf{w} = (w_{1},\dots, w_{n})$ o vetor de todos os demais pesos (parâmetros), e $\mathbf{x} = (x_{1},\dots, x_{n})$ o vetor de todas as covariáveis.
A função é matematicamente equivalente à estrutura padrão do
modelo linear generalizado com função de ligação $f^{-1}(.)$. Portanto, todos os pesos calculados são, neste caso, equivalentes aos parâmetros da regressão via
MLG.
Para aumentar a flexibilidade da modelagem mais camadas ocultas podem ser incluídas, aumentando assim a "não-linearidade" do modelo. No entanto,
Hornik et al. (1989) mostraram que uma única camada oculta é suficiente para modelar qualquer função contínua por partes.
O modelo
perceptron multicamada com uma camada oculta consistindo de $J$ neurônios calcula a seguinte função:
onde $w_{0}$ denota o intercepto do neurônio de saída e $w_{0j}$ representa o intercepto do $j$-ésimo neurônio oculto. Além disso, $w_{j}$ denota o peso sináptico correspondente à sinapse começando no $j$-ésimo neurônio oculto e que conduz ao neurônio de saída. $\mathbf{w_{j}} = (w_{1j},\dots, w_{nj})$ o vetor de todos os pesos sinápticos correspondentes às sinapses que conduzem ao $j$-ésimo neurônio oculto, e $\mathbf{x} = (x_{1},\dots, x_{n})$ é o vetor de todas as covariáveis.
Apesar das
redes neurais serem extensões diretas dos
MLG, os parâmetros não podem ser interpretados da mesma maneira.
De maneira formal, todos os
neurônios ocultos e os
neurônios de saída calculam a seguinte função: $f(g(z_{0},z_{1},\dots, z_{k})) = f(g(\mathbf{z}))$ a partir das saídas de todos os neurônios precedentes $z_{0}, z_{1},\dots, z_{k}$, onde $g:\mathbb{R}^{k+1}\rightarrow \mathbb{R}$ representa a
função de integração e $f:\mathbb{R}\rightarrow \mathbb{R}$ é a
função de ativação. O neurônio unitário $z_{0}$ é uma constante o qual está relacionado com o conceito de intercepto em modelos de regressão.
A
função de integração é, muitas vezes, definida como $g(\mathbf{z})= w_{0}z_{0} + \sum_{i=1}^{n}w_{i}z_{i}= w0 + \mathbf{w}^{'}\mathbf{z}$. A
função de ativação $f$ é geralmente uma função não-linear, não-decrescente, limitada e também diferenciável tal como o
função logística $f(u) = 1/(1+\exp^{-u})$ ou a
tangente hiperbólica.
Essa função deve ser escolhida em relação à variável de resposta, assim como nos
modelos lineares generalizados. A função logística é, por exemplo, apropriada para variáveis resposta binárias, uma vez que mapeia a saída de cada neurônio para o intervalo $[0,1]$. O pacote
neuralnet usa a mesma
função de integração, bem como
função de ativação para todos os neurônios.
Aprendizado supervisionado.
As redes neurais são estimadas por meio de um processo de treinamento da rede que usa os dados para "aprender". Especificamente, o pacote
neuralnet concentra-se em algoritmos de
aprendizado supervisionado.
Estes algoritmos de aprendizagem são caracterizados pela utilização de saídas (
outputs, resultados ou ainda variáveis dependentes), as quais são comparadas com o valor predito pela rede neural, adaptando dinamicamente os valores dos parâmetros de modo que o "erro" seja minimizado.
Os parâmetros de uma rede neural são os seus pesos. Todos os pesos são geralmente iniciados com valores aleatórios provenientes de uma distribuição normal padrão. Durante um processo iterativo de formação da rede, as seguintes etapas são repetidas:
- A rede neural calcula uma saída de $o(\mathbf{x})$ para as entradas dadas $\mathbf{x}$ e para os parâmetros correntes (pesos atuais). Se o processo de formação ainda não estiver concluído, os resultados previstos serão diferentes da saída $\mathbf{y}$ observada.
- Uma função de erro, como a Soma dos Quadrados dos Erros (SSE - Sum of Squared Errors):ou a entropia cruzada:
mede a diferença entre a saída prevista e o resultado observado, tal que $l=1,\dots,L$ representam os índices para as observações, ou seja, é o par ordenado com os dados de entrada e saída, e $H=1,\dots,H$ representam os nós de saída.
- Todos os pesos são adaptados segundo alguma regra de aprendizagem definida a priori.
O processo termina se um critério pré-determinado é atingido, por exemplo, se todas as derivadas parciais da função de erro com respeito aos pesos $(\partial E/\partial \mathbf{w})$ são menores do que um dado limiar. Um algoritmo de aprendizagem amplamente utilizado é o algoritmo
resilient backpropagation.
Resilient backpropagation.
O algoritmo
resilient backpropagation é baseado no algoritmo de
retropropagação tradicional, o qual modifica os pesos de uma rede neural, a fim de encontrar um mínimo local para a função de erro estipulada.
Em outras palavras, o gradiente da função de erro $(\partial E /\partial\mathbf{w})$ é calculado em relação aos pesos, a fim de encontrar uma raiz. Particularmente, os pesos são modificadas para irem na direção oposta das derivadas parciais até que um mínimo local seja atingido.
Esta ideia básica é aproximadamente ilustrada na figura abaixo retirada do texto de
Günther e Fritsch (2010), para uma função de erro univariada:
Caso a derivada parcial seja negativa, o peso é aumentado (lado esquerdo da figura) e se a derivada parcial for positiva, o peso é reduzido (parte da direita da figura). Isto garante que um mínimo local para a função de erro seja atingido.
Todas as derivadas parciais são calculadas usando a regra da cadeia, desde que a função do cálculo de uma rede neural seja basicamente uma composição de
funções de integração e ativação. Uma explicação detalhada é dada em
Rojas (1996).
O pacote
neuralnet possibilita a escolha do método entre o clássico
backpropagation e o
resilient backpropagation, com retrocesso do peso (
Riedmiller, 1994) ou sem retrocesso de peso (
Riedmiller e Braun, 1993) e também a versão modificada globalmente proposta por
Anastasiadis et al. (2005).
Aplicação em finanças.
A aplicação de redes neurais em finanças não é nova.
Wonga e Selvib (1998) apresentam uma ampla revisão da utilização de redes neurais em finanças entre os anos 1990 a 1996. Os autores investigaram a tendência de aplicações produzidas no período 1990-1996.
Wonga e Selvib (1998) analisaram a literatura de acordo com os seguintes critérios: (1) ano de publicação, (2) área de aplicação, (3) domínio do problema, (4) fase do processo de decisão, (5) nível de gestão (6), nível de interdependência de tarefas, (7) meios de desenvolvimento, (8) de interação corporativa / acadêmica, (9) Tecnologia / técnica estatística, e (10) estudo comparativo.
Yoon e Swales (1991) apresentam uma discussão sobre a previsibilidade dos preços de ações por meio de redes neurais. Segundo os autores, a previsão do desempenho do preço de ações é um problema difícil e complexo. Técnicas multivariadas quantitativas e qualitativas têm sido repetidamente usadas para auxiliar na formação da expectativas dos investidores quanto aos preços de ações.
Yoon e Swales (1991) analisaram a capacidade das redes neurais e seu poder de previsão em contraste com o método de análise discriminante.
Nesse
post farei uma breve aplicação do método de redes neurais com o intuito de avaliar o poder de previsibilidade das ações por meio dessa ferramenta.
Inicialmente, vamos obter a série temporal (01/01/2001 a 31/12/2012) para o ativo PETR4.SA por meio do pacote
quantmod:
#Limpa o Workspace
rm(list=ls())
#Habilita o pacote quantmod
library(quantmod)
#Início do período de interesse
inicio = as.Date("2001-01-01")
#Fim do período de interesse
fim = as.Date("2012-12-31")
#Obtêm os dados da PETR4
getSymbols("PETR4.SA", src="yahoo",from=inicio,to=fim)
Nesse caso, queremos tentar construir um preditor na forma de um
Modelo Autoregressivo de ordem 5, isto é:
$y_{t}=\phi_{0}+\phi_{1}y_{t-1}+\phi_{2}y_{t-2}+\phi_{3}y_{t-3}+\phi_{4}y_{t-4}+\phi_{5}y_{t-5}$
Nesse caso, o valor da ação no tempo $t$ seria predita pelos $5$ valores (diários) que a antecedem:
#Dados para o neuralnet
t0<-as.numeric(Cl(PETR4.SA)) #Cinco dias antes
t0<-t0[-((length(t0)-4):length(t0))]
t1<-as.numeric(Cl(PETR4.SA)) [-1] #Quatro dias antes
t1<-t1[-((length(t1)-3):length(t1))]
t2<-as.numeric(Cl(PETR4.SA)) [-c(1,2)] #Três dias antes
t2<-t2[-((length(t2)-2):length(t2))]
t3<-as.numeric(Cl(PETR4.SA)) [-(1:3)] #Dois dias antes
t3<-t3[-((length(t3)-1):length(t3))]
t4<-as.numeric(Cl(PETR4.SA)) [-(1:4)] #Um dia antes
t4<-t4[-length(t0)]
t5<-as.numeric(Cl(PETR4.SA)) [-(1:5)] #Variável dependente
Em seguida vamos dividir a série temporal em duas partes:
- Período de estimação (01/01/2001 até 31/12/2006).
- Período de validação (01/01/2007 até 31/12/2012).
#Cria a base
dados<-cbind(t1,t2,t3,t4,t5)
#Dados para estimação:
dados.Treina<-dados[1:1457,]
#Dados para validação
dados.Valida<-dados[1458:2917,]
Usando os dados para estimação e trabalhando com um modelo de
redes neurais com 1 camada com 7 neurônios e admitindo o número máximo de iterações igual a 10000 e valor de corte (
threshold) igual 1, a programação para estimar os parâmetros da rede é:
set.seed(12345)
library("neuralnet")
maxit<-as.integer(1000000)
nn <- neuralnet(dados.Treina[,5]~dados.Treina[,4]+
+dados.Treina[,3]+dados.Treina[,2]+dados.Treina[,1],
+data=dados.Treina, hidden=7,threshold =1,stepmax= maxit)
onde o comando fixa a semente para a geração de números aleatórios com o intuito de permitir a reprodução dos resultados obtidos.
CUIDADO!!A programação acima pode demorar para ser concluída, por isso, use com parcimônia os valores do número máximo de iterações e parâmetro threshold.
Uma vez obtidos os valores para os parâmetros do modelo de
redes neurais podemos analisar os resultados usando os comandos:
#Apresenta os valores para os pesos
nn$result.matrix
#Faz o gráfico do modelo
plot(nn)
O próximo passo é realizar a previsão para os dados de validação:
#Faz a previsão
previsao<-compute(nn,dados.Valida[,1:4])
#Valores da previsao
previsao.nn<-previsao$net.result
Outra hipótese bastante comum para as séries temporais financeiras é a
Hipótese do Passeio Aleatório a qual pode ser representada matematicamente como:
$y_{t}=\mu+y_{y-1}+\epsilon_{t}$
Assumindo que $\epsilon_{t}\sim N(0,\sigma^{2})$ podemos utilizar os dados de treinamento para estimar os parâmetros desse modelo:
#Gera as estimativas para o Random Walk
epsilon<-(dados.Treina[,5]-dados.Treina[,4])
mu<-mean(epsilon)
sigma2<-var(epsilon)
#Faz a previsao usando o Random Walk
previsao.rw<-dados.Valida[,4]+rnorm(nrow(dados.Valida),
+mu,sqrt(sigma2))
O gráfico comparativo entre a previsão via
redes neurais e
Passeio Aleatório contra os valores observados é elaborado usando o seguinte código:
#Monta a base com as previsões
Tempo<-seq(1458,2917)
previsao.todos<-as.data.frame(cbind(
+Tempo,dados.Valida[,5],previsao.nn,previsao.rw))
colnames(previsao.todos)<-c("Tempo","Obsevado",
+"Predito.NN", "Predito.RW")
#Faz o gráfico
#Faz o gráfico
library("ggplot2")
ggplot(previsao.todos, aes(Tempo)) +
geom_line(aes(y = Obsevado, colour = "Obsevado")) +
geom_line(aes(y = Predito.NN, colour = "Predito NN"))+
geom_line(aes(y = Predito.RW, colour = "Predito RW"))+
ggtitle("Séries Temporais")
É interessante notar que o modelo de
Passeio Aleatório se ajustou melhor aos valores observados do que o modelo de
redes neurais, especialmente quando a
volatilidade apresentada era grande.
Comparando a distribuição dos erros entre os dois métodos temos:
#Encontra os erros
erro.rw<-previsao.todos[,2]-previsao.todos[,4]
erro.nn<-previsao.todos[,2]-previsao.todos[,3]
#Une os dados
library("reshape")
df.m <- melt(cbind(erro.rw,erro.nn))
#Calcula as funções densidade via Kernel.
ggplot(df.m) + geom_density(aes(x = value,colour = X2))
+ labs(x = "Valores",y="Densidade") +
ggtitle("Densidade por meio do estimador Kernel.")
O gráfico de densidades demonstra que o modelo
Passeio Aleatório apresenta menos variabilidade na previsão do que o modelo de redes neurais. Uma proposta seria incorporar ao modelo de
redes neurais alguma covariável associada a
volatilidade e comparar novamente os resultados ou ainda, adicionar mais camadas ocultas no modelo com o intuito de aumentar a não-linearidade.