Pedro Albuquerque

quinta-feira, 5 de julho de 2012

Resolvendo Sudoku por meio de programação linear.

Sudoku é um problema de lógica baseado na alocação de números em quebra-cabeça na forma de matriz.
O objetivo é preencher uma matriz $9 \times 9$ com números de 1 a 9 de modo que cada coluna, cada linha, e cada uma das nove $3\times3$ sub-matrizes que compõem a matriz maior contenha todos os dígitos de 1 a 9.

A resolução desse problema por meio de programação linear binária foi proposto por Bartlett, Chartier, Langville e Rankin (2008)

Considere um problema Sudoku de dimensão $4\times 4$, nesse caso temos para cada sub-matriz 2 linhas e 2 colunas representadas por $m=2$. O grau do problema é dado por a $n=m^2$, aqui temos então $n=4$. Visualmente, temos:

Nesse problema temos que preencher os quadrados faltantes com números de 1 a 4, de modo que em nenhuma linha ou coluna da matriz superior contenha números repetidos, além do mais, cada sub-matriz também não deve possuir números repetidos.

Claramente essas condições formam as restrições do nosso problema de programação linear binária, podemos sintetizá-las da seguinte forma:

Cada coluna contém somente uma entrada $k$ onde $1\le k\le n$.
Cada linha contém somente uma entrada $k$ onde $1\le k\le n$.
Todos os espaços vazios devem ser completados.
Algumas entradas do quebra-cabeça são conhecidas desde o início. Isto pode ser indicado como uma sequência de valores $x_{ijk}=1$, onde $1\le i,j,k \le n$.
Cada sub-matriz deve conter exatamente um dos $n$ possíveis dígitos.

Matematicamente podemos representar o problema da seguinte forma:

$ \begin{array}{rl} \mathbf{Minimize}\mbox{ } Z= & 0x_{111}+0x_{112}+\dots+0x_{nnn} \\ \mathbf{Sujeito}\mbox{ } \mathbf{a: } &\\ \displaystyle\sum_{i=1}^{n}x_{ijk}=&1 \mbox{ para } j=1,\dots,n \mbox{ e } k=1,\dots,n. \\\mbox{ (Apenas um k em cada coluna.) }\\\displaystyle\sum_{j=1}^{n}x_{ijk}=&1, \mbox{ para } i=1,\dots,n\mbox{ e } k=1,\dots,n \\\mbox{ (Apenas um k em cada linha.) } \\ \displaystyle\sum_{j=mq-m+1}^{mq}\displaystyle\sum_{i=mq-m+1}^{mq}x_{ijk}=&1, \mbox{ para } k=1,\dots,n\mbox{ , } p=1,\dots,m \mbox{ e } q=1,\dots,m \\\mbox{ (Somente um k em cada sub-matriz.) }\\ x_{ijk}=&1 \\\mbox{ para todo elemento (i,j,k) já preenchido na tabela.} \\ \displaystyle\sum_{k=1}^{n}x_{ijk}=&1, \mbox{ para } i=1,\dots,n \mbox{ e } j=1,\dots,n \\\mbox{ (Todas as posições da matriz devem ser preenchidas.)}\\x_{ijk} & \mbox{é binário para } 1\le i,j,k \le n\end{array}$

onde $x_{ijk}$ representa o elemento $(i,j)$ da matriz superior assumindo o valor igual a $k$. Para resolver podemos usar o pacote lpSolve.

quinta-feira, 28 de junho de 2012

SVR e o seu poder de previsão.

Support Vector Regression (SVR) tem apresentado bons resultados na previsão de terremotos, manchas solares e outros tipos de fenômenos físicos que são considerados "imprevisíveis".

A análise de regressão é uma abordagem para modelar a relação entre um conjunto de variáveis $Y$ (variáveis dependentes) e variáveis explicativas $X$ (chamadas regressores ou ainda variáveis independentes).

Um modelo que tem ganhando atenção ultimamente é o modelo de regressão por meio do SVM (Support Vector Machine) e é denominado Support Vector Regression (SVR).

A ideia básica do SVR é mapear um conjunto de dados $X$ em um espaço multidimensional através de um mapeamento não-linear (usualmente utilizando kernels) e então realizar uma regressão linear neste espaço multidimensional transformado .

O SVR é extremamente robusto mesmo em espaços com muitas dimensões, isso é devido a optimização não depender da dimensão do espaço de input. O SVR depende apenas de um subconjunto dos dados de treinamento, porque a função custo para a construção do modelo ignora os dados de treinamento perto da previsão do modelo.

SVR sobre o modelo de regressão linear usual tem a vantagem de utilizar uma grande variedade de funções que se adequa a aos diferentes modelos, fornecendo assim um bom ajuste aos diversos tipos de ruídos que os dados possam apresentar.

Os modelos de regressão SVR são amplamente utilizados para inferir sobre um fenômeno através de diversas variáveis. Previsão financeira, previsão de demanda, química, são apenas exemplos de áreas onde essas técnicas são aplicadas.

Portanto, em finanças essa é uma área que pode ser ainda muito explorada.

sábado, 23 de junho de 2012

A análise de Redes Sociais com escopo gerencial tem se tornado frequente para grandes organizações. Empresas como Google e Yahoo utilizam dessa ferramenta para selecionar funcionários, recomendar produtos e muito mais.

Existe um amplo espaço de pesquisa sobre esse tema em Administração. A análise quantitativa de redes sociais pode auxiliar o gestor nas seguintes situações:

Recomendação de produtos.
Social Customer Relationship Management.
Marketing social.
Advertising Influence.
Loyalty programs Influence.
Monitoramento da qualidade de produtos.
Satisfação de clientes.

Alguns softwares estão disponíveis no mercado para auxiliar na análise de Redes Sociais, são eles:

O R é uma excelente ferramenta pois permite diversas análises estatísticas e diversos modelos além de ser GRATUITO!

Maiores detalhes de como utilizar Redes Sociais no contexto gerencial você obtêm nesse texto:

Bonchi, F., Castillo, C., Gionis, A., and Jaimes, A. 2011. Social network analysis and mining for business applications. ACM Trans. Intell. Syst. Technol. 2, 3, Article 22 (April 2011).

sexta-feira, 8 de junho de 2012

Bolhas no mercado financeiro.

O estudo de bolhas em mercados tem sido alvo de grande interesse por parte dos pesquisadores de finanças, particularmente aqueles que desejam "prever" possíveis crises.

No mundo físico é fácil visualizar o que é uma bolha. Podemos citar vários exemplos: um gás se expandindo em um recipiente, bolhas de chicletes, bolhas de sabonetes, etc.. Em todos esses casos o gás ou fluido no qual a bolha está imersa cria uma pressão ou tensão que contêm a bolha, além do mais, a bolha, a medida que cresce, se torna mais instável.

No mercado financeiro no qual os participantes observam e são observados é difícil visualizar o equivalente físico dessa contenção da bolha.

O aumento dos preços e volume de negociação pressionam o que? Qual é o contêiner que nos permite associar as bolhas financeiras ao seu análogo no mundo físico ?

Para os preços das ações podemos imaginar que esse recipiente ou contêiner é a taxa de juros real livre de risco.

Para o ponto em que o prêmio de risco é zero e assumindo que a lei do preço único está operante, podemos afirmar por meio da arbitragem, que os preços das ações não podem aumentar por mais do que um tempo relativamente curto.

Ainda assim, há dois problemas que tornam difícil a utilização desta noção de bolhas como uma metáfora das bolhas físicas, quais sejam: primeiramente as taxas de juro livre de risco mudam com o tempo e são de certa forma função da psicologia da tomada de decisão e o comportamento do investidor. Em segundo lugar, em tempos de entusiasmo extremo, no auge de uma bolha, a "parede do recipiente" algumas vezes pode ser temporariamente rompida pelas médias de mercados compostos e/ou por meio de portfólios de ações individuais que ultrapassam os limites financeiros historicamente estabelecidos.

Assim, o estudo de bolhas é complexo e com muitas possíveis abordagens. Uma boa referência para quem quiser ler mais sobre o assunto é o livro Financial Market Bubbles and Crashes escrito por Harold L. Vogel.

quarta-feira, 6 de junho de 2012

Modelos de churn em marketing.

Modelos de "churn" também denominados modelos de atrito de clientes, rotatividade de clientes, ou ainda deserção de clientes, é um termo comercial usado para descrever a perda de clientes.

Bancos, empresas de serviços de telefonia, provedores de serviços de Internet, empresas de TV paga, e empresas de seguros, por exemplo, muitas vezes usam os modelos de "churn" e as taxas de desgaste de clientes como uma de suas principais métricas empresariais (junto com o fluxo de caixa, EBITDA, etc..), isso é devido porque o custo de manter um cliente existente é muito menor do que adquirir um novo.

As empresas destes setores, muitas vezes têm filiais de atendimento ao cliente que tentam reconquistar clientes desertores, porque a recuperação de clientes a longo prazo pode ser mais valioso a uma organização do que obter novos clientes.

As empresas costumam fazer uma distinção entre o desertor voluntário e o desertor involuntário. A deserção voluntária ocorre devido a uma decisão do cliente de mudar para outro fornecedor de empresa ou serviço, já a deserção involuntária ocorre devido a circunstâncias como relocação de um cliente para uma nova instalação, a morte do cliente, ou a mudança para um local distante.

Na maioria das aplicações, as taxas de rotatividade involuntárias são excluídas dos modelos analíticos. Os analistas tendem a concentrar-se nas deserções voluntárias, porque normalmente ocorrem devido a fatores associados a relação empresa-cliente, como por exemplo os cuidados dispendidos ao cliente no pós-venda.

Para maiores detalhes consulte:

Buckinx Wouter, Dirk Van den Poel (2005), "Customer Base Analysis: Partial Defection of Behaviorally-Loyal Clients in a Non-Contractual FMCG Retail Setting", European Journal of Operational Research, 164 (1), 252-268.

segunda-feira, 28 de maio de 2012

Cálculo do tamanho de amostras: proporções.

Se eu ganhasse um real para cada vez que alguém me perguntasse qual deve ser o tamanho amostral hoje eu estaria rico!!!

Isso se deve principalmente a uma falta de conhecimento de como os delineamentos amostrais são construídos.

No caso de planos amostrais vale a máxima:

"É melhor qualidade do que quantidade."

Ou seja, o tamanho amostral é importante mas não é mais importante do que a qualidade desse plano amostral. E a qualidade é medida pela variabilidade dos estimadores construídos, quanto menor a variabilidade maior a eficiência do plano amostral.

Essa variabilidade é alterada pelo tipo de delineamento amostral. Exemplos de desenhos amostrais são: amostragem aleatória simples, amostragem sistemática, amostragem por conglomerados, amostragem de Poisson, etc.

Entretanto, apesar da estimação da variância em planos amostrais e a construção de delineamentos sofisticados serem fundamentais, esses não serão escopo desse post.

Falarei aqui sobre como calcular o tamanho amostral para estimadores de proporção em amostras aleatórias simples.

Para outros tipos de estimadores, como: parâmetros de regressão, variância e correlações ou ainda estimadores em planos amostrais diferentes da amostra aleatória simples, outros textos são necessários (veja por exemplo: Cochran (1977); Schaeffer, et. al (2011), Särndal, et.al (2003)).

Cálculo do tamanho amostral para estimadores de proporção.

Para o cálculo do tamanho amostral necessário para estimar proporções alguns ingredientes são importantes:

Tamanho da população: é o tamanho da população alvo. Representado usualmente por $N$
Erro permissível: é o erro admitido para o estimador de proporção. Por exemplo, quando você assisti o Jornal Nacional e o William Bonner diz que o percentual de pessoas que aprovam o governo Dilma é de 68.4% com uma margem de erro de dois pontos percentuais para mais ou para menos (±2%), essa margem é o erro permissível. O tamanho amostral para a estimação de proporções leva em consideração o quanto você "aceita errar" na estimativa do parâmetro populacional. Para proporções esse erro deve estar entre 0 e 1 (varia entre 0% a 100%).
Confiabilidade: como amostragem é um processo probabilístico, existe uma probabilidade desse erro permissível (ou seja o erro máximo aceitável) não ser satisfeito. Definimos como nível de confiança (confiabilidade) a probabilidade do erro máximo permissível ser satisfeito. Usualmente, trabalha-se com probabilidades como 90%, 95%, 99% ou ainda 99.9% dependendo do tipo de estudo. O nível de confiança (representado por $1-\alpha$ onde $\alpha$ é o nível crítico.) varia entre 0 e 1 (varia entre 0% a 100%)
Proporção:o último ingrediente para o cálculo do tamanho amostral necessário é o valor da proporção representado por $\hat{p}$, esse valor varia entre 0 e 1 (varia entre 0% a 100%). Você deve ter pensado: "Mas pera aí... Como eu vou fornecer o valor da proporção para o cálculo do tamanho amostral se é JUSTAMENTE ISSO QUE EU QUERO ENCONTRAR ???". Você está certo em se indignar... Esse é o componente mais complicado de ser encontrado. Há no entanto algumas sugestões:
- Utilize $\hat{p}=0.5$. Nesse caso, o "pior dos casos" é construído e o tamanho amostral máximo é obtido. (Cochran (1977) página 72.)
- Encontre o valor de $\hat{p}$ utilizando outro estudo. Por exemplo, procure alguma estatística ou algum artigo que indique "mais ou menos" qual deve ser o valor da proporção. Suponha que o objetivo seja calcular a proporção de computadores quebrados na UnB, podemos usar algum texto ou artigo que estime a proporção de computadores em outra instituição de pesquisa e então essa proporção é utilizada como proxy.
- Faça uma amostra piloto utilizando um tamanho amostral arbitrário. Com base nessa amostra piloto calcule o valor da proporção e então estime o tamanho amostral necessário. Por exemplo, suponha que o objetivo seja, novamente, calcular a proporção de computadores quebrados na UnB. Podemos amostrar dez computadores e calcular o valor da proporção. Então utilizamos esse valor para estimar o tamanho da amostra. Suponha que encontremos o valor de 234 para o tamanho amostral. Isso significa que temos que amostrar 234 computadores... Mas, como dez computadores já foram amostrados, o tamanho da amostra deverá ser 224=234-10.

Com base nessa breve explicação, considere o seguinte exemplo: o total de alunos matriculados na UnB em 2011 foi de 30757 alunos. Suponha que desejamos fazer uma pesquisa sobre a proporção de alunos que aprovam o uso de cotas no vestibular, nesse caso temos que definir algumas informações.

Podemos definir o erro permissível como 0.05, ou seja, adimite-se que a proporção de alunos que aprovam o uso de cotas no vestibular pode variar 5 pontos percentuais para mais ou para menos, o nível de confiança mais utilizado é de 95% isso significa que se o processo amostral for repetido muitas vezes espera-se que a margem de erro ±5% seja satisfeita em 95% das vezes. Por fim, como não conhecemos a priori nenhuma informação sobre o percentual de alunos que aprovam o uso de cotas, podemos fazer $\hat{p}=0.5$ como abordagem conservadora.

Abaixo segue o programa para o cálculo do tamanho amostral:

Note que ao executar o programa o tamanho da amostra estimado foi de 380. Esse valor poderia ser reduzido se fizéssemos uma amostra piloto ou se tivéssemos uma estimativa menos rígida para a proporção de alunos que aprovam o uso de cotas.

Maiores detalhes sobre esse processo, incluindo a fórmula para o cálculo do tamanho amostral você encontra em (Cochran (1977) página 75.)

quinta-feira, 24 de maio de 2012

Rcmdr - Estatística Básica com R Commander.

Frequentemente alguns alunos reclamam que o software R é complicado de se trabalhar devido à necessidade de algum conhecimento ainda que básico de programação.

Entretanto, existe um pacote chamado Rcmdr que auxilia na análise estatística por meio de uma plataforma orientada a objetos. O primeiro passo é instalar o software R nesse link.:

Em seguida, após executá-lo a seguinte tela surge:

O R é um software que funciona associado a bibliotecas (libraries), dessa forma, o próximo passo para a utilização do R Commander é a instalação da biblioteca Rcmdr:

Uma lista de CRANs (Comprehensive R Archive Network) aparece, você pode escolher qualquer repositório. Esses repositórios armazenam os pacotes disponíveis para o R em vários locais do mundo. Após a escolha do repositório, é necessário escolher o pacote Rcmdr:

Em seguida, basta clicar no botão OK que a instalação do pacote será realizada automaticamente. Para executar a biblioteca Rcmdr é necessário digitar o seguinte comando na tela do R Console:

#Comando para executar o R Commander:
library("Rcmdr")

e então pressionar a tecla Enter.

Caso todos os passos anteriores tenham sido executados corretamente a seguinte tela surgirá:

Essa é a tela principal do R Commander e por meio dessa tela diversas análises estatísticas básicas podem ser realizadas, a inserção de dados, edição e geração de estatísticas exploratórias podem ser executadas diretamente por meio do "point and click".

Existem outras bibliotecas plug-in(s) para o R Commander que auxiliam na análise estatística de métodos mais avançados, alguns dos plug-in(s) disponíveis para o R Commander são os seguintes:

Esses plug-in(s) podem ser instalados utilizando a sequência de comandos Pacotes → Instalar pacote(s) na janela do RGui como apresentado anteriormente. Após a instalação, esses plug-in(s) podem ser carregados utilizando a seguinte sequência de comandos na tela do R Commander Ferramentas → Carregar plug-in(s) do Rcmdr...:

Páginas

SAUDAÇÕES!