SAUDAÇÕES!

Seja bem vindo à página do professor Pedro Albuquerque. Para saber mais sobre meu currículo, disciplinas ministradas e interesses de pesquisa, navegue no menu disponível no topo da página.

segunda-feira, 28 de maio de 2012

Cálculo do tamanho de amostras: proporções.
















Se eu ganhasse um real para cada vez que alguém me perguntasse qual deve ser o tamanho amostral hoje eu estaria rico!!!

Isso se deve principalmente a uma falta de conhecimento de como os delineamentos amostrais são construídos.

No caso de planos amostrais vale a máxima:


"É melhor qualidade do que quantidade."


Ou seja, o tamanho amostral é importante mas não é mais importante do que a qualidade desse plano amostral. E a qualidade é medida pela variabilidade dos estimadores construídos, quanto menor a variabilidade maior a eficiência do plano amostral.

Essa variabilidade é alterada pelo tipo de delineamento amostral. Exemplos de desenhos amostrais são: amostragem aleatória simples, amostragem sistemática, amostragem por conglomerados, amostragem de Poisson, etc.

Entretanto, apesar da estimação da variância em planos amostrais e a construção de delineamentos sofisticados serem fundamentais, esses não serão escopo desse post.

Falarei aqui sobre como calcular o tamanho amostral para estimadores de proporção em amostras aleatórias simples.

Para outros tipos de estimadores, como: parâmetros de regressão, variância e correlações ou ainda estimadores em planos amostrais diferentes da amostra aleatória simples, outros textos são necessários (veja por exemplo: Cochran (1977); Schaeffer, et. al (2011), Särndal, et.al (2003)).



Cálculo do tamanho amostral para estimadores de proporção.



Para o cálculo do tamanho amostral necessário para estimar proporções alguns ingredientes são importantes:

  1. Tamanho da população: é o tamanho da população alvo. Representado usualmente por $N$
  2. Erro permissível: é o erro admitido para o estimador de proporção. Por exemplo, quando você assisti o Jornal Nacional e o William Bonner diz que o percentual de pessoas que aprovam o governo Dilma é de 68.4% com uma margem de erro de dois pontos percentuais para mais ou para menos (±2%), essa margem é o erro permissível. O tamanho amostral para a estimação de proporções leva em consideração o quanto você "aceita errar" na estimativa do parâmetro populacional. Para proporções esse erro deve estar entre 0 e 1 (varia entre 0% a 100%).
  3. Confiabilidade: como amostragem é um processo probabilístico, existe uma probabilidade desse erro permissível (ou seja o erro máximo aceitável) não ser satisfeito. Definimos como nível de confiança (confiabilidade) a probabilidade do erro máximo permissível ser satisfeito. Usualmente, trabalha-se com probabilidades como 90%, 95%, 99% ou ainda 99.9% dependendo do tipo de estudo. O nível de confiança (representado por $1-\alpha$ onde $\alpha$ é o nível crítico.) varia entre 0 e 1 (varia entre 0% a 100%)
  4. Proporção:o último ingrediente para o cálculo do tamanho amostral necessário é o valor da proporção representado por $\hat{p}$, esse valor varia entre 0 e 1 (varia entre 0% a 100%). Você deve ter pensado: "Mas pera aí... Como eu vou fornecer o valor da proporção para o cálculo do tamanho amostral se é JUSTAMENTE ISSO QUE EU QUERO ENCONTRAR ???". Você está certo em se indignar... Esse é o componente mais complicado de ser encontrado. Há no entanto algumas sugestões:
    • Utilize $\hat{p}=0.5$. Nesse caso, o "pior dos casos" é construído e o tamanho amostral máximo é obtido. (Cochran (1977) página 72.)
    • Encontre o valor de $\hat{p}$ utilizando outro estudo. Por exemplo, procure alguma estatística ou algum artigo que indique "mais ou menos" qual deve ser o valor da proporção. Suponha que o objetivo seja calcular a proporção de computadores quebrados na UnB, podemos usar algum texto ou artigo que estime a proporção de computadores em outra instituição de pesquisa e então essa proporção é utilizada como proxy.
    • Faça uma amostra piloto utilizando um tamanho amostral arbitrário. Com base nessa amostra piloto calcule o valor da proporção e então estime o tamanho amostral necessário. Por exemplo, suponha que o objetivo seja, novamente, calcular a proporção de computadores quebrados na UnB. Podemos amostrar dez computadores e calcular o valor da proporção. Então utilizamos esse valor para estimar o tamanho da amostra. Suponha que encontremos o valor de 234 para o tamanho amostral. Isso significa que temos que amostrar 234 computadores... Mas, como dez computadores já foram amostrados, o tamanho da amostra deverá ser 224=234-10.
Com base nessa breve explicação, considere o seguinte exemplo: o total de alunos matriculados na UnB em 2011 foi de 30757 alunos. Suponha que desejamos fazer uma pesquisa sobre a proporção de alunos que aprovam o uso de cotas no vestibular, nesse caso temos que definir algumas informações.

Podemos definir o erro permissível como 0.05, ou seja, adimite-se que a proporção de alunos que aprovam o uso de cotas no vestibular pode variar 5 pontos percentuais para mais ou para menos, o nível de confiança mais utilizado é de 95% isso significa que se o processo amostral for repetido muitas vezes espera-se que a margem de erro ±5% seja satisfeita em 95% das vezes. Por fim, como não conhecemos a priori nenhuma informação sobre o percentual de alunos que aprovam o uso de cotas, podemos fazer $\hat{p}=0.5$ como abordagem conservadora.

Abaixo segue o programa para o cálculo do tamanho amostral:


Tamanho da população:


Erro permissível:


Proporção:


Confiabilidade:


Tamanho da amostra:



Note que ao executar o programa o tamanho da amostra estimado foi de 380. Esse valor poderia ser reduzido se fizéssemos uma amostra piloto ou se tivéssemos uma estimativa menos rígida para a proporção de alunos que aprovam o uso de cotas.

Maiores detalhes sobre esse processo, incluindo a fórmula para o cálculo do tamanho amostral você encontra em (Cochran (1977) página 75.)

quinta-feira, 24 de maio de 2012

Rcmdr - Estatística Básica com R Commander.


Frequentemente alguns alunos reclamam que o software R é complicado de se trabalhar devido à necessidade de algum conhecimento ainda que básico de programação.

Entretanto, existe um pacote chamado Rcmdr que auxilia na análise estatística por meio de uma plataforma orientada a objetos. O primeiro passo é instalar o software R nesse link.:


Em seguida, após executá-lo a seguinte tela surge:


O R é um software que funciona associado a bibliotecas (libraries), dessa forma, o próximo passo para a utilização do R Commander é a instalação da biblioteca Rcmdr:


Uma lista de CRANs (Comprehensive R Archive Network) aparece, você pode escolher qualquer repositório. Esses repositórios armazenam os pacotes disponíveis para o R em vários locais do mundo. Após a escolha do repositório, é necessário escolher o pacote Rcmdr:


Em seguida, basta clicar no botão OK que a instalação do pacote será realizada automaticamente. Para executar a biblioteca Rcmdr é necessário digitar o seguinte comando na tela do R Console:

#Comando para executar o R Commander:
library("Rcmdr")

e então pressionar a tecla Enter.


Caso todos os passos anteriores tenham sido executados corretamente a seguinte tela surgirá:


Essa é a tela principal do R Commander e por meio dessa tela diversas análises estatísticas básicas podem ser realizadas, a inserção de dados, edição e geração de estatísticas exploratórias podem ser executadas diretamente por meio do "point and click".

Existem outras bibliotecas plug-in(s) para o R Commander que auxiliam na análise estatística de métodos mais avançados, alguns dos plug-in(s) disponíveis para o R Commander são os seguintes:


Esses plug-in(s) podem ser instalados utilizando a sequência de comandos Pacotes → Instalar pacote(s) na janela do RGui como apresentado anteriormente. Após a instalação, esses plug-in(s) podem ser carregados utilizando a seguinte sequência de comandos na tela do R Commander Ferramentas → Carregar plug-in(s) do Rcmdr...:

quinta-feira, 17 de maio de 2012

InnoCentive - Recebendo para solucionar problemas.


Ideias criativas para solucionar problemas pode te enriquecer!! Essa é a ideia do InnoCentive.

InnoCentive é uma empresa de "inovação aberta" que possui problemas de pesquisa e desenvolvimento para uma ampla gama de domínios como: engenharia, ciência da computação, matemática, química, ciências biológicas, ciências físicas e negócios.

A empresa apresenta esses desafios para que alguém possa resolvê-los. Aqueles que são bem sucedidos podem receber prêmios em dinheiro, caso sua solução seja considerada a melhor e preencha os critérios de desafio.

Para as empresas que atuam macissamente em P&D com o intuito de competir em seus mercados (modelos altamente verticais), os recursos tendem a ser muito caros e limitados.

O modelo de inovação aberta sugere que as ideias valiosas vêm tanto de dentro como também de fora das empresas (Chesbrough, 2006). Admite-se também que o conhecimento útil é amplamente distribuído nos mercados e no mundo. (Allio, 2003; Gassmann, Enkel e Chesbrough, 2010)

Neste sentido, a InnoCentive tem como objetivo criar e capturar valor para os "buscadores de soluções" e para "solucionadores de problemas", permitindo assim a troca de recompensas monetárias para peritos externos.

Quem quiser tentar pode ver uma lista dos desafios abertos aqui!

sexta-feira, 11 de maio de 2012

"A ameaça zumbi até agora tem sido estudada apenas qualitativamente, ou através do uso de modelos matemáticos sem conteúdo empírico. Propomos o uso de uma nova ferramenta em pesquisas para permitir que os zumbis sejam estudados indiretamente, sem risco para os entrevistadores."


Esse é o abstract de um artigo muito devertido entitulado: "How many zombies do you know?" Using indirect survey methods to measure alien attacks and outbreaks of the undead.

Apesar do estudo não ser verossímil, o método apresentado mostra como é possível obter estimativas populacionais quando não se conhece a população diretamente, por exemplo, podemos utilizar a mesma metodologia para estimar o número de funcionários públicos que praticam prevaricação, e assim mensurar o efeito do moral hazard em organizações públicas.

Vale a pena ler o texto...

sábado, 5 de maio de 2012

Análise Fatorial em marketing.

A análise fatorial é um método estatístico utilizado para descrever a variabilidade entre variáveis observadas e possivelmente correlacionadas em termos de um número potencialmente menor de variáveis ​​não observadas chamadas fatores.

Em outras palavras, é possível, por exemplo, que as variações de três ou quatro variáveis ​​observadas possam ser explicadas por somente um fator. Dessa forma a análise fatorial é útil em descrever um conjunto de dados utilizando para isso apenas alguns fatores. Em marketing, esses fatores podem estar associados à características do produto, clientes e até mesmo da organização.

Cuidados.
Como todo método estatístico a análise fatorial clássica exige que alguns pressupostos sejam satisfeitos, quais sejam:

  • Normalidade dos dados. Apesar desse pressuposto não ser crítico quando a estimação é realizada por mínimos quadrados ordinários, a exigência de normalidade auxilia na análise, evitando possíveis assimetrias e a presença de outliers.
  • Variáveis quantitativas medidas em escala Intervalar ou de Razão. Esse pressuposto é crítico, pois a análise deve ser realizada com variáveis quantitativas e, frequentemente, alguns estudos são realizados utilizando variáveis ordinais (as quais são qualitativas) na análise fatorial clássica (o que é errado de muitas maneiras). Para maiores detalhes consulte Jöreskog e Moustaki (2001) e Castilho (2011) - Estudo do perfil dos visitantes do zoológico de Brasília com análise fatorial: uma aplicação em marketing.

Outros pressupostos ainda podem ser exigidos dependendo do tipo de análise a ser realizada.

Cada software possui sua peculiaridade no processo de estimação dos fatores. No caso do R a análise fatorial é realizada por meio da função factanal.

Exemplo.
Como exemplo considere o seguinte banco de dados: USArrests. Este conjunto de dados contém informações sobre as prisões ocorridas nos EUA em 1973 para cada 100.000 habitantes. A proporção da população, quantidade de assaltos, assassinatos e estupros em cada um dos 50 estados dos EUA são registrados.

#Habilita o banco de dados USArrests
data(USArrests)

#Lista as variáveis presentes no banco
names(USArrests)

Nesse caso, temos quatro variáveis: "Murder", "Assault", "UrbanPop" e "Rape". A análise fatorial pode ser utilizada para reduzir esse conjunto de dados para uma dimensão menor ou igual a quantidade de variáveis disponíveis.

O primeiro passo é determinar quantos fatores devem ser utilizados. Uma abordagem bastante prática é a análise do ScreePlot. Nessa abordagem a escolha do número de fatores se dá no "cotovelo" do Screeplot (Catell, R.B. (1966)).

Essa metodologia foi criticada por Kaiser, H.F.(1970) devido a sua natureza subjetiva (ou seja, não há uma definição clara do objetivo que constitui uma queda substancial, nesse caso, descrita pelo "cotovelo" do Screeplot).

Apesar de polêmica, utilizaremos a abordagem do Screeplot nesse exemplo. Outros métodos de escolha do números de fatores podem ser obtidos nos textos Horn (1965), Humphreys e Ilgen (1969), Humphreys, Montanelli e Jr. (1975) e Ledesma e Valero-Mora (2007).

# Obtêm os autovalores observados 
#da matriz de correlações amostrais.
autovalores<- eigen(cor(USArrests))$values

#Obtêm o número de observações da base de dados.
nobservacoes <- nrow(USArrests) 

#Computa o número de variáveis.
variaveis<- length(autovalores) 

#Define o número de repetições para a estimação do número 
#de fatores por meio da análise paralela Horn (1965).
rep <- 100 

#Valor do centil para a análise fatorial.
cent <- 0.95 
A definição dos métodos para estimar o número de fatores é dado por:
#Análise paralela de Horn (1965) 
#para determinação do número de fatores.
ap <- parallel(subject=nobservacoes,var=variaveis,rep=rep,cent=cent)

#Número de fatores segundo diferentes regras
apAutovet <- ap$eigen
Os resultados são gerados e armazendados no objeto results:
#Guarda os resultados
results <- nScree(eig = autovalores,aparallel=apAutovet$qevpea) 
results

#Imprimi o Screeplot
plotnScree(results)
O método de análise gráfica do Screeplot indica a presença de um fator. Para proceder com a análise, utilizamos a função factanal. Como a estimação dos fatores pela função factanal é realizada por meio de máxima verossimilhança, o pressuposto de normalidade multivariada é exigido. Apesar dos métodos indicarem a presença de um fator, estimaremos dois fatores para apresentar como a análise gráfica pode ser utilizada nesses casos.
#Realiza a análise fatorial para dois fatores.
fit <- factanal(USArrests, 2, rotation="varimax")

#Imprimi os resultados
print(fit, digits=2, cutoff=.3, sort=TRUE)
Existem outros métodos de rotação possíveis para a análise fatorial, quais sejam: none", "varimax", "quatimax", "promax", "oblimin", "simplimax", ou "cluster". Detalhes sobre os tipos de rotações podem ser obtidos em Everitt e Hothorn (2011). Outra maneira de visualizar graficamente a análise fatorial é por meio do pacote FactoMineR:
#Mapa fatorial
library(FactoMineR)

#Gera os gráficos automaticamente
result <- PCA(USArrests) 
A função PCA do pacote FactoMineR forenece os gráficos para o mapa de fatores para as variáveis e para as observações.
O pacote FactoMineR oferece um grande número de funções adicionais para a análise fatorial exploratória. Isto inclui a utilização de variáveis ​​quantitativas e qualitativas, bem como a inclusão de variáveis ​​suplementares e observações. Além da análise fatorial exploratória (apresentada brevemente aqui) ainda existe a possibilidade da análise fatorial confirmatória cujo principal objetivo é testar se as medidas de um constructo são consistentes com a compreensão do investigador sobre a natureza do constructo (ou fator). A análise fatorial confirmatória é então utilizada para testar se os dados se encaixam no modelo de mensuração definido.

sexta-feira, 4 de maio de 2012

Modelo de Herniter para mudança de marca.

Determinar o grau de fidelização de clientes é importante para as organizações de uma forma mais do que estratégica: é uma necessidade de sobrevivência da firma.

Considere três grandes organizações como Coca-Cola, Pepsi e Guaraná Jesus (antes de ser comprado pela Coca-Cola). Será que é possível estimar a probabilidade de um cliente que consome Coca-Cola vir a consumir Pepsi ? Ou um cliente consumir Pepsi vir também a consumir Guaraná Jesus ?

Esse tipo de modelo é denominado Modelo de Herniter e utiliza o conceito de entropia para estimar essas probabilidades. Mais detalhes sobre esse modelo você pode encontrar no capítulo 14 do livro Maximum-Entropy Models in Science and Engineering.

Aqui apenas uma breve explicação será fornecida. Seja $g_{1}$, $g_{2}$ e $g_{3}$ as probabilidades de um determinado consumidor vir a ser exclusivamente fiel as marcas 1, 2 e 3 (no nosso caso: Coca-Cola, Pepsi e Guaraná Jesus).

Seja também $g_{4}$, $g_{5}$ e $g_{6}$ as probabilidades da sua indecisão quanto à preferência entre as marcas, nesse caso, o consumidor oscila entre as marcas $(2,3),(3,1),(1,2)$ respectivamente e a probabilidade $g_{7}$ representaria a probabilidade da sua compra ser uma das três marcas (1,2,3). Graficamente podemos representar por meio do diagrama de Venn:


Sempre que um cliente puder comprar qualquer uma das duas marcas de um determinado par, sua preferência para os membros da primeira e segunda marcas pode ser indicada pelas variáveis aleatórias ​​$u$ e $1-u$ em que $0 < u < 1$. Assumindo que as funções densidade para os pares $ (2,3) , (3,1) , (1,2) $ são respectivamente $ f_{4}(\alpha) , f_{5}(\alpha) , f_{6}(\alpha) $.


Similarmente, a perferência do consumidor quando esse é capaz de adquirir qualquer uma das três marcas pode ser representada pelas variáveis aleatórias $ u , v $ e $ 1 - u - v $, onde $ 0 < 1 - u - v < 1 $ e corresponde a função densidade $f_{7}(u,v)$.


Existem doze possibilidades nesse modelo: o consumidor prefere exclusivamente a marca 1 $g_{1}$, o cliente prefere exclusivamente a marca 2 $g_{2}$, o cliente prefere exclusivamente a marca 3 $g_{3}$.

As outras probabilidades envolvem combinações de preferência, por exemplo, se o consumidor varia entre as marcas $(1,2)$ mas prefere a marca $1$ a função densidade de probabilidade será dada por $g_{4}u f_{4}(u)$, caso prefira a marca 2 sua f.d.p é dada por $g_{4}(1-u)f_{4}(u)$.

Similarmente, as possibilidades para os pares $(1,3)$ e $(2,3)$ são: $g_{5}u f_{5}(u)$ e $g_{5}(1-u) f_{5}(u)$ para as marcas $(1,3)$ e $g_{6}u f_{6}(u)$ e $g_{6}(1-u) f_{6}(u)$, respectivamente.

Para o conjunto $(1,2,3)$ no qual o cliente consome qualquer uma das marcas, há três possibilidades: prefere a marca 1, nesse caso, $g_{7}uf_{7}(u,v)$. Caso a sua preferência seja pela marca 2 temos $g_{7}vf_{7}(u,v)$, finalmente, caso sua preferêcia seja pela marca 3 podemos representar a f.d.p por $g_{7}(1-u-v)f_{7}(u,v)$.

A ideia da entropia é obter as funções desidade desconhecidas maximizando o "caos". Ou seja, como não sabemos como essas funções deveriam se comportar, procuramos o pior dos casos. Um exemplo simples pode ser dado pelo lançamento de uma moeda: caso não tenhamos nenhuma informação a priori sobre as características de uma moeda, qual deveria ser a probabilidade de cara e coroa ? A resposta é 0.5 para cara e 0.5 para coroa. Nessa situação essas probabilidades maximizam a entropia.

Dados então o Market Share de cada uma das marcas é possível estimar as probabilidades de cada uma das 12 possibilidades listadas. Essas probabilidades podem auxilar o gestor na tomada de decisão, segmentação de clientes e até mesmo propostas de parcerias com outras organizações.

Para o caso de mais de três marcas o texto: A generalization of the entropy model for brand purchase behavior é um bom começo.