SAUDAÇÕES!

Seja bem vindo à página do professor Pedro Albuquerque. Para saber mais sobre meu currículo, disciplinas ministradas e interesses de pesquisa, navegue no menu disponível no topo da página.

segunda-feira, 15 de junho de 2015

Cálculo do tamanho de amostras: médias.






Frequentemente, desejamos controlar o erro relativo associado a um determinado tamanho amostral, de fato, quando deseja-se trabalhar com médias populacionais ao invés de simplesmente a proporção populacional, podemos considerar o erro relativo como argumento para se determinar o tamanho amostral que o satisfaz (veja por exemplo: Cochran (1977); Schaeffer, et. al (2011), Särndal, et.al (2003)).

Quando desejamos trabalhar com variáveis qualitativas como Gênero, Raça, Satisfação calculamos o tamanho amostral por meio de proporções, já quando a variável de interesse é contínua, como Renda, Altura, Peso, podemos usar a fórmula para o tamanho amostral por meio da média (Cochran (1977) página 77.).

Para a determinação do tamanho amostral mínimo no caso da média, precisamos:

  1. Tamanho da população: é o tamanho da população alvo. Representado usualmente por $N$
  2. Erro relativo: é o erro relativo percentual admitido para o estimador da média. Por exemplo, um erro permissível de 10% indica que a média amostral (obtida após a coleta dos dados) pode diferir no máximo em 10% da média populacional (para mais ou para menos). O erro relativo é dado por $r=0,1$ nesse exemplo.
  3. Confiabilidade: como amostragem é um processo probabilístico, existe uma probabilidade desse erro relativo (ou seja o erro máximo aceitável) não ser satisfeito. Definimos como nível de confiança (confiabilidade) a probabilidade do erro máximo relativo ser satisfeito. Usualmente, trabalha-se com probabilidades como 90%, 95%, 99% ou ainda 99.9% dependendo do tipo de estudo. O nível de confiança (representado por $1-\alpha$ onde $\alpha$ é o nível crítico.) varia entre 0 e 1 (varia entre 0% a 100%)
  4. Coeficiente de variação:o último ingrediente para o cálculo do tamanho amostral necessário é o valor do coeficiente de variação representado por $\hat{CV}=\frac{\hat{S}}{\overline{Y}}$, para a variável de interesse, isso é, é a razão entre o desvio-padrão e a média populacional para a variável de interesse. Frequentemente essa informação não está disponível previamente, nesse caso há no entanto algumas sugestões:
    • Utilize $\hat{CV}$ como sendo aproximadamente a razão entre desvio-padrão e média de uma distribuição uniforme com $\hat{S}=\sqrt{\frac{(Max-Min)^{2}}{12}}$,e $\overline{Y}=\frac{Min+Max}{2}$ onde $Max$ e $Min$ são os valores máximos e mínimos conhecidos para a variável contínua de interesse. Nesse caso, o "pior dos casos" é construído e o tamanho amostral máximo é obtido.
    • Encontre o valor de $\hat{CV}$ utilizando outro estudo. Por exemplo, procure alguma estatística ou algum artigo que indique "mais ou menos" qual deve ser o valor do coeficiente de variação para a variável de interesse. Suponha que o objetivo seja calcular a média do IRA (Índice de Rendimento Acadêmico) dos alunos na UnB, podemos usar algum texto ou artigo que estime o coeficiente de variação do IRA para os alunos de outra instituição de pesquisa e então essa estimativa é utilizada como proxy.
    • Faça uma amostra piloto utilizando um tamanho amostral arbitrário. Com base nessa amostra piloto calcule o valor do desvio-padrão e média para o IRA dos alunos amostrados e então estime o tamanho amostral necessário. Por exemplo, suponha que o objetivo seja, novamente, calcular a média do IRA dos alunos na UnB. Podemos amostrar dez alunos e calcular o valor do coeficiente de variação do IRA desses alunos. Então utilizamos esse valor para estimar o tamanho da amostra. Suponha que encontremos o valor de 234 para o tamanho amostral. Isso significa que temos que amostrar 234 alunos... Mas, como dez alunos já foram amostrados, o tamanho da amostra deverá ser 224=234-10.

Com base nessa breve explicação, considere o seguinte exemplo: o total de alunos matriculados na UnB em 2011 foi de 30757 alunos. Suponha que desejamos fazer uma pesquisa sobre o IRA médio dos alunos da UnB, nesse caso temos que definir algumas informações.

Podemos definir o erro relativo como 0.05, ou seja, admite-se que a média do IRA dos alunos da UnB pode variar em até 5 pontos percentuais para mais ou para menos do IRA médio populacional (isto é, o IRA médio calculado com base no censo de alunos), o nível de confiança mais utilizado é de 95% isso significa que se o processo amostral for repetido muitas vezes espera-se que a margem de erro ±5% seja satisfeita em 95% das vezes. Por fim, como não conhecemos a priori nenhuma informação sobre o desvio-padrão do IRA dos alunos, podemos usar o fato do IRA variar somente de 0 a 5, logo, pela abordagem da distribuição uniforme temos fazer $\hat{S}=\sqrt{\frac{(5-0)^{2}}{12}}=1.443376$ e $\overline{Y}=\frac{5+0}{2}=2.5$ como abordagem conservadora. Fornecendo assim, $CV=\frac{1.443376}{2.5}\approx 0.5773503$

Abaixo segue o programa para o cálculo do tamanho amostral:


Tamanho da população:


Erro relativo:


Coeficiente de variação:


Confiabilidade:


Tamanho da amostra:




Note que ao executar o programa o tamanho da amostra estimado foi de 505. Esse valor poderia ser reduzido se fizéssemos uma amostra piloto ou se tivéssemos uma estimativa menos rígida para o coeficiente de variação.