Já vimos em dois posts como calcular o Tamanho Amostral necessário sobre a abordagem de populações finitas para Proporções e Médias.
Existe em estatística, dois paradigmas acerca do cálculo do tamanho amostral:
- Abordagem de Populações Finitas: Nessa proposta, o objetivo é construir uma amostra representativa de uma população finita de modo a manter "mais ou menos" as mesmas características da população alvo para o conjunto de variáveis de interesse.
- Abordagem de Populações Infinitas (modelo de superpopulação): Já na abordagem de Populações Infinitas o interesse está em obter uma amostra representativa de uma população teoricamente infinita, para que um determinado modelo (Regressão, Correlação, Equações Estruturais, etc.) possa ser aplicado a determinados níveis de Erro Tipo I e Erro Tipo II.
Nesse sentido, o objetivo desse post é apresentar como o tamanho amostral deve ser calculado quando o interesse é a realização de um modelo de Equações Estruturais, o qual engloba modelos de regressão e análise fatorial confirmatória, por exemplo.
Para isso, utilizaremos como base dois textos: MacCallum, Browne e Sugawara (1996) - Power Analysis and Determination of Sample Size for Covariance Structure Modeling e Rigdon(1994) - Calculating degrees of freedom for a structural equation model. Especificamente, MacCallum, Browne e Sugawara (1996) considera que o interesse do analista que executa um modelo de Equações Estruturais é avaliar o adequamento global do modelo segundo alguma medida de ajuste, em especial o RMSEA - The Root Mean Square Error of Approximation. Em outras palavras o interesse é testar algo como:
$$
\begin{cases}
H_{0}:RMSEA>\kappa_{1}\\
H_{a}:RMSEA\leq\kappa_{2}\\
\end{cases}
$$
onde $\kappa_{1}$ e $\kappa_{2}$ são níveis considerados para o RMSEA. MacCallum, Browne e Sugawara (1996) sugere os seguintes níveis:
- $RMSEA \geq 0.10$ (Ajuste ruim).
- $RMSEA \leq 0.10$ (Ajuste medíocre)
- $RMSEA \leq 0.08$ (Ajuste aceitável).
- $RMSEA \leq 0.05 $ (Ajuste adequado)
- $RMSEA = 0.00 $ (Ajuste exato)
Assim, para se calcular o tamanho amostral desejado para um modelo de Equações Estruturais são necessários alguns insumos: níveis máximos admitidos para os Erros Tipo I e Tipo II (usualmente $\alpha=0.05$ e $\beta=0.2$, respectivamente), limites considerados para o teste de hipótese do RMSEA (usualmente, $\kappa_{1}=0.08$ e $\kappa_{2}=0.05$) e o número de graus de liberdade do modelo.
O cálculo do tamanho amostral necessário necessita de algum conhecimento prévio teórico sobre os Modelos de Equações Estruturais, uma boa referência é o livro Bollen (2014) - Structural equations with latent variables.
Considere o seguinte modelo proposto por Rigdon(1994):
O cálculo do número de graus de liberdade desse modelo é a diferença entre o número de informações manifestas não redundantes disponíveis (isto é, número de variâncias e covariâncias possíveis de serem calculadas diretamente com base nos dados $\frac{6\times(6+1)}{2}=21$) e o número de parâmetros livres a ser estimados ($\boldsymbol\theta=(\lambda_{1},\dots,\lambda_{6},\phi_{21},\psi_{1},\dots,\psi_{6})^{T})$ onde $\lambda_{1},\dots,\lambda_{6}$ representam as cargas fatoriais, $\phi_{21}$ a covariância entre as variáveis latentes e $\psi_{1},\dots,\psi_{6}$ as variâncias associadas aos termos de erro $\delta_{1},\dots,\delta_{6}$ tal que para o modelo apresentado temos $dim(\boldsymbol\theta)=13$ e portanto o número de graus de liberdade é igual a $21-13=8$).
Portanto, para o teste de hipótese na forma:
$$
\begin{cases}
H_{0}:RMSEA>0.08\\
H_{a}:RMSEA\leq 0.05\\
\end{cases}
$$
No R basta fazer:
#Chama a biblioteca semTools library(semTools) #Define o erro do tipo 1: erro1<-0.05 #Define o erro do tipo 2: erro2<-0.20 #Define o número de graus de liberdade gl<-8 #Define o limite para a hipótese nula do RMSEA k1REMSEA<-0.08 #Define o limite para a hipótese alternativa do RMSEA k2REMSEA<-0.05 #Calcula o tamanho amostral findRMSEAsamplesize(rmsea=k1REMSEA, rmseaA=k2REMSEA, df=gl, power=(1-erro2), alpha=erro1)Após a execução do código anterior, o pacote semTools fornece um tamanho amostral mínimo igual a 961 observações. É importante ressaltar que cada modelo pode possuir graus de liberdade diferentes, e portanto, o tamanho amostral dependerá da estrutura gráfica considerada para o modelo de Equações Estruturais.