8 Análise Fatorial
A Análise Fatorial é uma técnica estatística utilizada para descrever a estrutura de covariância entre um conjunto de variáveis observadas. A hipótese central é que essa estrutura é gerada por um número menor de variáveis latentes não observáveis, denominadas fatores comuns.
Começamos com uma intuição. Suponha que temos as seguintes variáveis de gastos para diferentes famílias:
- \(X_1\): Gasto em educação
- \(X_2\): Gasto em cultura
- \(X_3\): Gasto em alimentação
É razoável supor que essas variáveis sejam correlacionadas. Mais do que isso, pode existir um fator latente, como a renda familiar (\(F_1\)), que influencia todos esses gastos. A Análise Fatorial busca formalizar e quantificar essa relação.
8.1 O Modelo Fatorial Ortogonal
O modelo supõe que cada variável observada é linearmente dependente de um conjunto de fatores comuns, somado a um termo de variância individual, ou específico.
Definição 8.1 Seja \(\mathbf{x}\) um vetor aleatório de p variáveis observadas com vetor de médias \(\boldsymbol{\mu}\) e matriz de covariâncias \(\mathbf{\Sigma}\). O modelo fatorial com m fatores comuns (\(m < p\)) postula que \(\mathbf{x}\) é linearmente dependente de m fatores comuns \(F_1, F_2, \dots, F_m\) e p termos de erro \(\epsilon_1, \epsilon_2, \dots, \epsilon_p\). Em notação matricial, o modelo é:
\[ \mathbf{x}_{(p \times 1)} - \boldsymbol{\mu}_{(p \times 1)} = \mathbf{L}_{(p \times m)}\mathbf{F}_{(m \times 1)} + \boldsymbol{\epsilon}_{(p \times 1)} \tag{8.1}\]
Onde:
- \(\mathbf{L}\) é a matriz de cargas fatoriais: Uma matriz de pesos responsável por quantificar as relações entre as p variáveis e os m fatores.
- \(\mathbf{F}\) é o vetor de fatores comuns, ou seja \(\mathbf{F} = [F_1, F_2, \dots, F_m]'\).
- \(\boldsymbol{\epsilon}\) é o vetor de erros, ou variâncias específicas, ou seja, \(\boldsymbol{\epsilon} = [\epsilon_1, \epsilon_2, \dots, \epsilon_p]'\)
Para que o ajuste desse modelo seja factível, as seguintes suposições são feitas para o modelo ortogonal:
- \(E[\mathbf{F}] = \mathbf{0}\) e \(Cov(\mathbf{F}) = E[\mathbf{F}\mathbf{F}'] = \mathbf{I}\).
- \(E[\boldsymbol{\epsilon}] = \mathbf{0}\) e \(Cov(\boldsymbol{\epsilon}) = E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] = \mathbf{\Psi}\), onde \(\mathbf{\Psi}\) é uma matriz diagonal.
- \(Cov(\mathbf{F}, \boldsymbol{\epsilon}) = E[\mathbf{F}\boldsymbol{\epsilon}'] = \mathbf{0}\).
8.2 A Estrutura de Covariância Implícita
As suposições do modelo implicam uma estrutura específica para a matriz de covariâncias \(\mathbf{\Sigma}\).
Teorema 8.1 Sob as premissas do modelo fatorial ortogonal (Definição 8.1), a matriz de covariâncias \(\mathbf{\Sigma}\) do vetor \(\mathbf{x}\) é dada por:
\[ \mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi} \tag{8.2}\]
Comprovação. A partir do modelo fatorial em Equação 8.1, temos que \(\mathbf{x} - \boldsymbol{\mu} = \mathbf{L}\mathbf{F} + \boldsymbol{\epsilon}\). A matriz de covariâncias de \(\mathbf{x}\) é, por definição, \(\mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})']\). Substituindo a expressão do modelo, obtemos:
\[ \begin{aligned} \mathbf{\Sigma} &= E[(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})'] \\ &= E[(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})(\mathbf{F}'\mathbf{L}' + \boldsymbol{\epsilon}')] \\ &= E[\mathbf{L}\mathbf{F}\mathbf{F}'\mathbf{L}' + \mathbf{L}\mathbf{F}\boldsymbol{\epsilon}' + \boldsymbol{\epsilon}\mathbf{F}'\mathbf{L}' + \boldsymbol{\epsilon}\boldsymbol{\epsilon}'] \\ &= \mathbf{L}E[\mathbf{F}\mathbf{F}']\mathbf{L}' + \mathbf{L}E[\mathbf{F}\boldsymbol{\epsilon}'] + E[\boldsymbol{\epsilon}\mathbf{F}']\mathbf{L}' + E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] \end{aligned} \]
Pelas suposições do modelo ortogonal (Definição 8.1):
- \(E[\mathbf{F}\mathbf{F}'] = \text{Cov}(\mathbf{F}) = \mathbf{I}\) (os fatores são não correlacionados e têm variância unitária).
- \(E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] = \text{Cov}(\boldsymbol{\epsilon}) = \mathbf{\Psi}\) (os erros são não correlacionados entre si).
- \(E[\mathbf{F}\boldsymbol{\epsilon}'] = \text{Cov}(\mathbf{F}, \boldsymbol{\epsilon}) = \mathbf{0}\) (os fatores e os erros são não correlacionados).
Substituindo essas esperanças na equação de \(\mathbf{\Sigma}\), temos:
\[ \mathbf{\Sigma} = \mathbf{L}\mathbf{I}\mathbf{L}' + \mathbf{L}\mathbf{0} + \mathbf{0}\mathbf{L}' + \mathbf{\Psi} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi} \]
Isso completa a prova.
Esta equação decompõe a variância de cada variável \(X_i\) em:
- Comunalidade (\(h_i^2\)): A porção da variância de \(X_i\) explicada pelos m fatores comuns.
- Variância Específica (\(\psi_i\)): A porção da variância de \(X_i\) não explicada pelos fatores comuns.
A variância de \(X_i\) é o elemento diagonal \(\sigma_{ii}\) da matriz \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). O elemento \((i,i)\) de \(\mathbf{L}\mathbf{L}'\) é:
\[ [\mathbf{L}\mathbf{L}']_{ii} = \sum_{k=1}^{m} l_{ik} l_{ik} = \sum_{k=1}^{m} l_{ik}^2 = h_i^2 \]
onde \(l_{ik}\) é a carga da variável \(i\) no fator \(k\). Como \(\mathbf{\Psi}\) é diagonal com elemento \(\psi_i\) na posição \((i,i)\):
\[ \sigma_{ii} = h_i^2 + \psi_i \quad \Rightarrow \quad \text{Var}(X_i) = \underbrace{\sum_{k=1}^{m} l_{ik}^2}_{\text{comunalidade}} + \underbrace{\psi_i}_{\text{variância específica}} \]
Exemplo 8.1 Suponha que a matriz de covariâncias de um vetor aleatório \(\mathbf{x}\) com \(p=4\) variáveis seja:
\[ \mathbf{\Sigma} = \begin{pmatrix} 19 & 30 & 2 & 12 \\ 30 & 57 & 5 & 23 \\ 2 & 5 & 37 & 47 \\ 12 & 23 & 47 & 68 \end{pmatrix} \]
É possível mostrar que um modelo fatorial com \(m=2\) fatores comuns pode gerar essa estrutura de covariância. Uma solução possível para \(\mathbf{L}\) e \(\mathbf{\Psi}\) é dada por:
\[ \mathbf{L} = \begin{pmatrix} 4 & 1 \\ 7 & 2 \\ -1 & 6 \\ 1 & 8 \end{pmatrix} , \quad \mathbf{\Psi} = \begin{pmatrix} 2 & 0 & 0 & 0 \\ 0 & 4 & 0 & 0 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 3 \end{pmatrix} \]
O leitor pode verificar que \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). O modelo decompõe a variância de cada variável.
- Para \(X_1\), a comunalidade é \(h_1^2 = 4^2 + 1^2 = 17\), e sua variância total é \(Var(X_1) = \sigma_{11} = h_1^2 + \psi_1 = 17 + 2 = 19\).
- Para \(X_2\), a comunalidade é \(h_2^2 = 7^2 + 2^2 = 53\), e sua variância total é \(Var(X_2) = \sigma_{22} = h_2^2 + \psi_2 = 53 + 4 = 57\).
8.3 Problemas no Modelo Fatorial
- Existência da Solução: Nem sempre existe uma solução factível para o modelo fatorial com m fatores. A estimação dos parâmetros, especialmente com um número inadequado de fatores, pode levar a soluções impróprias, como uma variância específica negativa (\(\hat{\psi}_i < 0\)), conhecida como caso de Heywood. Isso viola a premissa de que \(\psi_i\) é uma variância e, portanto, deve ser não-negativa. Geralmente, uma solução imprópria indica que o modelo é inadequado para os dados.
Exemplo 8.2 Considere um modelo de um fator (\(m=1\)) para \(p=3\) variáveis, com a seguinte matriz de correlação populacional:
\[ \mathbf{R} = \begin{pmatrix} 1.0 & 0.4 & 0.9 \\ 0.4 & 1.0 & 0.7 \\ 0.9 & 0.7 & 1.0 \end{pmatrix} \]
O modelo fatorial para a matriz de correlação é \(\mathbf{P} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). Para \(m=1\), as cargas são um vetor \(\mathbf{L} = [l_{11}, l_{21}, l_{31}]'\). As covariâncias (correlações) são dadas por \(\rho_{ij} = l_{i1}l_{j1}\). Temos o sistema:
- \(\rho_{12} = l_{11}l_{21} = 0.4\)
- \(\rho_{13} = l_{11}l_{31} = 0.9\)
- \(\rho_{23} = l_{21}l_{31} = 0.7\)
Multiplicando as três equações, obtemos \((l_{11}l_{21}l_{31})^2 = 0.4 \times 0.9 \times 0.7 = 0.252\). Isso nos permite resolver para as cargas:
- \(l_{11}^2 = (l_{11}l_{21})(l_{11}l_{31}) / (l_{21}l_{31}) = (0.4 \times 0.9) / 0.7 \approx 0.514\)
- \(l_{21}^2 = (l_{11}l_{21})(l_{21}l_{31}) / (l_{11}l_{31}) = (0.4 \times 0.7) / 0.9 \approx 0.311\)
- \(l_{31}^2 = (l_{11}l_{31})(l_{21}l_{31}) / (l_{11}l_{21}) = (0.9 \times 0.7) / 0.4 = 1.575\)
A comunalidade da terceira variável é \(h_3^2 = l_{31}^2 = 1.575\). Como estamos modelando uma matriz de correlação, a variância total de cada variável é 1. A variância específica seria \(\psi_3 = 1 - h_3^2 = 1 - 1.575 = -0.575\). Uma variância negativa é impossível, indicando que o modelo de um fator não é apropriado para descrever a estrutura de correlação dada.
- Indeterminação da Solução (Rotação Fatorial): A solução para a matriz de cargas \(\mathbf{L}\) não é única. Para qualquer matriz ortogonal \(\mathbf{T}\) de dimensão \(m \times m\) (ou seja, uma matriz tal que \(\mathbf{T}\mathbf{T}' = \mathbf{T}'\mathbf{T} = \mathbf{I}\)), podemos definir uma nova matriz de cargas \(\mathbf{L}^* = \mathbf{L}\mathbf{T}\) que resulta na mesma matriz de covariâncias.
Isso ocorre porque a parte da covariância explicada pelos fatores, \(\mathbf{L}\mathbf{L}'\), permanece inalterada:
\[ \mathbf{L}^*(\mathbf{L}^*)' = (\mathbf{L}\mathbf{T})(\mathbf{L}\mathbf{T})' = \mathbf{L}\mathbf{T}\mathbf{T}'\mathbf{L}' = \mathbf{L}(\mathbf{T}\mathbf{T}')\mathbf{L}' = \mathbf{L}\mathbf{I}\mathbf{L}' = \mathbf{L}\mathbf{L}' \]
Portanto, o modelo \(\mathbf{\Sigma} = \mathbf{L}^*(\mathbf{L}^*)' + \mathbf{\Psi}\) é equivalente ao modelo original. Essa propriedade é a base para a rotação fatorial, um procedimento que busca a solução \(\mathbf{L}^*\) mais simples e interpretável, sem alterar o ajuste do modelo.
8.4 Adequabilidade do Modelo Fatorial
Antes de aplicar os métodos de estimação, pode-se avaliar se os dados são adequados para a Análise Fatorial. A premissa fundamental da AF é que as variáveis observadas são correlacionadas e que essa correlação pode ser explicada por fatores latentes. Se as variáveis são ortogonais ou se a correlação entre elas é espúria, o modelo fatorial não é apropriado.
Dois dos principais diagnósticos para verificar a adequabilidade dos dados são o Teste de Esfericidade de Bartlett e a medida de adequação da amostra de Kaiser-Meyer-Olkin (KMO).
8.4.1 Teste de Esfericidade de Bartlett
O Teste de Esfericidade de Bartlett avalia a hipótese nula (\(H_0\)) de que a matriz de correlação populacional \(\mathbf{P}\) é uma matriz identidade (\(H_0: \mathbf{P} = \mathbf{I}\)). Se essa hipótese for verdadeira, as variáveis são não correlacionadas, e não há estrutura latente para ser extraída.
A estatística de teste é baseada no determinante da matriz de correlação amostral \(\mathbf{R}\) e, sob \(H_0\), segue aproximadamente uma distribuição Qui-quadrado. Para uma amostra de tamanho n e p variáveis, a estatística é:
\[ \chi^2 = -\left[(n - 1) - \frac{2p + 5}{6}\right] \ln(|\mathbf{R}|) \]
Esta estatística tem, aproximadamente, uma distribuição \(\chi^2\) com \(p(p-1)/2\) graus de liberdade. Um p-valor baixo (e.g., < 0.05) leva à rejeição de \(H_0\), indicando que existe correlação suficiente entre as variáveis para justificar a aplicação da Análise Fatorial.
8.4.2 Medida de Adequação da Amostra (KMO)
Enquanto o teste de Bartlett avalia se a matriz de correlação como um todo se desvia significativamente da identidade, a medida de Kaiser-Meyer-Olkin (KMO) quantifica o quão adequados os dados são para a fatorização. O KMO compara a magnitude dos coeficientes de correlação observados com a magnitude dos coeficientes de correlação parcial.
A lógica é que, se as variáveis compartilham fatores comuns, as correlações parciais entre pares de variáveis (controlando pelas outras variáveis) devem ser pequenas. A estatística KMO é calculada como:
\[ \text{KMO} = \frac{\sum_{i \neq j} r_{ij}^2}{\sum_{i \neq j} r_{ij}^2 + \sum_{i \neq j} a_{ij}^2} \]
Onde \(r_{ij}\) é o coeficiente de correlação simples entre as variáveis \(X_i\) e \(X_j\), e \(a_{ij}\) é o coeficiente de correlação parcial.
O valor do KMO varia de 0 a 1. Valores mais altos indicam que a Análise Fatorial é mais apropriada. Uma regra prática para a interpretação do KMO é:
- > 0.9: Maravilhoso
- 0.8 - 0.9: Meritório
- 0.7 - 0.8: Razoável
- 0.6 - 0.7: Medíocre
- 0.5 - 0.6: Ruim
- < 0.5: Inaceitável
Valores abaixo de 0.5 sugerem que a Análise Fatorial pode não ser uma boa ideia.
8.5 Métodos de Estimação
Assumindo uma amostra aleatória \(\mathbf{x}_1, \dots, \mathbf{x}_n\) de uma população com matriz de covariâncias \(\mathbf{\Sigma}\), o desafio é estimar \(\mathbf{L}\) e \(\mathbf{\Psi}\) usando a matriz de covariâncias amostral \(\mathbf{S}\) ou a matriz de correlação amostral \(\mathbf{R}\).
Existem diversos métodos para estimar os parâmetros do modelo fatorial, cada um com suas próprias premissas e propriedades. Alguns dos mais conhecidos incluem:
- Método de Componentes Principais (MCP)
- Método da Máxima Verossimilhança (MMV)
- Método dos Fatores Principais (Principal Axis Factoring)
- Mínimos Quadrados Ponderados
- Mínimos Quadrados Generalizados
Neste capítulo, focaremos nos dois métodos mais amplamente utilizados na prática: o Método de Componentes Principais, por sua simplicidade computacional, e o Método da Máxima Verossimilhança, por sua fundamentação estatística robusta.
8.5.1 A Solução por Componentes Principais
O método de componentes principais (MCP) provê uma solução para \(\mathbf{L}\) e \(\mathbf{\Psi}\) a partir da decomposição espectral da matriz de covariâncias amostral \(\mathbf{S}\) (ou da matriz de correlações \(\mathbf{R}\)).
É importante distinguir entre a Análise de Componentes Principais como técnica autônoma (Capítulo 7) e o Método de Componentes Principais para estimação em Análise Fatorial.
- Na ACP, os componentes são simplesmente combinações lineares das variáveis que capturam a máxima variância; não há modelo estatístico subjacente.
- Na AF via MCP, utilizamos a maquinaria da decomposição espectral como ferramenta computacional para estimar os parâmetros de um modelo fatorial. A AF assume que existe uma estrutura latente gerando as correlações observadas.
Em resumo: a ACP é uma técnica descritiva; a AF é uma técnica de modelagem que pode usar a ACP como método de estimação.
A ideia é que a matriz \(\mathbf{S}\) pode ser decomposta em termos de seus pares de autovalor-autovetor \((\hat{\lambda}_i, \hat{\mathbf{e}}_i)\):
\[ \mathbf{S} = \hat{\lambda}_1\hat{\mathbf{e}}_1\hat{\mathbf{e}}_1' + \hat{\lambda}_2\hat{\mathbf{e}}_2\hat{\mathbf{e}}_2' + \dots + \hat{\lambda}_p\hat{\mathbf{e}}_p\hat{\mathbf{e}}_p' \]
A estrutura do modelo fatorial é \(\mathbf{S} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\). O MCP busca uma aproximação para \(\mathbf{S}\) retendo apenas os m primeiros componentes, que explicam a maior parte da variabilidade total. A matriz \(\hat{\mathbf{L}}\hat{\mathbf{L}}'\) é construída para igualar a contribuição desses componentes:
\[ \hat{\mathbf{L}}\hat{\mathbf{L}}' = \hat{\lambda}_1\hat{\mathbf{e}}_1\hat{\mathbf{e}}_1' + \hat{\lambda}_2\hat{\mathbf{e}}_2\hat{\mathbf{e}}_2' + \dots + \hat{\lambda}_m\hat{\mathbf{e}}_m\hat{\mathbf{e}}_m' \]
Uma solução explícita para \(\hat{\mathbf{L}}\) que satisfaz essa equação é uma matriz \(p \times m\) cujas colunas são os autovetores reescalados pelos respectivos autovalores. A matriz \(\hat{\mathbf{\Psi}}\) é então definida para garantir que as variâncias do modelo (\(\text{diag}(\hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}})\)) sejam iguais às variâncias amostrais (\(\text{diag}(\mathbf{S})\)).
Isso nos leva à seguinte definição formal.
Definição 8.2 Seja \(\mathbf{S}\) a matriz de covariância amostral com pares de autovalor-autovetor \((\hat{\lambda}_i, \hat{\mathbf{e}}_i)\). A solução de componentes principais com m fatores é definida por:
Matriz de Cargas Estimada (\(\hat{\mathbf{L}}\)): \[ \hat{\mathbf{L}} = [\sqrt{\hat{\lambda}_1}\hat{\mathbf{e}}_1 | \sqrt{\hat{\lambda}_2}\hat{\mathbf{e}}_2 | \dots | \sqrt{\hat{\lambda}_m}\hat{\mathbf{e}}_m] \]
Matriz de Variâncias Específicas Estimada (\(\hat{\mathbf{\Psi}}\)): \[ \hat{\mathbf{\Psi}} = \text{diag}(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}') \]
onde \(\hat{\psi}_i = s_{ii} - \sum_{j=1}^{m} \hat{l}_{ij}^2\).
Se a matriz de correlações \(\mathbf{R}\) for utilizada, as cargas \(\hat{\mathbf{L}}\) são calculadas a partir dos autovalores e autovetores de \(\mathbf{R}\), e as variâncias específicas são \(\hat{\psi}_i = 1 - \sum_{j=1}^{m} \hat{l}_{ij}^2\).
Por construção, este método força a diagonal da matriz de covariâncias do modelo, \(\hat{\mathbf{\Sigma}} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\), a ser idêntica à diagonal de \(\mathbf{S}\). O ajuste do modelo é então avaliado pela magnitude dos resíduos fora da diagonal. A matriz de resíduos é:
\[ \mathbf{S} - \hat{\mathbf{\Sigma}} = \mathbf{S} - (\hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}) \]
Como \(\hat{\mathbf{\Psi}} = \text{diag}(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}')\), os elementos da diagonal da matriz de resíduos são zero. Os resíduos fora da diagonal são os elementos de \(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}'\). Pode-se demonstrar que a soma dos quadrados de todos os elementos da matriz \(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}'\) (incluindo a diagonal) é:
\[ \sum_{i=1}^p \sum_{j=1}^p (s_{ij} - \sum_{k=1}^m \hat{l}_{ik}\hat{l}_{jk})^2 = \sum_{k=m+1}^p \hat{\lambda}_k^2 \]
Isso mostra que, para que o ajuste seja bom, a soma dos autovalores descartados (\(\hat{\lambda}_{m+1}, \dots, \hat{\lambda}_p\)) deve ser pequena.
8.5.2 Método da Máxima Verossimilhança (MMV)
O método da máxima verossimilhança (MMV) é uma abordagem mais rigorosa para a estimação, baseada em suposições sobre a distribuição dos dados.
Suposições Adicionais:
- O vetor de fatores comuns \(\mathbf{F}\) e o vetor de erros \(\boldsymbol{\epsilon}\) seguem uma distribuição normal multivariada:
- \(\mathbf{F} \sim N_m(\mathbf{0}, \mathbf{I})\)
- \(\boldsymbol{\epsilon} \sim N_p(\mathbf{0}, \mathbf{\Psi})\)
- \(\mathbf{F}\) e \(\boldsymbol{\epsilon}\) são independentes.
Sob essas condições, o vetor de variáveis observáveis \(\mathbf{x}\) segue uma distribuição normal multivariada \(N_p(\boldsymbol{\mu}, \mathbf{\Sigma})\), onde \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\).
Dada uma amostra aleatória \(\mathbf{x}_1, \dots, \mathbf{x}_n\), a função de log-verossimilhança (ignorando constantes) para os parâmetros \(\mathbf{L}\) e \(\mathbf{\Psi}\) é:
\[ \log L(\mathbf{L}, \mathbf{\Psi}) = -\frac{n}{2} \ln |\mathbf{\Sigma}| - \frac{n}{2} \text{tr}(\mathbf{\Sigma}^{-1}\mathbf{S}) \]
onde \(\mathbf{S}\) é a matriz de covariâncias amostral (versão ML, com divisor n). O objetivo é encontrar as estimativas \(\hat{\mathbf{L}}\) e \(\hat{\mathbf{\Psi}}\) que maximizam essa função, sujeito à restrição de que \(\hat{\mathbf{L}}'\hat{\mathbf{\Psi}}^{-1}\hat{\mathbf{L}}\) seja uma matriz diagonal para garantir a unicidade da solução.
A maximização é realizada por meio de algoritmos numéricos (como o de Newton-Raphson), pois não há uma solução analítica fechada. As estimativas resultantes, \(\hat{\mathbf{L}}\) e \(\hat{\mathbf{\Psi}}\), satisfazem um conjunto complexo de equações.
A principal vantagem do MMV é que ele permite um teste de hipóteses para a adequação do número de fatores m, comparando a matriz de covariâncias do modelo, \(\hat{\mathbf{\Sigma}} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\), com a matriz amostral \(\mathbf{S}\). Isso é fundamental na Análise Fatorial Confirmatória (AFC)
8.6 A Escolha do Número de Fatores (m)
A determinação do número de fatores, m, é uma das decisões mais importantes na Análise Fatorial. Um número muito baixo de fatores pode não capturar a estrutura de covariância subjacente, enquanto um número muito alto pode levar a um modelo superajustado e de difícil interpretação, violando o princípio da parcimônia.
A escolha de m geralmente envolve uma combinação de critérios estatísticos e julgamento prático. Vários dos métodos utilizados são análogos aos empregados na Análise de Componentes Principais (Capítulo 7). Os mais comuns são:
Proporção da Variância Total Explicada: Um critério comum é reter fatores suficientes para explicar uma proporção substancial (e.g., 70-90%) da variância total. No contexto do método de componentes principais para AF, a proporção da variância explicada pelo fator j é \(\hat{\lambda}_j / \text{tr}(\mathbf{S})\).
Critério de Kaiser (Autovalores > 1): Ao trabalhar com a matriz de correlação \(\mathbf{R}\), o critério de Kaiser sugere reter apenas os fatores correspondentes a autovalores maiores que 1. A lógica é que um fator deve explicar pelo menos a variância de uma variável original.
Gráfico de cotovelo (Scree Plot): Este é um gráfico dos autovalores ordenados (\(\hat{\lambda}_1 \ge \hat{\lambda}_2 \ge \dots\)). Procura-se por um “cotovelo” no gráfico, um ponto onde a magnitude dos autovalores começa a diminuir drasticamente. O número de fatores a reter seria o número de pontos antes do início do platô.
Teste de Hipóteses (para MMV): Quando o método da máxima verossimilhança é utilizado, é possível realizar um teste de razão de verossimilhanças para testar a hipótese nula de que m fatores são suficientes para descrever a estrutura de covariância.
Na prática, é recomendável utilizar uma combinação desses critérios. A interpretabilidade da solução fatorial resultante é, em última análise, o guia mais importante.
8.7 Rotação Fatorial
Como visto anteriormente, a solução para a matriz de cargas fatoriais \(\hat{\mathbf{L}}\) não é única. Qualquer rotação ortogonal dos fatores resulta em uma nova matriz de cargas \(\hat{\mathbf{L}}^* = \hat{\mathbf{L}}\mathbf{T}\) que explica a estrutura de covariâncias dos dados exatamente da mesma forma, pois \(\hat{\mathbf{L}}\hat{\mathbf{L}}' = \hat{\mathbf{L}}^* (\hat{\mathbf{L}}^*)'\).
Essa indeterminação, que a princípio parece um problema, é na verdade uma das ferramentas mais poderosas da Análise Fatorial. Ela nos permite girar a estrutura fatorial para uma posição que seja mais simples e interpretável, sem sacrificar o ajuste do modelo. O objetivo é alcançar o que o psicólogo Louis Thurstone chamou de estrutura simples.
A estrutura simples ideal teria as seguintes propriedades:
- Cada variável deve ter pelo menos uma carga fatorial próxima de zero.
- Cada fator deve ter várias cargas próximas de zero e algumas cargas altas.
- Para cada par de fatores, deve haver variáveis com cargas altas em um fator, mas não no outro.
Em suma, busca-se uma matriz de cargas onde cada variável esteja fortemente associada a apenas um ou poucos fatores, e cada fator represente claramente um subconjunto de variáveis. Os métodos de rotação são algoritmos que buscam, de forma objetiva, uma matriz \(\mathbf{T}\) que aproxime a matriz de cargas rotacionada \(\hat{\mathbf{L}}^*\) a essa estrutura ideal.
As rotações dividem-se em duas categorias principais.
8.7.1 Rotações Ortogonais
Neste tipo de rotação, a matriz de transformação \(\mathbf{T}\) é ortogonal, o que significa que os eixos dos fatores são girados, mas mantidos em um ângulo de 90 graus entre si. A consequência fundamental é que os fatores rotacionados permanecem não correlacionados.
Os métodos mais comuns de rotação ortogonal são:
Varimax: É o método de rotação ortogonal mais popular. O objetivo do Varimax é simplificar as colunas da matriz de cargas fatoriais. Para cada fator, ele busca maximizar a variância das cargas ao quadrado, efetivamente empurrando as cargas para perto de 0 ou \(\pm 1\). Isso facilita a identificação de quais variáveis estão associadas a cada fator. O critério Varimax maximiza a seguinte função:
\[ V = \sum_{j=1}^{m} \left[ \frac{1}{p} \sum_{i=1}^{p} (\hat{l}_{ij}^* / h_i)^4 - \left( \frac{1}{p} \sum_{i=1}^{p} (\hat{l}_{ij}^* / h_i)^2 \right)^2 \right] \]
Onde \(\hat{l}_{ij}^*\) são as cargas rotacionadas e \(h_i^2\) são as comunalidades (que permanecem invariantes sob rotação).
Quartimax: Este método foca em simplificar as linhas da matriz de cargas. Ele tenta fazer com que cada variável tenha carga alta em apenas um fator. O Quartimax foi o primeiro método analítico proposto, mas tende a criar um fator geral com cargas altas para muitas variáveis, o que pode dificultar a interpretação.
Equimax: É um meio termo entre o Varimax e o Quartimax. Ele tenta simplificar tanto as linhas quanto as colunas da matriz de cargas simultaneamente.
8.7.2 Rotações Oblíquas
Em muitos campos, especialmente nas ciências sociais, é teoricamente razoável esperar que os fatores latentes sejam correlacionados. Por exemplo, os fatores “habilidade verbal” e “habilidade matemática” são distintos, mas é provável que sejam positivamente correlacionados.
As rotações oblíquas permitem que os fatores se tornem correlacionados. A matriz de transformação \(\mathbf{T}\) não é mais ortogonal, e os eixos dos fatores podem ter ângulos diferentes de 90 graus. A vantagem é a capacidade de encontrar uma estrutura mais simples e teoricamente mais realista, ao custo de uma complexidade maior na interpretação, pois é preciso analisar tanto a matriz de cargas quanto a matriz de correlação entre os fatores.
Os métodos mais comuns incluem:
Promax: É um método muito utilizado que funciona em duas etapas. Primeiro, ele realiza uma rotação ortogonal (geralmente Varimax). Em seguida, ele relaxa a restrição de ortogonalidade, permitindo que os fatores se correlacionem para buscar uma estrutura ainda mais simples (com mais cargas próximas de zero).
Oblimin Direto: É um método mais geral que busca minimizar a covariância das cargas ao quadrado para pares de fatores. Ele possui um parâmetro (delta) que controla o grau de correlação permitido entre os fatores.
A escolha entre uma rotação ortogonal e oblíqua depende de considerações teóricas. Se não há uma razão forte para acreditar que os fatores são correlacionados, a rotação ortogonal (como a Varimax) é geralmente preferida por sua simplicidade. Se a correlação entre os fatores é esperada, uma rotação oblíqua pode fornecer uma representação mais fiel da realidade.