8 Análise Fatorial

A Análise Fatorial é uma técnica estatística utilizada para descrever a estrutura de covariância entre um conjunto de variáveis observadas. A hipótese central é que essa estrutura é gerada por um número menor de variáveis latentes não observáveis, denominadas fatores comuns.

Começamos com uma intuição. Suponha que temos as seguintes variáveis de gastos para diferentes famílias:

\(X_1\): Gasto em educação
\(X_2\): Gasto em cultura
\(X_3\): Gasto em alimentação

É razoável supor que essas variáveis sejam correlacionadas. Mais do que isso, pode existir um fator latente, como a renda familiar (\(F_1\)), que influencia todos esses gastos. A Análise Fatorial busca formalizar e quantificar essa relação.

8.1 O Modelo Fatorial Ortogonal

O modelo supõe que cada variável observada é linearmente dependente de um conjunto de fatores comuns, somado a um termo de variância individual, ou específico.

Definição 8.1 Seja \(\mathbf{x}\) um vetor aleatório de p variáveis observadas com vetor de médias \(\boldsymbol{\mu}\) e matriz de covariâncias \(\mathbf{\Sigma}\). O modelo fatorial com m fatores comuns (\(m < p\)) postula que \(\mathbf{x}\) é linearmente dependente de m fatores comuns \(F_1, F_2, \dots, F_m\) e p termos de erro \(\epsilon_1, \epsilon_2, \dots, \epsilon_p\). Em notação matricial, o modelo é:

\[ \mathbf{x}_{(p \times 1)} - \boldsymbol{\mu}_{(p \times 1)} = \mathbf{L}_{(p \times m)}\mathbf{F}_{(m \times 1)} + \boldsymbol{\epsilon}_{(p \times 1)} \tag{8.1}\]

Onde:

\(\mathbf{L}\) é a matriz de cargas fatoriais: Uma matriz de pesos responsável por quantificar as relações entre as p variáveis e os m fatores.
\(\mathbf{F}\) é o vetor de fatores comuns, ou seja \(\mathbf{F} = [F_1, F_2, \dots, F_m]'\).
\(\boldsymbol{\epsilon}\) é o vetor de erros, ou variâncias específicas, ou seja, \(\boldsymbol{\epsilon} = [\epsilon_1, \epsilon_2, \dots, \epsilon_p]'\)

Para que o ajuste desse modelo seja factível, as seguintes suposições são feitas para o modelo ortogonal:

\(E[\mathbf{F}] = \mathbf{0}\) e \(Cov(\mathbf{F}) = E[\mathbf{F}\mathbf{F}'] = \mathbf{I}\).
\(E[\boldsymbol{\epsilon}] = \mathbf{0}\) e \(Cov(\boldsymbol{\epsilon}) = E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] = \mathbf{\Psi}\), onde \(\mathbf{\Psi}\) é uma matriz diagonal.
\(Cov(\mathbf{F}, \boldsymbol{\epsilon}) = E[\mathbf{F}\boldsymbol{\epsilon}'] = \mathbf{0}\).

8.2 A Estrutura de Covariância Implícita

As suposições do modelo implicam uma estrutura específica para a matriz de covariâncias \(\mathbf{\Sigma}\).

Teorema 8.1 Sob as premissas do modelo fatorial ortogonal (Definição 8.1), a matriz de covariâncias \(\mathbf{\Sigma}\) do vetor \(\mathbf{x}\) é dada por:

\[ \mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi} \tag{8.2}\]

Comprovação. A partir do modelo fatorial em Equação 8.1, temos que \(\mathbf{x} - \boldsymbol{\mu} = \mathbf{L}\mathbf{F} + \boldsymbol{\epsilon}\). A matriz de covariâncias de \(\mathbf{x}\) é, por definição, \(\mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})']\). Substituindo a expressão do modelo, obtemos:

\[ \begin{aligned} \mathbf{\Sigma} &= E[(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})'] \\ &= E[(\mathbf{L}\mathbf{F} + \boldsymbol{\epsilon})(\mathbf{F}'\mathbf{L}' + \boldsymbol{\epsilon}')] \\ &= E[\mathbf{L}\mathbf{F}\mathbf{F}'\mathbf{L}' + \mathbf{L}\mathbf{F}\boldsymbol{\epsilon}' + \boldsymbol{\epsilon}\mathbf{F}'\mathbf{L}' + \boldsymbol{\epsilon}\boldsymbol{\epsilon}'] \\ &= \mathbf{L}E[\mathbf{F}\mathbf{F}']\mathbf{L}' + \mathbf{L}E[\mathbf{F}\boldsymbol{\epsilon}'] + E[\boldsymbol{\epsilon}\mathbf{F}']\mathbf{L}' + E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] \end{aligned} \]

Pelas suposições do modelo ortogonal (Definição 8.1):

\(E[\mathbf{F}\mathbf{F}'] = \text{Cov}(\mathbf{F}) = \mathbf{I}\) (os fatores são não correlacionados e têm variância unitária).
\(E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] = \text{Cov}(\boldsymbol{\epsilon}) = \mathbf{\Psi}\) (os erros são não correlacionados entre si).
\(E[\mathbf{F}\boldsymbol{\epsilon}'] = \text{Cov}(\mathbf{F}, \boldsymbol{\epsilon}) = \mathbf{0}\) (os fatores e os erros são não correlacionados).

Substituindo essas esperanças na equação de \(\mathbf{\Sigma}\), temos:

\[ \mathbf{\Sigma} = \mathbf{L}\mathbf{I}\mathbf{L}' + \mathbf{L}\mathbf{0} + \mathbf{0}\mathbf{L}' + \mathbf{\Psi} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi} \]

Isso completa a prova.

Esta equação decompõe a variância de cada variável \(X_i\) em:

Comunalidade (\(h_i^2\)): A porção da variância de \(X_i\) explicada pelos m fatores comuns.
Variância Específica (\(\psi_i\)): A porção da variância de \(X_i\) não explicada pelos fatores comuns.

Derivação da Comunalidade

A variância de \(X_i\) é o elemento diagonal \(\sigma_{ii}\) da matriz \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). O elemento \((i,i)\) de \(\mathbf{L}\mathbf{L}'\) é:

\[ [\mathbf{L}\mathbf{L}']_{ii} = \sum_{k=1}^{m} l_{ik} l_{ik} = \sum_{k=1}^{m} l_{ik}^2 = h_i^2 \]

onde \(l_{ik}\) é a carga da variável \(i\) no fator \(k\). Como \(\mathbf{\Psi}\) é diagonal com elemento \(\psi_i\) na posição \((i,i)\):

\[ \sigma_{ii} = h_i^2 + \psi_i \quad \Rightarrow \quad \text{Var}(X_i) = \underbrace{\sum_{k=1}^{m} l_{ik}^2}_{\text{comunalidade}} + \underbrace{\psi_i}_{\text{variância específica}} \]

Exemplo 8.1 Suponha que a matriz de covariâncias de um vetor aleatório \(\mathbf{x}\) com \(p=4\) variáveis seja:

\[ \mathbf{\Sigma} = \begin{pmatrix} 19 & 30 & 2 & 12 \\ 30 & 57 & 5 & 23 \\ 2 & 5 & 37 & 47 \\ 12 & 23 & 47 & 68 \end{pmatrix} \]

É possível mostrar que um modelo fatorial com \(m=2\) fatores comuns pode gerar essa estrutura de covariância. Uma solução possível para \(\mathbf{L}\) e \(\mathbf{\Psi}\) é dada por:

\[ \mathbf{L} = \begin{pmatrix} 4 & 1 \\ 7 & 2 \\ -1 & 6 \\ 1 & 8 \end{pmatrix} , \quad \mathbf{\Psi} = \begin{pmatrix} 2 & 0 & 0 & 0 \\ 0 & 4 & 0 & 0 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 3 \end{pmatrix} \]

O leitor pode verificar que \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). O modelo decompõe a variância de cada variável.

Para \(X_1\), a comunalidade é \(h_1^2 = 4^2 + 1^2 = 17\), e sua variância total é \(Var(X_1) = \sigma_{11} = h_1^2 + \psi_1 = 17 + 2 = 19\).
Para \(X_2\), a comunalidade é \(h_2^2 = 7^2 + 2^2 = 53\), e sua variância total é \(Var(X_2) = \sigma_{22} = h_2^2 + \psi_2 = 53 + 4 = 57\).

8.3 Problemas no Modelo Fatorial

Existência da Solução: Nem sempre existe uma solução factível para o modelo fatorial com m fatores. A estimação dos parâmetros, especialmente com um número inadequado de fatores, pode levar a soluções impróprias, como uma variância específica negativa (\(\hat{\psi}_i < 0\)), conhecida como caso de Heywood. Isso viola a premissa de que \(\psi_i\) é uma variância e, portanto, deve ser não-negativa. Geralmente, uma solução imprópria indica que o modelo é inadequado para os dados.

Exemplo 8.2 Considere um modelo de um fator (\(m=1\)) para \(p=3\) variáveis, com a seguinte matriz de correlação populacional:

\[ \mathbf{R} = \begin{pmatrix} 1.0 & 0.4 & 0.9 \\ 0.4 & 1.0 & 0.7 \\ 0.9 & 0.7 & 1.0 \end{pmatrix} \]

O modelo fatorial para a matriz de correlação é \(\mathbf{P} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\). Para \(m=1\), as cargas são um vetor \(\mathbf{L} = [l_{11}, l_{21}, l_{31}]'\). As covariâncias (correlações) são dadas por \(\rho_{ij} = l_{i1}l_{j1}\). Temos o sistema:

\(\rho_{12} = l_{11}l_{21} = 0.4\)
\(\rho_{13} = l_{11}l_{31} = 0.9\)
\(\rho_{23} = l_{21}l_{31} = 0.7\)

Multiplicando as três equações, obtemos \((l_{11}l_{21}l_{31})^2 = 0.4 \times 0.9 \times 0.7 = 0.252\). Isso nos permite resolver para as cargas:

\(l_{11}^2 = (l_{11}l_{21})(l_{11}l_{31}) / (l_{21}l_{31}) = (0.4 \times 0.9) / 0.7 \approx 0.514\)
\(l_{21}^2 = (l_{11}l_{21})(l_{21}l_{31}) / (l_{11}l_{31}) = (0.4 \times 0.7) / 0.9 \approx 0.311\)
\(l_{31}^2 = (l_{11}l_{31})(l_{21}l_{31}) / (l_{11}l_{21}) = (0.9 \times 0.7) / 0.4 = 1.575\)

A comunalidade da terceira variável é \(h_3^2 = l_{31}^2 = 1.575\). Como estamos modelando uma matriz de correlação, a variância total de cada variável é 1. A variância específica seria \(\psi_3 = 1 - h_3^2 = 1 - 1.575 = -0.575\). Uma variância negativa é impossível, indicando que o modelo de um fator não é apropriado para descrever a estrutura de correlação dada.

Indeterminação da Solução (Rotação Fatorial): A solução para a matriz de cargas \(\mathbf{L}\) não é única. Para qualquer matriz ortogonal \(\mathbf{T}\) de dimensão \(m \times m\) (ou seja, uma matriz tal que \(\mathbf{T}\mathbf{T}' = \mathbf{T}'\mathbf{T} = \mathbf{I}\)), podemos definir uma nova matriz de cargas \(\mathbf{L}^* = \mathbf{L}\mathbf{T}\) que resulta na mesma matriz de covariâncias.

Isso ocorre porque a parte da covariância explicada pelos fatores, \(\mathbf{L}\mathbf{L}'\), permanece inalterada:

\[ \mathbf{L}^*(\mathbf{L}^*)' = (\mathbf{L}\mathbf{T})(\mathbf{L}\mathbf{T})' = \mathbf{L}\mathbf{T}\mathbf{T}'\mathbf{L}' = \mathbf{L}(\mathbf{T}\mathbf{T}')\mathbf{L}' = \mathbf{L}\mathbf{I}\mathbf{L}' = \mathbf{L}\mathbf{L}' \]

Portanto, o modelo \(\mathbf{\Sigma} = \mathbf{L}^*(\mathbf{L}^*)' + \mathbf{\Psi}\) é equivalente ao modelo original. Essa propriedade é a base para a rotação fatorial, um procedimento que busca a solução \(\mathbf{L}^*\) mais simples e interpretável, sem alterar o ajuste do modelo.

8.4 Adequabilidade do Modelo Fatorial

Antes de aplicar os métodos de estimação, pode-se avaliar se os dados são adequados para a Análise Fatorial. A premissa fundamental da AF é que as variáveis observadas são correlacionadas e que essa correlação pode ser explicada por fatores latentes. Se as variáveis são ortogonais ou se a correlação entre elas é espúria, o modelo fatorial não é apropriado.

Dois dos principais diagnósticos para verificar a adequabilidade dos dados são o Teste de Esfericidade de Bartlett e a medida de adequação da amostra de Kaiser-Meyer-Olkin (KMO).

8.4.1 Teste de Esfericidade de Bartlett

O Teste de Esfericidade de Bartlett avalia a hipótese nula (\(H_0\)) de que a matriz de correlação populacional \(\mathbf{P}\) é uma matriz identidade (\(H_0: \mathbf{P} = \mathbf{I}\)). Se essa hipótese for verdadeira, as variáveis são não correlacionadas, e não há estrutura latente para ser extraída.

A estatística de teste é baseada no determinante da matriz de correlação amostral \(\mathbf{R}\) e, sob \(H_0\), segue aproximadamente uma distribuição Qui-quadrado. Para uma amostra de tamanho n e p variáveis, a estatística é:

\[ \chi^2 = -\left[(n - 1) - \frac{2p + 5}{6}\right] \ln(|\mathbf{R}|) \]

Esta estatística tem, aproximadamente, uma distribuição \(\chi^2\) com \(p(p-1)/2\) graus de liberdade. Um p-valor baixo (e.g., < 0.05) leva à rejeição de \(H_0\), indicando que existe correlação suficiente entre as variáveis para justificar a aplicação da Análise Fatorial.

8.4.2 Medida de Adequação da Amostra (KMO)

Enquanto o teste de Bartlett avalia se a matriz de correlação como um todo se desvia significativamente da identidade, a medida de Kaiser-Meyer-Olkin (KMO) quantifica o quão adequados os dados são para a fatorização. O KMO compara a magnitude dos coeficientes de correlação observados com a magnitude dos coeficientes de correlação parcial.

A lógica é que, se as variáveis compartilham fatores comuns, as correlações parciais entre pares de variáveis (controlando pelas outras variáveis) devem ser pequenas. A estatística KMO é calculada como:

\[ \text{KMO} = \frac{\sum_{i \neq j} r_{ij}^2}{\sum_{i \neq j} r_{ij}^2 + \sum_{i \neq j} a_{ij}^2} \]

Onde \(r_{ij}\) é o coeficiente de correlação simples entre as variáveis \(X_i\) e \(X_j\), e \(a_{ij}\) é o coeficiente de correlação parcial.

O valor do KMO varia de 0 a 1. Valores mais altos indicam que a Análise Fatorial é mais apropriada. Uma regra prática para a interpretação do KMO é:

> 0.9: Maravilhoso
0.8 - 0.9: Meritório
0.7 - 0.8: Razoável
0.6 - 0.7: Medíocre
0.5 - 0.6: Ruim
< 0.5: Inaceitável

Valores abaixo de 0.5 sugerem que a Análise Fatorial pode não ser uma boa ideia.

8.5 Métodos de Estimação

Assumindo uma amostra aleatória \(\mathbf{x}_1, \dots, \mathbf{x}_n\) de uma população com matriz de covariâncias \(\mathbf{\Sigma}\), o desafio é estimar \(\mathbf{L}\) e \(\mathbf{\Psi}\) usando a matriz de covariâncias amostral \(\mathbf{S}\) ou a matriz de correlação amostral \(\mathbf{R}\).

Existem diversos métodos para estimar os parâmetros do modelo fatorial, cada um com suas próprias premissas e propriedades. Alguns dos mais conhecidos incluem:

Método de Componentes Principais (MCP)
Método da Máxima Verossimilhança (MMV)
Método dos Fatores Principais (Principal Axis Factoring)
Mínimos Quadrados Ponderados
Mínimos Quadrados Generalizados

Neste capítulo, focaremos nos dois métodos mais amplamente utilizados na prática: o Método de Componentes Principais, por sua simplicidade computacional, e o Método da Máxima Verossimilhança, por sua fundamentação estatística robusta.

8.5.1 A Solução por Componentes Principais

O método de componentes principais (MCP) provê uma solução para \(\mathbf{L}\) e \(\mathbf{\Psi}\) a partir da decomposição espectral da matriz de covariâncias amostral \(\mathbf{S}\) (ou da matriz de correlações \(\mathbf{R}\)).

ACP vs. AF via Componentes Principais

É importante distinguir entre a Análise de Componentes Principais como técnica autônoma (Capítulo 7) e o Método de Componentes Principais para estimação em Análise Fatorial.

Na ACP, os componentes são simplesmente combinações lineares das variáveis que capturam a máxima variância; não há modelo estatístico subjacente.
Na AF via MCP, utilizamos a maquinaria da decomposição espectral como ferramenta computacional para estimar os parâmetros de um modelo fatorial. A AF assume que existe uma estrutura latente gerando as correlações observadas.

Em resumo: a ACP é uma técnica descritiva; a AF é uma técnica de modelagem que pode usar a ACP como método de estimação.

A ideia é que a matriz \(\mathbf{S}\) pode ser decomposta em termos de seus pares de autovalor-autovetor \((\hat{\lambda}_i, \hat{\mathbf{e}}_i)\):

\[ \mathbf{S} = \hat{\lambda}_1\hat{\mathbf{e}}_1\hat{\mathbf{e}}_1' + \hat{\lambda}_2\hat{\mathbf{e}}_2\hat{\mathbf{e}}_2' + \dots + \hat{\lambda}_p\hat{\mathbf{e}}_p\hat{\mathbf{e}}_p' \]

A estrutura do modelo fatorial é \(\mathbf{S} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\). O MCP busca uma aproximação para \(\mathbf{S}\) retendo apenas os m primeiros componentes, que explicam a maior parte da variabilidade total. A matriz \(\hat{\mathbf{L}}\hat{\mathbf{L}}'\) é construída para igualar a contribuição desses componentes:

\[ \hat{\mathbf{L}}\hat{\mathbf{L}}' = \hat{\lambda}_1\hat{\mathbf{e}}_1\hat{\mathbf{e}}_1' + \hat{\lambda}_2\hat{\mathbf{e}}_2\hat{\mathbf{e}}_2' + \dots + \hat{\lambda}_m\hat{\mathbf{e}}_m\hat{\mathbf{e}}_m' \]

Uma solução explícita para \(\hat{\mathbf{L}}\) que satisfaz essa equação é uma matriz \(p \times m\) cujas colunas são os autovetores reescalados pelos respectivos autovalores. A matriz \(\hat{\mathbf{\Psi}}\) é então definida para garantir que as variâncias do modelo (\(\text{diag}(\hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}})\)) sejam iguais às variâncias amostrais (\(\text{diag}(\mathbf{S})\)).

Isso nos leva à seguinte definição formal.

Definição 8.2 Seja \(\mathbf{S}\) a matriz de covariância amostral com pares de autovalor-autovetor \((\hat{\lambda}_i, \hat{\mathbf{e}}_i)\). A solução de componentes principais com m fatores é definida por:

Matriz de Cargas Estimada (\(\hat{\mathbf{L}}\)): \[ \hat{\mathbf{L}} = [\sqrt{\hat{\lambda}_1}\hat{\mathbf{e}}_1 | \sqrt{\hat{\lambda}_2}\hat{\mathbf{e}}_2 | \dots | \sqrt{\hat{\lambda}_m}\hat{\mathbf{e}}_m] \]
Matriz de Variâncias Específicas Estimada (\(\hat{\mathbf{\Psi}}\)): \[ \hat{\mathbf{\Psi}} = \text{diag}(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}') \]

onde \(\hat{\psi}_i = s_{ii} - \sum_{j=1}^{m} \hat{l}_{ij}^2\).

Se a matriz de correlações \(\mathbf{R}\) for utilizada, as cargas \(\hat{\mathbf{L}}\) são calculadas a partir dos autovalores e autovetores de \(\mathbf{R}\), e as variâncias específicas são \(\hat{\psi}_i = 1 - \sum_{j=1}^{m} \hat{l}_{ij}^2\).

Por construção, este método força a diagonal da matriz de covariâncias do modelo, \(\hat{\mathbf{\Sigma}} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\), a ser idêntica à diagonal de \(\mathbf{S}\). O ajuste do modelo é então avaliado pela magnitude dos resíduos fora da diagonal. A matriz de resíduos é:

\[ \mathbf{S} - \hat{\mathbf{\Sigma}} = \mathbf{S} - (\hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}) \]

Como \(\hat{\mathbf{\Psi}} = \text{diag}(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}')\), os elementos da diagonal da matriz de resíduos são zero. Os resíduos fora da diagonal são os elementos de \(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}'\). Pode-se demonstrar que a soma dos quadrados de todos os elementos da matriz \(\mathbf{S} - \hat{\mathbf{L}}\hat{\mathbf{L}}'\) (incluindo a diagonal) é:

\[ \sum_{i=1}^p \sum_{j=1}^p (s_{ij} - \sum_{k=1}^m \hat{l}_{ik}\hat{l}_{jk})^2 = \sum_{k=m+1}^p \hat{\lambda}_k^2 \]

Isso mostra que, para que o ajuste seja bom, a soma dos autovalores descartados (\(\hat{\lambda}_{m+1}, \dots, \hat{\lambda}_p\)) deve ser pequena.

8.5.2 Método da Máxima Verossimilhança (MMV)

O método da máxima verossimilhança (MMV) é uma abordagem mais rigorosa para a estimação, baseada em suposições sobre a distribuição dos dados.

Suposições Adicionais:

O vetor de fatores comuns \(\mathbf{F}\) e o vetor de erros \(\boldsymbol{\epsilon}\) seguem uma distribuição normal multivariada:
- \(\mathbf{F} \sim N_m(\mathbf{0}, \mathbf{I})\)
- \(\boldsymbol{\epsilon} \sim N_p(\mathbf{0}, \mathbf{\Psi})\)
\(\mathbf{F}\) e \(\boldsymbol{\epsilon}\) são independentes.

Sob essas condições, o vetor de variáveis observáveis \(\mathbf{x}\) segue uma distribuição normal multivariada \(N_p(\boldsymbol{\mu}, \mathbf{\Sigma})\), onde \(\mathbf{\Sigma} = \mathbf{L}\mathbf{L}' + \mathbf{\Psi}\).

Dada uma amostra aleatória \(\mathbf{x}_1, \dots, \mathbf{x}_n\), a função de log-verossimilhança (ignorando constantes) para os parâmetros \(\mathbf{L}\) e \(\mathbf{\Psi}\) é:

\[ \log L(\mathbf{L}, \mathbf{\Psi}) = -\frac{n}{2} \ln |\mathbf{\Sigma}| - \frac{n}{2} \text{tr}(\mathbf{\Sigma}^{-1}\mathbf{S}) \]

onde \(\mathbf{S}\) é a matriz de covariâncias amostral (versão ML, com divisor n). O objetivo é encontrar as estimativas \(\hat{\mathbf{L}}\) e \(\hat{\mathbf{\Psi}}\) que maximizam essa função, sujeito à restrição de que \(\hat{\mathbf{L}}'\hat{\mathbf{\Psi}}^{-1}\hat{\mathbf{L}}\) seja uma matriz diagonal para garantir a unicidade da solução.

A maximização é realizada por meio de algoritmos numéricos (como o de Newton-Raphson), pois não há uma solução analítica fechada. As estimativas resultantes, \(\hat{\mathbf{L}}\) e \(\hat{\mathbf{\Psi}}\), satisfazem um conjunto complexo de equações.

A principal vantagem do MMV é que ele permite um teste de hipóteses para a adequação do número de fatores m, comparando a matriz de covariâncias do modelo, \(\hat{\mathbf{\Sigma}} = \hat{\mathbf{L}}\hat{\mathbf{L}}' + \hat{\mathbf{\Psi}}\), com a matriz amostral \(\mathbf{S}\). Isso é fundamental na Análise Fatorial Confirmatória (AFC)

8.6 A Escolha do Número de Fatores (m)

A determinação do número de fatores, m, é uma das decisões mais importantes na Análise Fatorial. Um número muito baixo de fatores pode não capturar a estrutura de covariância subjacente, enquanto um número muito alto pode levar a um modelo superajustado e de difícil interpretação, violando o princípio da parcimônia.

A escolha de m geralmente envolve uma combinação de critérios estatísticos e julgamento prático. Vários dos métodos utilizados são análogos aos empregados na Análise de Componentes Principais (Capítulo 7). Os mais comuns são:

Proporção da Variância Total Explicada: Um critério comum é reter fatores suficientes para explicar uma proporção substancial (e.g., 70-90%) da variância total. No contexto do método de componentes principais para AF, a proporção da variância explicada pelo fator j é \(\hat{\lambda}_j / \text{tr}(\mathbf{S})\).
Critério de Kaiser (Autovalores > 1): Ao trabalhar com a matriz de correlação \(\mathbf{R}\), o critério de Kaiser sugere reter apenas os fatores correspondentes a autovalores maiores que 1. A lógica é que um fator deve explicar pelo menos a variância de uma variável original.
Gráfico de cotovelo (Scree Plot): Este é um gráfico dos autovalores ordenados (\(\hat{\lambda}_1 \ge \hat{\lambda}_2 \ge \dots\)). Procura-se por um “cotovelo” no gráfico, um ponto onde a magnitude dos autovalores começa a diminuir drasticamente. O número de fatores a reter seria o número de pontos antes do início do platô.
Teste de Hipóteses (para MMV): Quando o método da máxima verossimilhança é utilizado, é possível realizar um teste de razão de verossimilhanças para testar a hipótese nula de que m fatores são suficientes para descrever a estrutura de covariância.

Na prática, é recomendável utilizar uma combinação desses critérios. A interpretabilidade da solução fatorial resultante é, em última análise, o guia mais importante.

8.7 Rotação Fatorial

Como visto anteriormente, a solução para a matriz de cargas fatoriais \(\hat{\mathbf{L}}\) não é única. Qualquer rotação ortogonal dos fatores resulta em uma nova matriz de cargas \(\hat{\mathbf{L}}^* = \hat{\mathbf{L}}\mathbf{T}\) que explica a estrutura de covariâncias dos dados exatamente da mesma forma, pois \(\hat{\mathbf{L}}\hat{\mathbf{L}}' = \hat{\mathbf{L}}^* (\hat{\mathbf{L}}^*)'\).

Essa indeterminação, que a princípio parece um problema, é na verdade uma das ferramentas mais poderosas da Análise Fatorial. Ela nos permite girar a estrutura fatorial para uma posição que seja mais simples e interpretável, sem sacrificar o ajuste do modelo. O objetivo é alcançar o que o psicólogo Louis Thurstone chamou de estrutura simples.

A estrutura simples ideal teria as seguintes propriedades:

Cada variável deve ter pelo menos uma carga fatorial próxima de zero.
Cada fator deve ter várias cargas próximas de zero e algumas cargas altas.
Para cada par de fatores, deve haver variáveis com cargas altas em um fator, mas não no outro.

Em suma, busca-se uma matriz de cargas onde cada variável esteja fortemente associada a apenas um ou poucos fatores, e cada fator represente claramente um subconjunto de variáveis. Os métodos de rotação são algoritmos que buscam, de forma objetiva, uma matriz \(\mathbf{T}\) que aproxime a matriz de cargas rotacionada \(\hat{\mathbf{L}}^*\) a essa estrutura ideal.

As rotações dividem-se em duas categorias principais.

8.7.1 Rotações Ortogonais

Neste tipo de rotação, a matriz de transformação \(\mathbf{T}\) é ortogonal, o que significa que os eixos dos fatores são girados, mas mantidos em um ângulo de 90 graus entre si. A consequência fundamental é que os fatores rotacionados permanecem não correlacionados.

Os métodos mais comuns de rotação ortogonal são:

Varimax: É o método de rotação ortogonal mais popular. O objetivo do Varimax é simplificar as colunas da matriz de cargas fatoriais. Para cada fator, ele busca maximizar a variância das cargas ao quadrado, efetivamente empurrando as cargas para perto de 0 ou \(\pm 1\). Isso facilita a identificação de quais variáveis estão associadas a cada fator. O critério Varimax maximiza a seguinte função:

\[ V = \sum_{j=1}^{m} \left[ \frac{1}{p} \sum_{i=1}^{p} (\hat{l}_{ij}^* / h_i)^4 - \left( \frac{1}{p} \sum_{i=1}^{p} (\hat{l}_{ij}^* / h_i)^2 \right)^2 \right] \]

Onde \(\hat{l}_{ij}^*\) são as cargas rotacionadas e \(h_i^2\) são as comunalidades (que permanecem invariantes sob rotação).
Quartimax: Este método foca em simplificar as linhas da matriz de cargas. Ele tenta fazer com que cada variável tenha carga alta em apenas um fator. O Quartimax foi o primeiro método analítico proposto, mas tende a criar um fator geral com cargas altas para muitas variáveis, o que pode dificultar a interpretação.
Equimax: É um meio termo entre o Varimax e o Quartimax. Ele tenta simplificar tanto as linhas quanto as colunas da matriz de cargas simultaneamente.

8.7.2 Rotações Oblíquas

Em muitos campos, especialmente nas ciências sociais, é teoricamente razoável esperar que os fatores latentes sejam correlacionados. Por exemplo, os fatores “habilidade verbal” e “habilidade matemática” são distintos, mas é provável que sejam positivamente correlacionados.

As rotações oblíquas permitem que os fatores se tornem correlacionados. A matriz de transformação \(\mathbf{T}\) não é mais ortogonal, e os eixos dos fatores podem ter ângulos diferentes de 90 graus. A vantagem é a capacidade de encontrar uma estrutura mais simples e teoricamente mais realista, ao custo de uma complexidade maior na interpretação, pois é preciso analisar tanto a matriz de cargas quanto a matriz de correlação entre os fatores.

Os métodos mais comuns incluem:

Promax: É um método muito utilizado que funciona em duas etapas. Primeiro, ele realiza uma rotação ortogonal (geralmente Varimax). Em seguida, ele relaxa a restrição de ortogonalidade, permitindo que os fatores se correlacionem para buscar uma estrutura ainda mais simples (com mais cargas próximas de zero).
Oblimin Direto: É um método mais geral que busca minimizar a covariância das cargas ao quadrado para pares de fatores. Ele possui um parâmetro (delta) que controla o grau de correlação permitido entre os fatores.

A escolha entre uma rotação ortogonal e oblíqua depende de considerações teóricas. Se não há uma razão forte para acreditar que os fatores são correlacionados, a rotação ortogonal (como a Varimax) é geralmente preferida por sua simplicidade. Se a correlação entre os fatores é esperada, uma rotação oblíqua pode fornecer uma representação mais fiel da realidade.