12 Análise de Correlação Canônica
A Análise de Correlação Canônica (ACC), proposta por Hotelling (1935), é uma técnica estatística multivariada que busca identificar e quantificar a associação entre dois conjuntos de variáveis. O seu princípio básico é desenvolver uma combinação linear das variáveis em cada um dos grupos, tal que a correlação entre essas duas combinações seja maximizada.
Essas combinações lineares são chamadas de variáveis canônicas e suas associações são denominadas de correlações canônicas. Diferente da Análise de Componentes Principais (ACP), que trata de um único conjunto de variáveis, a ACC foca na relação entre dois conjuntos distintos.
O objetivo principal é simplificar a estrutura de correlação entre os grupos, reduzindo-a a um pequeno número de pares de variáveis canônicas independentes. A técnica é ideal quando se deseja explorar a interdependência entre dois conjuntos de métricas (por exemplo, desempenho de vendas vs. perfil psicológico) ou prever um conjunto a partir do outro.
Exemplo 12.1 Suponha que 50 vendedores foram avaliados por dois conjuntos de variáveis numa empresa:
- Desempenho de trabalho: crescimento de vendas, rentabilidade das vendas, e novas contas.
- Desempenho psicológico: criatividade, raciocínio, habilidade matemática.
Pode-se obter uma variável canônica para cada grupo e verificar a associação entre elas – a correlação canônica. Se esta associação for positivamente significativa, é interessante para a empresa aplicar os testes psicológicos aos candidatos de emprego, pois indivíduos com maiores escores nesses testes tenderiam a ser os melhores vendedores.
12.1 Fundamentação Teórica
Seja \(\mathbf{X}\) um vetor aleatório de dimensão \((p+q) \times 1\), particionado em dois subvetores:
\[ \mathbf{X} = \begin{bmatrix} \mathbf{X}^{(1)} \\ \mathbf{X}^{(2)} \end{bmatrix} \]
onde \(\mathbf{X}^{(1)}\) tem dimensão \(p \times 1\) e \(\mathbf{X}^{(2)}\) tem dimensão \(q \times 1\). Assumimos, sem perda de generalidade, que \(p \le q\).
O vetor de médias e a matriz de covariâncias populacional são particionados correspondentemente:
\[ \boldsymbol{\mu} = E[\mathbf{X}] = \begin{bmatrix} \boldsymbol{\mu}^{(1)} \\ \boldsymbol{\mu}^{(2)} \end{bmatrix}, \quad \mathbf{\Sigma} = \text{Cov}(\mathbf{X}) = \begin{bmatrix} \mathbf{\Sigma}_{11} & \mathbf{\Sigma}_{12} \\ \mathbf{\Sigma}_{21} & \mathbf{\Sigma}_{22} \end{bmatrix} \]
onde \(\mathbf{\Sigma}_{11}\) (\(p \times p\)) e \(\mathbf{\Sigma}_{22}\) (\(q \times q\)) são as matrizes de covariâncias de \(\mathbf{X}^{(1)}\) e \(\mathbf{X}^{(2)}\), respectivamente, e \(\mathbf{\Sigma}_{12} = \mathbf{\Sigma}_{21}'\) (\(p \times q\)) é a matriz de covariâncias cruzadas. Assumimos que \(\mathbf{\Sigma}\) é positiva definida, implicando que \(\mathbf{\Sigma}_{11}\) e \(\mathbf{\Sigma}_{22}\) são não singulares.
A ACC busca pares de combinações lineares
\[ U = \mathbf{a}'\mathbf{X}^{(1)} \quad \text{e} \quad V = \mathbf{b}'\mathbf{X}^{(2)} \]
onde \(\mathbf{a}\) (\(p \times 1\)) e \(\mathbf{b}\) (\(q \times 1\)) são vetores de coeficientes. As propriedades estatísticas dessas combinações são:
\[ \begin{aligned} \text{Var}(U) &= \mathbf{a}' \mathbf{\Sigma}_{11} \mathbf{a} \\ \text{Var}(V) &= \mathbf{b}' \mathbf{\Sigma}_{22} \mathbf{b} \\ \text{Cov}(U, V) &= \mathbf{a}' \mathbf{\Sigma}_{12} \mathbf{b} \end{aligned} \]
A correlação entre \(U\) e \(V\) é:
\[ \text{Corr}(U, V) = \frac{\mathbf{a}' \mathbf{\Sigma}_{12} \mathbf{b}}{\sqrt{\mathbf{a}' \mathbf{\Sigma}_{11} \mathbf{a}} \sqrt{\mathbf{b}' \mathbf{\Sigma}_{22} \mathbf{b}}} \]
O objetivo é maximizar essa correlação, o que equivale (sob restrições de normalização \(\text{Var}(U) = \text{Var}(V) = 1\)) a maximizar a covariância \(\mathbf{a}' \mathbf{\Sigma}_{12} \mathbf{b}\).
Solução via SVD. A abordagem moderna e computacionalmente estável utiliza a decomposição em valores singulares (SVD). A ideia central é “branquear” os dados de cada grupo separadamente, para eliminar as dependências internas de cada grupo.
Considere a transformação de variáveis:
\[ \tilde{\mathbf{X}}^{(1)} = \mathbf{\Sigma}_{11}^{-1/2} \mathbf{X}^{(1)}, \quad \tilde{\mathbf{X}}^{(2)} = \mathbf{\Sigma}_{22}^{-1/2} \mathbf{X}^{(2)} \]
Após essa transformação, cada grupo tem matriz de covariância identidade: \(\text{Cov}(\tilde{\mathbf{X}}^{(1)}) = \mathbf{I}_p\) e \(\text{Cov}(\tilde{\mathbf{X}}^{(2)}) = \mathbf{I}_q\). A covariância cruzada entre os grupos transformados é precisamente a matriz de coerência:
\[ \text{Cov}(\tilde{\mathbf{X}}^{(1)}, \tilde{\mathbf{X}}^{(2)}) = \mathbf{K} = \mathbf{\Sigma}_{11}^{-1/2} \mathbf{\Sigma}_{12} \mathbf{\Sigma}_{22}^{-1/2} \]
Agora, buscar as combinações lineares \(U = \mathbf{a}' \mathbf{X}^{(1)}\) e \(V = \mathbf{b}' \mathbf{X}^{(2)}\) com variância unitária que maximizem a covariância é equivalente a buscar vetores unitários \(\tilde{\mathbf{a}}\) e \(\tilde{\mathbf{b}}\) que maximizem \(\tilde{\mathbf{a}}' \mathbf{K} \tilde{\mathbf{b}}\). Este é exatamente o problema que a SVD resolve: a SVD de \(\mathbf{K}\),
\[ \mathbf{K} = \mathbf{U} \mathbf{\Lambda} \mathbf{V}' \]
fornece os vetores singulares à esquerda \(\mathbf{u}_k\) (colunas de \(\mathbf{U}\)) e à direita \(\mathbf{v}_k\) (colunas de \(\mathbf{V}\)) que maximizam sucessivamente \(\mathbf{u}_k' \mathbf{K} \mathbf{v}_k\), sujeitos à ortogonalidade com os pares anteriores. Os valores singulares \(\rho_k^*\) (elementos diagonais de \(\mathbf{\Lambda}\), ordenados \(\rho_1^* \ge \rho_2^* \ge \dots \ge \rho_p^*\)) são as correlações canônicas.
Os vetores de coeficientes canônicos no espaço original são obtidos revertendo a transformação:
\[ \mathbf{a}_k = \mathbf{\Sigma}_{11}^{-1/2} \mathbf{u}_k \quad \text{e} \quad \mathbf{b}_k = \mathbf{\Sigma}_{22}^{-1/2} \mathbf{v}_k \]
Historicamente, Hotelling (1935) derivou a ACC usando multiplicadores de Lagrange. O problema de otimização é:
\[ \max_{\mathbf{a}, \mathbf{b}} \, \mathbf{a}' \mathbf{\Sigma}_{12} \mathbf{b} \quad \text{sujeito a} \quad \mathbf{a}' \mathbf{\Sigma}_{11} \mathbf{a} = 1, \, \mathbf{b}' \mathbf{\Sigma}_{22} \mathbf{b} = 1 \]
O Lagrangiano, com multiplicadores \(\lambda\) e \(\mu\), é:
\[ L(\mathbf{a}, \mathbf{b}, \lambda, \mu) = \mathbf{a}' \mathbf{\Sigma}_{12} \mathbf{b} - \frac{\lambda}{2}(\mathbf{a}' \mathbf{\Sigma}_{11} \mathbf{a} - 1) - \frac{\mu}{2}(\mathbf{b}' \mathbf{\Sigma}_{22} \mathbf{b} - 1) \]
As condições de primeira ordem são obtidas derivando em relação a \(\mathbf{a}\) e \(\mathbf{b}\):
\[ \frac{\partial L}{\partial \mathbf{a}} = \mathbf{\Sigma}_{12} \mathbf{b} - \lambda \mathbf{\Sigma}_{11} \mathbf{a} = \mathbf{0} \quad \Rightarrow \quad \mathbf{\Sigma}_{12} \mathbf{b} = \lambda \mathbf{\Sigma}_{11} \mathbf{a} \]
\[ \frac{\partial L}{\partial \mathbf{b}} = \mathbf{\Sigma}_{21} \mathbf{a} - \mu \mathbf{\Sigma}_{22} \mathbf{b} = \mathbf{0} \quad \Rightarrow \quad \mathbf{\Sigma}_{21} \mathbf{a} = \mu \mathbf{\Sigma}_{22} \mathbf{b} \]
Pode-se mostrar que \(\lambda = \mu = \rho\), onde \(\rho\) é a correlação canônica. Da primeira equação, isolamos \(\mathbf{b} = \frac{1}{\rho} \mathbf{\Sigma}_{22}^{-1} \mathbf{\Sigma}_{21} \mathbf{a}\) e substituímos na segunda:
\[ \mathbf{\Sigma}_{12} \left( \frac{1}{\rho} \mathbf{\Sigma}_{22}^{-1} \mathbf{\Sigma}_{21} \mathbf{a} \right) = \rho \mathbf{\Sigma}_{11} \mathbf{a} \]
Reorganizando, obtemos a equação de autovalores:
\[ \mathbf{\Sigma}_{11}^{-1} \mathbf{\Sigma}_{12} \mathbf{\Sigma}_{22}^{-1} \mathbf{\Sigma}_{21} \mathbf{a} = \rho^2 \mathbf{a} \]
onde \(\rho^2\) é o autovalor associado. A maior raiz \(\rho_1^{*2}\) fornece a primeira correlação canônica \(\rho_1^*\), e os vetores \(\mathbf{a}_1\) e \(\mathbf{b}_1\) definem o primeiro par de variáveis canônicas. Os pares subsequentes são obtidos dos autovalores seguintes.
Esta abordagem é matematicamente equivalente à SVD de \(\mathbf{K}\): os autovalores \(\rho^2\) são exatamente os quadrados dos valores singulares de \(\mathbf{K}\). A formulação via SVD é preferida por sua estabilidade numérica.
Propriedades das Variáveis Canônicas. As variáveis canônicas \((U_1, V_1), \dots, (U_p, V_p)\) satisfazem:
- Variância unitária: \(\text{Var}(U_k) = \text{Var}(V_k) = 1\) para todo \(k\).
- Não correlação intra-grupo: \(\text{Cov}(U_k, U_l) = 0\) e \(\text{Cov}(V_k, V_l) = 0\) para \(k \ne l\).
- Não correlação inter-grupo: \(\text{Cov}(U_k, V_l) = \begin{cases} \rho_k^* & \text{se } k = l \\ 0 & \text{se } k \ne l \end{cases}\)
Essas propriedades garantem que toda a estrutura de correlação complexa entre \(\mathbf{X}^{(1)}\) e \(\mathbf{X}^{(2)}\) foi decomposta em \(p\) pares de correlações simples e independentes, ordenadas por magnitude.
12.2 Interpretação e Visualização
O que são as correlações canônicas? As correlações canônicas \(\rho_1^*, \rho_2^*, \dots, \rho_p^*\) quantificam a força da associação linear entre os dois conjuntos de variáveis ao longo de diferentes dimensões ortogonais. A primeira correlação canônica \(\rho_1^*\) captura a associação linear máxima possível entre qualquer combinação linear dos dois grupos. A segunda \(\rho_2^*\) captura a máxima associação residual, ortogonal à primeira, e assim sucessivamente.
Por exemplo, se \(\rho_1^* = 0.85\), isso significa que existe uma direção no espaço de \(\mathbf{X}^{(1)}\) e outra em \(\mathbf{X}^{(2)}\) ao longo das quais as variáveis canônicas têm correlação de 0.85 - a mais forte possível. Se \(\rho_2^* = 0.12\) é muito pequena, isso indica que, após remover a estrutura explicada pela primeira dimensão, há pouca associação linear residual.
Quantas dimensões usar? Embora haja \(p\) pares de variáveis canônicas, frequentemente apenas os primeiros pares têm correlações canônicas substanciais. Na prática:
- Correlações canônicas pequenas (\(\rho_k^* < 0.3\)) geralmente não são substantivamente relevantes
- Testes de significância sequenciais (seção Inferência) ajudam a determinar quantas são estatisticamente diferentes de zero
- O índice de redundância (abaixo) indica se as dimensões retidas explicam uma fração razoável da variância
12.2.1 Cargas Canônicas
As variáveis canônicas são construções matemáticas sem significado físico direto. Os coeficientes canônicos \(\mathbf{a}_k\) e \(\mathbf{b}_k\) definem as combinações lineares, mas são difíceis de interpretar devido à multicolinearidade e ao branqueamento. A interpretação é feita através das cargas canônicas (canonical loadings), que são as correlações entre as variáveis originais e suas respectivas variáveis canônicas.
A carga canônica da \(j\)-ésima variável do primeiro grupo com a \(k\)-ésima variável canônica \(U_k\) é:
\[ \ell_{j,k}^{(1)} = \text{Corr}(X_j^{(1)}, U_k) = \frac{\text{Cov}(X_j^{(1)}, U_k)}{\sqrt{\text{Var}(X_j^{(1)})}\sqrt{\text{Var}(U_k)}} = \frac{[\mathbf{\Sigma}_{11} \mathbf{a}_k]_j}{\sigma_j \cdot 1} \]
onde \(\sigma_j = \sqrt{\sigma_{jj}}\) é o desvio padrão de \(X_j^{(1)}\), e usamos o fato de que \(\text{Var}(U_k) = 1\). De forma análoga, para o segundo grupo:
\[ \ell_{j,k}^{(2)} = \text{Corr}(X_j^{(2)}, V_k) = \frac{[\mathbf{\Sigma}_{22} \mathbf{b}_k]_j}{\sigma_j^{(2)}} \]
onde \(\sigma_j^{(2)}\) é o desvio padrão de \(X_j^{(2)}\).
Quando trabalhamos com variáveis padronizadas (média 0 e variância 1), temos \(\sigma_j = 1\) para todas as variáveis. Nesse caso, as fórmulas se simplificam para:
\[ \boldsymbol{\ell}_{k}^{(1)} = \mathbf{R}_{11} \mathbf{a}_k, \quad \boldsymbol{\ell}_{k}^{(2)} = \mathbf{R}_{22} \mathbf{b}_k \]
onde \(\mathbf{R}_{11}\) e \(\mathbf{R}_{22}\) são as matrizes de correlação dos grupos. Esta é a forma comumente encontrada na literatura e em softwares estatísticos.
Cargas elevadas (em módulo) indicam que a variável original tem grande influência na definição daquela dimensão canônica. Cargas são preferidas aos coeficientes pois têm escala padronizada (correlações, entre -1 e 1) e são mais estáveis numericamente.
12.2.2 Cargas Cruzadas
Enquanto as cargas canônicas medem a relação entre variáveis e suas próprias variáveis canônicas, as cargas cruzadas (cross-loadings) medem a correlação entre as variáveis de um grupo e a variável canônica do outro grupo. Essa medida é importante porque captura diretamente a associação entre os dois conjuntos de variáveis.
A carga cruzada da \(j\)-ésima variável do primeiro grupo com a \(k\)-ésima variável canônica do segundo grupo \(V_k\) é:
\[ \ell_{j,k}^{(1 \to 2)} = \text{Corr}(X_j^{(1)}, V_k) = \frac{[\mathbf{\Sigma}_{12} \mathbf{b}_k]_j}{\sigma_j} \]
As cargas e cargas cruzadas estão relacionadas pela correlação canônica. Partindo da condição de primeira ordem \(\mathbf{\Sigma}_{12} \mathbf{b}_k = \rho_k^* \mathbf{\Sigma}_{11} \mathbf{a}_k\), dividindo elemento a elemento por \(\sigma_j\):
\[ \ell_{j,k}^{(1 \to 2)} = \rho_k^* \cdot \ell_{j,k}^{(1)} \]
Portanto, a carga cruzada é simplesmente a carga canônica multiplicada pela correlação canônica. Isso tem uma interpretação intuitiva: a associação entre uma variável de um grupo e a variável canônica do outro é “atenuada” pela força da correlação canônica.
As cargas cruzadas oferecem insight direto sobre quais variáveis de um conjunto estão mais fortemente associadas ao outro conjunto. Por exemplo, uma carga cruzada alta de \(X_j^{(1)}\) com \(V_1\) indica que essa variável contribui significativamente para a relação entre os dois grupos.
Exemplo 12.2 Suponha que, para o primeiro par canônico (\(k=1\)) com \(\rho_1^* = 0.80\), obtivemos as seguintes cargas canônicas para três variáveis do grupo 1:
| Variável | Carga Canônica \(\ell^{(1)}\) | Carga Cruzada \(\ell^{(1 \to 2)}\) |
|---|---|---|
| \(X_1\) | 0.90 | \(0.80 \times 0.90 = 0.72\) |
| \(X_2\) | 0.45 | \(0.80 \times 0.45 = 0.36\) |
| \(X_3\) | -0.70 | \(0.80 \times (-0.70) = -0.56\) |
Interpretação:
- \(X_1\) tem forte associação positiva (\(\ell = 0.90\)) com a variável canônica \(U_1\) e, consequentemente, associação moderada-alta (\(\ell_{\text{cruz}} = 0.72\)) com \(V_1\).
- \(X_2\) tem associação fraca com a dimensão canônica.
- \(X_3\) tem associação negativa: valores altos de \(X_3\) estão associados a valores baixos de \(U_1\) (e, por extensão, de \(V_1\)).
Note que as cargas cruzadas são sempre menores em módulo que as cargas canônicas (exceto quando \(\rho^* = 1\)), refletindo a imperfeição da relação entre os grupos.
12.2.3 Índice de Redundância
O índice de redundância quantifica a proporção da variância de um conjunto de variáveis que é explicada pela variável canônica do outro conjunto. Ele é fundamental para avaliar a utilidade prática da ACC, pois uma correlação canônica alta não garante que muita variância seja explicada.
O índice de redundância para o grupo 1, explicado pela \(k\)-ésima dimensão canônica de \(V\), é definido em duas etapas:
1. Variância Extraída: A proporção média da variância de \(\mathbf{X}^{(1)}\) explicada pela própria variável canônica \(U_k\):
\[ \text{VE}_k^{(1)} = \frac{1}{p} \sum_{j=1}^{p} \left(\ell_{j,k}^{(1)}\right)^2 \]
2. Índice de Redundância: A variância extraída é então ponderada pelo quadrado da correlação canônica:
\[ \text{Red}_k^{(1)} = \text{VE}_k^{(1)} \times (\rho_k^*)^2 \]
Equivalentemente, o índice de redundância pode ser calculado diretamente como a média dos quadrados das cargas cruzadas:
\[ \text{Red}_k^{(1)} = \frac{1}{p} \sum_{j=1}^{p} \left(\ell_{j,k}^{(1 \to 2)}\right)^2 \]
Esta equivalência decorre da relação \(\ell^{(1 \to 2)} = \rho^* \cdot \ell^{(1)}\).
Observar o índice de redundância, e não apenas a correlação canônica, é crucial: uma correlação canônica alta (\(\rho^* = 0.9\)) com variância extraída baixa (\(\text{VE} = 0.15\)) resulta em redundância de apenas \(0.15 \times 0.81 = 0.12\), indicando que, apesar da forte correlação entre as variáveis canônicas, \(V_k\) explica pouca variância das variáveis originais de \(\mathbf{X}^{(1)}\).
Visualização. A visualização gráfica das cargas canônicas (através de heliographs, gráficos de barras, ou diagramas de dispersão das variáveis canônicas) facilita a identificação de padrões e a compreensão de quais variáveis originais “carregam” em cada dimensão canônica. Para uma aplicação completa incluindo cálculo, interpretação detalhada e visualização com dados reais, consulte o exemplo prático em Capítulo 20.
12.3 Inferência Estatística
Na prática, as matrizes populacionais \(\mathbf{\Sigma}\) são desconhecidas. Trabalhamos com uma amostra de tamanho \(n\) e utilizamos os estimadores de máxima verossimilhança, substituindo \(\mathbf{\Sigma}\) pela matriz de covariância amostral:
\[ \mathbf{S} = \begin{bmatrix} \mathbf{S}_{11} & \mathbf{S}_{12} \\ \mathbf{S}_{21} & \mathbf{S}_{22} \end{bmatrix} \]
As correlações canônicas amostrais \(\hat{\rho}_k^*\) e os vetores de coeficientes \(\hat{\mathbf{a}}_k, \hat{\mathbf{b}}_k\) são obtidos aplicando a SVD à matriz de coerência amostral \(\hat{\mathbf{K}} = \mathbf{S}_{11}^{-1/2} \mathbf{S}_{12} \mathbf{S}_{22}^{-1/2}\).
É comum realizar a análise utilizando a matriz de correlação \(\mathbf{R}\) em vez da matriz de covariância \(\mathbf{S}\), o que equivale a trabalhar com variáveis padronizadas (média 0, variância 1). As correlações canônicas são invariantes a mudanças de escala, logo são idênticas em ambos os casos. Os coeficientes canônicos terão escalas diferentes.
A distinção entre padronização e branqueamento é importante:
- Padronização (via \(\mathbf{R}\)): Normaliza variâncias marginais para 1, mantendo correlações intra-grupo.
- Branqueamento (via \(\mathbf{S}^{-1/2}\)): Remove totalmente a correlação intra-grupo (covariância vira identidade), permitindo que a SVD foque na associação entre grupos.
Para testar a significância da associação entre os dois conjuntos, testamos a hipótese nula \(H_0: \mathbf{\Sigma}_{12} = \mathbf{0}\) (independência) contra \(H_1: \mathbf{\Sigma}_{12} \ne \mathbf{0}\). Assumindo que os dados provêm de uma distribuição Normal Multivariada, utilizamos o teste de razão de verossimilhança com a estatística Lambda de Wilks:
\[ \Lambda = \prod_{i=1}^{p} (1 - \hat{\rho}_i^{*2}) \]
Para grandes amostras, a estatística de Bartlett segue aproximadamente uma distribuição qui-quadrado:
\[ -\left(n - 1 - \frac{p+q+1}{2}\right) \ln(\Lambda) \sim \chi^2_{pq} \]
Rejeitamos \(H_0\) ao nível \(\alpha\) se a estatística exceder o quantil \(\chi^2_{pq}(\alpha)\). Se \(H_0\) for rejeitada, podemos testar sequencialmente a significância das correlações canônicas remanescentes. Para testar se as correlações restantes após remover as \(k\) primeiras são zero, a estatística é:
\[ \Lambda_k = \prod_{i=k+1}^{\min(p,q)} (1 - \hat{\rho}_i^{*2}) \]
E a aproximação qui-quadrado utiliza \((p-k)(q-k)\) graus de liberdade:
\[ -\left(n - 1 - \frac{p+q+1}{2}\right) \ln(\Lambda_k) \sim \chi^2_{(p-k)(q-k)} \]
12.4 Considerações Práticas
- Tamanho da Amostra: A ACC requer tamanhos de amostra relativamente grandes para produzir resultados estáveis. Uma regra prática sugere pelo menos 10 observações por variável.
- Linearidade: O método assume relações lineares entre os conjuntos de variáveis.
- Outliers: A técnica é sensível a outliers, que devem ser identificados e tratados.
- Multicolinearidade: Alta multicolinearidade dentro de um conjunto de variáveis pode tornar a inversão das matrizes instável.