5 Fundamentos Matemáticos: Álgebra Matricial
Com os conceitos estatísticos fundamentais estabelecidos, voltamos nossa atenção para as ferramentas matemáticas necessárias para manipular esses objetos. A linguagem da análise multivariada é a álgebra linear.
Neste capítulo, revisaremos conceitos-chave — formas quadráticas, matrizes positiva-definidas e a decomposição espectral — que são a base para muitas das técnicas que veremos, como a Análise de Componentes Principais (PCA).
5.1 Formas Quadráticas
Uma forma quadrática é uma função polinomial de várias variáveis que contém apenas termos de grau dois. Para um vetor \(\mathbf{x}\) de dimensão \(p \times 1\) e uma matriz simétrica \(\mathbf{A}\) de dimensão \(p \times p\), a forma quadrática é expressa como:
\[ Q(\mathbf{x}) = \mathbf{x}' \mathbf{A} \mathbf{x} = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j \]
Um exemplo fundamental que já encontramos é a distância de Mahalanobis ao quadrado, \((\mathbf{x} - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})\), que aparece no expoente da distribuição normal multivariada. Esta forma quadrática define as elipses de contorno de densidade constante da distribuição.
5.2 Matrizes Positiva-Definidas
O conceito de positividade para um número escalar é estendido para matrizes através das formas quadráticas. Uma matriz simétrica \(\mathbf{A}\) é dita:
- positiva-definida se \(\mathbf{x}' \mathbf{A} \mathbf{x} > 0\) para todos os vetores não-nulos \(\mathbf{x}\).
- positiva-semidefinida se \(\mathbf{x}' \mathbf{A} \mathbf{x} \geq 0\) para todos os vetores não-nulos \(\mathbf{x}\).
Propriedades de uma matriz positiva-definida: - Todos os seus autovalores são estritamente positivos (\(\lambda_i > 0\)). - A matriz é invertível (não-singular). - Seu determinante é positivo.
Matrizes de covariância (\(\boldsymbol{\Sigma}\)) e correlação (\(\mathbf{R}\)) são, por natureza, positiva-semidefinidas. Para que a função de densidade da normal multivariada seja bem definida e a matriz \(\boldsymbol{\Sigma}\) seja invertível, exigimos que ela seja positiva-definida. Isso implica que nenhuma variável no vetor aleatório é uma combinação linear perfeita de outras (ou seja, não há redundância linear total nos dados).
5.3 Decomposição Espectral
A decomposição espectral (ou de autovalores) é uma fatoração de uma matriz simétrica em seus autovalores e autovetores. Ela revela a estrutura fundamental da transformação linear representada pela matriz.
Toda matriz simétrica \(\mathbf{A}\) de dimensão \(p \times p\) pode ser reescrita como:
\[ \mathbf{A} = \mathbf{E}\Lambda\mathbf{E}' \]
Onde:
- \(\lambda_1, \dots, \lambda_p\) são os autovalores de \(\mathbf{A}\).
- \(\mathbf{e}_1, \dots, \mathbf{e}_p\) são os autovetores ortonormais correspondentes.
- \(\Lambda\) é a matriz diagonal com os autovalores \(\lambda_i\) na diagonal.
- \(\mathbf{E}\) é a matriz ortogonal cujas colunas são os autovetores \(\mathbf{e}_i\).
Exemplo 5.1 Vamos decompor a seguinte matriz de covariâncias \(\mathbf{S}\):
\[ \mathbf{S} = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \]
Autovalores: Resolvendo a equação característica \(\det(\mathbf{S} - \lambda\mathbf{I}) = 0\), encontramos \(\lambda_1 = 3\) e \(\lambda_2 = 1\).
Autovetores:
- Para \(\lambda_1 = 3\): O autovetor correspondente é \(\mathbf{e}_1 = \begin{pmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix}\).
- Para \(\lambda_2 = 1\): O autovetor correspondente é \(\mathbf{e}_2 = \begin{pmatrix} 1/\sqrt{2} \\ -1/\sqrt{2} \end{pmatrix}\).
A decomposição é \(\mathbf{S} = \mathbf{E}\Lambda\mathbf{E}'\), com: \[ \mathbf{E} = \begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ 1/\sqrt{2} & -1/\sqrt{2} \end{pmatrix}, \quad \Lambda = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix} \]
Isso nos diz que a maior variância dos dados (igual a 3) está na direção do vetor \((1, 1)\), enquanto a variância na direção ortogonal \((1, -1)\) é menor (igual a 1).
5.4 Decomposição em Valores Singulares (SVD)
Enquanto a decomposição espectral é uma ferramenta poderosa para matrizes simétricas, a Decomposição em Valores Singulares (SVD) a generaliza para qualquer matriz \(\mathbf{A}\) de dimensão \(I \times J\). A SVD é uma das fatorações de matrizes mais importantes da álgebra linear, com aplicações vastas em estatística e aprendizado de máquina, incluindo a Análise de Componentes Principais e a Análise de Correspondência.
A SVD decompõe qualquer matriz \(\mathbf{A}\) na forma:
\[ \mathbf{A} = \mathbf{U} \mathbf{\Lambda} \mathbf{V}' \]
Onde:
- \(\mathbf{U}\) é uma matriz ortogonal \(I \times I\) cujas colunas são chamadas de vetores singulares à esquerda.
- \(\mathbf{V}\) é uma matriz ortogonal \(J \times J\) cujas colunas são chamadas de vetores singulares à direita.
- \(\mathbf{\Lambda}\) é uma matriz retangular \(I \times J\) contendo os valores singulares \(\sigma_k\) em sua diagonal principal, em ordem decrescente (\(\sigma_1 \geq \sigma_2 \geq \dots \geq 0\)). Todos os outros elementos de \(\mathbf{\Lambda}\) são zero.
Os valores singulares são as raízes quadradas dos autovalores não-nulos das matrizes \(\mathbf{A}'\mathbf{A}\) e \(\mathbf{A}\mathbf{A}'\).
5.4.1 Relação com a Decomposição Espectral
Para uma matriz simétrica e positiva-semidefinida \(\mathbf{A}\) (como uma matriz de covariância), a SVD e a decomposição espectral são essencialmente a mesma coisa. Seus valores singulares são seus autovalores, e seus vetores singulares à esquerda e à direita são seus autovetores (\(\mathbf{U} = \mathbf{V} = \mathbf{E}\)).
5.4.2 Importância para Redução de Dimensionalidade
A grande utilidade da SVD vem do fato de que ela fornece a melhor aproximação de baixo posto de uma matriz. O Teorema de Eckart-Young afirma que, se truncarmos a decomposição para usar apenas os \(M\) maiores valores singulares, a matriz resultante \(\mathbf{A}_M\) é a melhor aproximação de posto \(M\) da matriz original \(\mathbf{A}\).
\[ \mathbf{A} \approx \mathbf{A}_M = \mathbf{U}_M \mathbf{\Lambda}_M \mathbf{V}_M' = \sum_{k=1}^M \sigma_k \mathbf{u}_k \mathbf{v}_k' \]
Isso significa que podemos capturar a estrutura mais importante de uma matriz usando um número menor de dimensões.