O teorema de Cayley-Hamilton

Retornamos após um pequeno hiato… Como vimos, dada uma matriz (que até agora só consideramos real) A, quadrada n\times n, seu polinômio característico

p_n(\lambda) = {\rm det} \left( A -\lambda \mathbb{I}\right)

é o ponto de partida da análise de seus autovalores e autovetores. Já sabemos que se trata de um polinômio de grau n em \lambda, e que suas raizes

p_n(\lambda) = c_n\lambda^n + c_{n-1}\lambda^{n-1} + \cdots c_1\lambda + c_0 =0

corresponderão aos autovalores de A. Notem que alguns dos coeficientes c_k podem ser facilmente já determinados. Por exemplo (confiram!):

c_n = (-1)^n\quad       (inspeção direta do determinante)

c_{n-1} =(-1)^{n-1}{\rm trace}A\quad          (regra de Laplace)

c_0 ={\rm det}  A\quad           (vem diretamente de p_n(0))

O teorema de Cayley-Hamilton é equivalente a afirmar que a matriz A é uma raiz do seu polinômio (matricial agora) característico, i.e.,

p_n(A) =c_nA^n + c_{n-1}A^{n-1} + \cdots c_1A + c_0\mathbb{I} =0

Este teorema tem uma longa e curiosa história, o verbete da wikipedia tem boas referências. Antes de passarmos às possíveis provas deste teorema, vamos repassar algumas de suas conseqüência. A primeira, e mais óbvia, é que a n-ésima potência de uma matrix quadrada n\times n pode ser escrita como uma combinação linear de suas potências menores que n. Isto permite muitas simplificações. Por exemplo, o quadrado de qualquer matrix 2\times 2 é uma combinação linear da própria matriz e da identidade. Mais interessante ainda, qualquer potencia de uma matriz 2\times 2 A será uma combinação linear entre A e \mathbb{I}. Vejam um exemplo explícito. Seja a matriz

A=\left(\begin{array}{cc}1&2\\3&4\end{array} \right)

seu polinômio característico é p_2(\lambda) = \lambda^2 - 5\lambda -2 e portanto o teorema de Cayley-Hamilton garante que A satisfaz a equação

A^2 = 5A + 2\mathbb{I}

Suponha que você queira calcular A^{3}. Teremos:

A^{3} = 5A^{2} + 2A = 5\left(5A + 2\mathbb{I}\right) + 2A = 27A + 10\mathbb{I},

e assim poderíamos fazer para qualquer potência m>2 de A. O cálculo dos coeficientes na “expansão” de A^n pode ser consideravelmente simplificado caso A seja diagonalizável, vejam o livro do Hoffman&Kunze.

Outra conseqüência interessante está relacionado com a inversa de A. O teorema de Cayley-Hamilton implica que, para qualquer matriz quadrada A, temos

A\left( c_n A^{n-1} + c_{n-1}A^{n-2}+\cdots+c_1\mathbb{I} \right) = -({\rm det A})\mathbb{I}

de onde temos que, se {\rm det}A\ne 0, a matriz entre parêntesis será -({\rm det A})A^{-1}. Trata-se, portanto, de uma fórmula que nos permite expressar a inversa de qualquer matriz n\times n em função de suas potências menores que n.

O teorema de Cayley-Hamilton não é tão estranho quanto parece. A existência de uma relação entre as potências de uma matriz quadrada pode ser notada já com argumentos muitos simples. Primeiro, considere um vetor v\in \mathbb{R}^n não nulo arbitrário, e defina a seqüência \{ v, Av, A^2v, \dots \}. No máximo, teremos n vetores L.I. nessa seqüência, o que implica que deve haver uma relação do tipo

\left( \alpha_nA^n + \alpha_{n-1}A^{n-1}+\cdots \alpha_1 A + \alpha_0\mathbb{I} \right) v =0

para um dado vetor v. O teorema de Cayley-Hamilton nos mostra que existe tal relação, que será válida para todo vetor v.

Uma outra mostra da plausibilidade do teorema de Cayley-Hamilton eu deixo como exercício: prová-lo para o caso de matrizes A diagonalizáveis.

As provas

Há inúmeras provas do teorema de Cayley-Hamilton por ai, dos mais variados graus de dificuldade. Há provas “combinatórias“, analíticas (polinômios matriciais são contínuos e as matrizes diagonalizáveis em \mathbb{C} são densas) e a minha preferida: a prova usando cálculo no plano complexo (ver também o material aqui.) Todas estas provas envolvem conceitos um pouco mais avançados, talvez fosse mais interessante revisitá-las daqui a alguns anos… 🙂

Apresentarei aqui a prova que me parece mais simples no sentido de que é a que utiliza provavelmente conceitos mais elementares, disponíveis a todos agora. Antes, porém, é obrigatório falar da “prova” errada (“bogus proof“) extremamente popular na internet. A idéia seria fazer a substituição \lambda \to A na definição do polinômio característico, e teríamos

p_n(A) = {\rm det} (A - A\mathbb{I}) = {\rm det}(0)=0

Bem, isso é errado in so many levels que nem sei por onde começar. Notem, primeiro, que p_n(A) deveria seu uma matriz, mas o lado direto da equação acima é um número. Quer dizer, essa identidade não faz sequer sentido. O verbete da wikipedia tem alguma discussão sobre isso.

A prova mais simples utiliza a noção elementar de matriz adjunta, i.e., a matriz transposta dos cofatores de uma dada matriz. O importante é que para qualquer matriz quadrada S, temos a identidade

S {\rm adj}(S) = {\rm det}(S)\mathbb{I},

de onde segue naturalmente a fórmula para a inversa conhecida da quinta série.

Seja M(\lambda) a adjunta da matriz A -\lambda \mathbb{I}, i.e.

\left(A -\lambda \mathbb{I}\right)M(\lambda)  = p_n(\lambda)\mathbb{I}\quad(1)

Antes de continuarmos, notem que M(\lambda) é, efetivamente, uma “função matricial” de  \lambda, i.e., dado um número real \lambdaM(\lambda) nos retorna uma matriz n\times n, i.e.,

\mathbb{R}\stackrel{M}{\longrightarrow} M_{n,n}(\mathbb{R})

da definição de adjunta, temos que M(\lambda) envolverá no máximo potências n-1 de \lambda, e portanto podemos escrever

M(\lambda) = B_{n-1}\lambda^{n-1} +B_{n-2}\lambda^{n-2}+\cdots + B_1\lambda+ B_0

sendo B_k matrizes que não dependem de \lambda. Substituindo-se na expressão (1) acima e colecionado-se os termos de mesma potência em \lambda, tem-se

-B_{n-1}\lambda^n + (AB_{n-1} - B_{n-2})\lambda^{n-1}+\cdots+(AB_1 - B_0)\lambda + AB_0 = p_n(\lambda)\mathbb{I}

igualando-se os termos de mesma potência de \lambda em ambos os lados da igualdade, teremos

-B_{n-1} = c_n\mathbb{I},

AB_{n-1} - B_{n-2}= c_{n-1}\mathbb{I}

\vdots \quad\quad\quad\quad \vdots

\quad AB_1 - B_0 = c_1\mathbb{I},

\quad AB_0 = c_0\mathbb{I}

Agora, multiplicando-se a primeira linha por A^n, a segunda por A^{n-1}, etc, e somando-se todas as equações, teremos do lado direito p_n(A) e do lado esquerdo uma soma telescópica cujo o resultado é zero, estabelecendo o teorema da maneira mais simples que conheço.

Um comentário sobre “O teorema de Cayley-Hamilton

Deixe um comentário