Exame final

As notas finais, após exame, da turma B já estão disponíveis. As da turma A deverão ser divulgadas em breve. Qualquer dúvida, escrevam o mais rápido possível para o seu professor responsável.

Anúncios

Notas finais – Revistas

As notas finais já revistas estão aqui. Notem que há dois casos na turma B que os estudantes devem entrar em contato comigo (Alberto Saa), por email, o mais rápido possível.

As planilhas não levam em conta os estudantes que farão o Exame como Segunda Chamada, esses casos estão sendo tratados pessoalmente pelos professores responsáveis.

 

Notas finais

As notas finais das Turmas A e B já foram fechadas, confiram aqui os resultados finais. Notem que o exame é obrigatório para todos que ficaram com nota entre 2.5 e 5, e apenas estes poderão fazê-lo. Os resultados APROVADO e REPROVADO na planilha são já definitivos. AMBAS as turmas deverão fazer o exame na próxima terça-feira, 20/12, 8:00, na sala PB18.

O Fidelis estará amanhã, sexta-feira, das 10:00 as 12:00, na sala 324 do IMECC, mostrando as provas da turma B. As provas da Turma A estão com o Prof. Francesco. Qualquer outra dúvida a respeito das notas, escrevam um email o mais rápido possível para o professor responsável da sua turma.

Lei de inércia de Sylvester e a Relatividade

Na última aula, motivados ainda pela questão do operador em dimensão discutido neste post, falamos da Lei de Inércia de Sylvester e sua importância na Teoria da Relatividade.

Relembrando, a questão dizia respeito às chamadas formas quadráticas, expressões do tipo

\displaystyle \langle X,AY\rangle  = X^tAY,\quad\quad (1)

sendo X,Y\in \mathbb{R}^nA uma matriz n\times n real simétrica. Vimos também que o problema da classificação das cônicas e das quádricas envolvia essencialmente a diagonalização da matriz A, a qual sendo real e simétrica, sempre será diagonalizável e, portanto, existirá sempre uma matriz ortogonal S (a matriz dos autovetores ortonormais) tal que

A = SD S^t\quad\quad (2)

sendo  D a matriz diagonal dos autovalores de A.

Voltemos à forma quadrática (1). Sua expressão, obviamente, depende da base escolhida para representar os vetores X,Y\in \mathbb{R}^n. Numa outra base, os mesmos vetores terão componentes X',Y'\in \mathbb{R}^n, e sabemos que estas representações são relacionadas por uma matriz de mudança de base

 \displaystyle X = PX'

que na prática pode ser qualquer matriz  n\times n invertível. Nessa nova base, a forma quadrática será expressa por X^tAY = X'^t A' Y' , sendo

\displaystyle A' = P^tAP 

Duas matrizes AA' que satisfazem uma relação dessas para uma matriz P invertível são ditas congruentes. Obviamente, se nos restringirmos a P ortogonais, as matrizes serão semelhantes, um problema que já conhecemos. Temos agora duas questões intimamente relacionadas:

  1. Podemos fazer uma mudança de base (i.e., escolher uma matriz invertível P) para a qual a matriz A' é a mais “simples” possível?
  2. Dadas duas matrizes AB reais e simétricas, quando elas serão congruentes?

A resposta para primeira pergunta é sim, como vemos do seguinte resultado:

Teorema. Toda matriz real simétrica A é congruente a uma matriz diagonal com entradas “1”, “-1” ou “0”.

A prova deste teorema decorre diretamente do teorema espectral. Sendo  A uma matriz simétrica, existe uma matriz ortonormal  S tal que (veja (2)):

S^tAS = \left( \begin{array}{cccc}  \lambda_1 & 0 & \cdots & 0\\  0 & \lambda_2 & \cdots & 0\\  \vdots & \vdots & \ddots & 0 \\  0 & 0 &  0 & \lambda_n  \end{array}\right) 

Considerem agora uma matriz diagonal G={\rm Diag}(g_1,g_2,\dots\,g_n). Teremos:

G^tS^tASG = \left( \begin{array}{cccc}  g_1^2\lambda_1 & 0 & \cdots & 0\\  0 &g_2^2 \lambda_2& \cdots & 0\\  \vdots & \vdots & \ddots & 0 \\  0 & 0 &  0 &g_n^2\lambda_n  \end{array}\right) 

Escolhendo as entradas de G como

 \displaystyle g_k = \left\{ \begin{array}{ll}  1/{\sqrt{|\lambda_k|}}, & {\rm se\ }\lambda_k \ne 0\\  1, &{\rm se\ }\lambda_k = 0  \end{array}\right.\quad\quad (3)

teremos que G^tS^tASG será uma matriz diagonal, cujas entradas serão 1, se o autovalor correspondente for positivo, -1, se for negativo, e 0 se o autovalor for zero. Além disso, como G  dada por (3) é invertível, podemos tomar P=SG, e teremos o teorema. Dá-se o nome de assinatura (ou inércia) da matriz, à trinca (k,\ell, m), sendo, respectivamente, o número de autovalores positivos, negativos e nulos. Obviamente, k+\ell+m=n.

Considerando-se que a congruência de matrizes é uma relação transitiva, i.e., se A é congruente a B e esta por sua vez é congruente a C, então A será congruente a C (mostre!), a resposta para a questão 2 já está dada. Duas matrizes simétricas serão congruentes se e somente se tiverem a mesma assinatura. (Mostre! E não se esqueçam de considerar as permutações pertinentes.) Esta é a chamada lei de inércia de Sylvester. Vejam mais sobre a esse termo “lei de inércia” aqui.

Para apreciarmos o papel deste resultado na Relatividade, temos que destacar que há uma forma quadrática relativística fundamental, é a que define o conceito de intervalo no espaço-tempo. Esta forma tem assinatura (3,1,0) (nesta convenção de sinais). A existência de um autovalor de sinal diferente dos outros três é o que define quem é a “coordenada temporal”: é a direção associada a esse autovalor, enquanto os três outros de mesmo sinal dão origem às “coordenadas espaciais”. A lei de inércia de Sylvester nos diz que, não importa que coordenadas você use, mesmo que você misture coordenadas espaciais e temporais, sempre haverá num dado ponto do espaço-tempo uma única direção associada ao tempo (e três ao espaço). Este resultado é importante para a construção geométrica na noção de espaço-tempo. Aos interessados, este livro tem uma discussão elementar sobre o assunto, provavelmente vocês já tem condições de compreender alguns pontos.

 

Normas de matrizes

Relembrando, uma norma num espaço vetorial  V sobre um corpo K\subseteq\mathbb{C}  é uma função que associa a cada vetor v\in V um número real  \rho(v) com as seguintes propriedades:

  • Homogeneidade
    \rho(\alpha v) = |\alpha |\rho(v), para todo \alpha\in K e v\in V.
  • Desigualdade triangular
    \rho(v+w) \le \rho(v) + \rho(w),  para todos v,w\in V.
  • Positividade
    \rho(v)\ge 0, sendo a igualdade verificada apenas para \rho = 0.

Vimos, com alguns detalhes, que estes axiomas capturam essencialmente tudo que esperamos de uma “boa” noção de tamanho para um vetor. Vimos também que, em \mathbb{R}^n, existe uma família inteira de normas, as chamadas normas-p:

 \displaystyle  ||v||_p = \left( \sum_{k=1}^n |v_k|^p\right)^{\frac{1}{p}}, para  v=(v_1,v_2,\dots,v_n)^t\in\mathbb{R}^n.

Para p=2, em particular, temos a norma usual euclidiana. As outras duas normas notáveis eram a p=1 (norma do Uber) e p\to\infty (norma do máximo). A desigualdade triangular para o caso euclidiano decorria diretamente da desigualdade de Schwarz. No caso da norma p, ela decorre de uma outra desigualdade ainda mais famosa, a de Hölder. A desigualdade triangular no contexto da norma p recebe o nome de desigualdade de Minkowski, há muito material online sobre isso, vocês não terão dificuldade em encontrar.

Ora, já sabemos que matrizes (que vamos supor reais daqui em diante, não há perda de conteúdo) formam um espaço vetorial, com as operações de soma e multiplicação por escalar usuais. Sabemos também que o espaço das matrizes n\times m é isomorfo a \mathbb{R}^{nm}. Com isso, podemos já introduzir uma noção viável de norma para uma matriz A

\displaystyle \rho_p(A) = ||T(A)||_p

sendo T:M_{n,m}(\mathbb{R})\to\mathbb{R}^{nm} o isomorfismos “canônico” que discutimos em aula. Para cada valor de p, teremos uma norma perfeitamente definida para a matriz A. Algumas dessas normas tem nome:

  • Norma de Frobenius: p=2
    \displaystyle\rho_2(A) = \sqrt{\sum_{i=1}^n\sum_{k=1}^n a_{ij}^2}
  • Norma do máximo: p\to\infty
    \displaystyle\rho_\infty(A) = \max_{i,j=1..n}|a_{ij}|
  • Norma p=1 (de Manhattan, do taxi, do Uber)
    \displaystyle\rho_1(A) = \sum_{i=1}^n\sum_{k=1}^n |a_{ij}|

Do ponto de vista formal, o espaço das matrizes munidos de qualquer uma das normas acima, por exemplo, será um espaço vetorial normado. No caso p=2, inclusive, a norma vem de um produto interno (chamado de Frobenius). Porém, na prática, estas normas baseadas nas entradas da matriz não são as mais úteis.

Norma induzida para transformações lineares

Vimos que o espaço das transformações lineares entre dois espaços vetoriais é ele próprio um espaço vetorial. Mais ainda, em dimensão finita, sempre teremos uma matriz associada a uma transformação linear. Uma matriz A, que vamos supor quadrada n\times n, pode ser vista como uma transformação linear A:\mathbb{R}^n\to\mathbb{R}^n. Supondo que o \mathbb{R}^n seja munido de uma norma ||\cdot||_p, define-se como sendo a norma p induzida para a matriz A o número real

\displaystyle ||A||_p = \max_{||v||_p=1} ||Av||_p\quad\quad(1)

quer dizer, é o máximo de ||Av||_p , calculado sobre todos os v\in\mathbb{R}^n unitários, segundo a norma p. Trata-se, efetivamente, de uma norma, i.e., as três propriedades acima também acabam “induzidas” para ||A||_p , confiram. A norma induzida tem duas outras propriedades, de prova simples (façam!):

  • \displaystyle ||Ax||_p \le ||A||_p||x||_p , para todo x\in\mathbb{R}^n, e
  • \displaystyle ||AB||_p \le ||A||_p||B||_p , sendo A,B matrizes, e AB sua multiplicação usual.

Esta última propriedade, conhecida como submultiplicatividade,  nos mostra que as matrizes munidas de uma norma induzida são mais do que um espaço vetorial, são o que se chama uma álgebra de Banach.

Vamos analisar com cuidado nossos três casos preferidos, p=1,2,\infty . Comecemos com a última, a norma induzida do máximo. Pela definição da norma p\to\infty  teremos:

\displaystyle ||Av||_\infty = \max_{i=1..n} \left| \sum_{j=1}^n a_{ij}v_j\right|\le\max_{i=1..n}\sum_{j=1}^n|a_{ij}||v_j|   \le ||v||_\infty\max_{i=1..n}\sum_{j=1}^n|a_{ij}|

Levando-se em (1), teremos

\displaystyle ||A||_\infty  \le \max_{i=1..n}\sum_{j=1}^n|a_{ij}|

Assim, temos um limite superior para a norma: o máximo das somas dos valores absolutos das linhas da matriz A .  É fácil mostrar que existe um v  unitário, de acordo com a norma p\to\infty , para o qual teremos a igualdade. Seja \ell  a linha da matriz com o máximo das somas dos valores absolutos de suas entradas. Construa o vetor v  atribuindo 1,-1,0 à sua componente k  caso, respectivamente a_{\ell k} for positivo, negativo ou zero. Com isso, e pela definição (1), teremos finalmente:

\displaystyle ||A||_\infty  = \max_{i=1..n}\sum_{j=1}^n|a_{ij}|.

O caso da norma p=1  é semelhante. Da definição, temos

\displaystyle ||Av||_1 = \sum_{i=1}^n \left| \sum_{j=1}^n a_{ij}v_j\right|\le\sum_{i=1}^n \sum_{j=1}^n|a_{ij}||v_j|   \le ||v||_1\max_{j=1..n}\sum_{i=1}^n|a_{ij}|

Levando-se em (1), teremos, como no caso anterior, um limite superior para a norma: o máximo das somas dos valores absolutos das colunas da matriz A . É fácil (façam!) encontrar um vetor v  unitário, de acordo com a norma p=1 , para o qual teremos a igualdade, exatamente como no caso anterior, o que nos dá finalmente:

\displaystyle ||A||_1 = \max_{j=1..n}\sum_{i=1}^n|a_{ij}|.

O caso p=2 é o mais interessante neste contexto. Temos

\displaystyle ||Av||_2 = \sqrt{ \sum_{i=1}^n \left( \sum_{j=1}^n a_{ij}v_j\right)^2}

e é muito mais complicado tentarmos repetir as análises anteriores. Pode-se mostrar, por exemplo, que ||A||_2\le\rho_2(A) , e uma outra série de desigualdades. Há algo mais interessante pra descobrirmos se lembrarmos que para p=2 temos um produto interno disponível.  Notem que

\displaystyle ||Av||_2^2 = \langle Av,Av\rangle =  \langle v,A^tAv\rangle 

Porém, A^tA  é uma matriz simétrica e, portanto, diagonalizável! Mais que isso, pela expressão acima, seus autovalores serão todos não-negativos! Levando-se a expressão acima na definição (1), teremos:

\displaystyle ||A||_2 = \max_{||v||_p=1} \sqrt{\langle v,A^tAv\rangle} = \sqrt{\lambda_{\rm max}(A^tA)}  ,

sendo \lambda_{max}(A^tA) o maior autovalor da matriz A^tA . (Dica para mostrar este resultado: escreva v  na base ortonormal dos autovetores de A^tA  e use seus conhecimentos da disciplina preferida da turma 🙂 ).

O teorema espectral em dimensão infinita

Talvez o mais importante ponto do teorema espectral para matrizes reais simétricas n\times n seja o fato de que seus autovetores sempre geram uma base ortonormal para \mathbb{R}^n. O nome “espectral” sugere também que deve haver alguma relação com certas freqüências, e há. Nos problemas clássicos de vibrações mecânicas, as “freqüências naturais” são autovalores de uma certa matriz simétrica, e estão associadas aos “modos de vibração”, que são os respectivos autovetores. Vocês verão isso em Mecânica Geral, espero. Obviamente, a aplicação “mais famosa” do teorema espectral é na mecânica quântica, especificamente para o caso do operador linear hermitiano conhecido como Hamiltoniana, cujos autovalores estão relacionados aos possíveis níveis de energia admitidos pelo sistema. Ocorre que, quase sempre, os espaços vetoriais pertinentes na Mecânica Quântica são de dimensão infinita. Uma das primeiras questões que sempre surgem são: quais resultados de Álgebra Linear continuam válidos em dimensão infinita? Bem, essa é uma longa história que pautou todo o desenvolvimento no século XX da (riquíssima) área chamada Análise Funcional.

Por ora, vamos mostrar que o nosso teorema espectral em geral não vale em dimensão infinita, e faremos isso exibindo um contra exemplo explícito! Vamos considerar o espaço p(x) dos polinômios de grau arbitrário e coeficientes reais em x\in [-1,1], munido do produto interno

\displaystyle \langle f,g\rangle  = \int_{-1}^1 fg \, dx,

para todos polinômios f,g\in p(x). O espaço p(x) tem dimensão infinita, pois dado um conjunto LI de vetores, é sempre possível adicionar um novo vetor (um polinômio de grau mais alto) e mantê-los todos LI.  Considere agora a transformação linear T:p(x)\to p(x) dada por

T(f) = xf,

para todo f\in p(x).  É evidente que T é linear e simétrica:

\langle T(f),g\rangle  =\langle f,T(g)\rangle

para todos polinômios f,g\in p(x). No entanto, é fácil ver que a transformação T não possui nenhum autovalor. Caso existisse, teríamos obviamente xf=\lambda f, porém isto é impossível, pois os dois lados da igualdade são polinômios em x com graus distintos. Em dimensão infinita, nem todas transformações lineares simétricas terão autovalores reais e, portanto, nem todas terão autovetores que permitam sua diagonalização.  Isto tem implicações importantes, por exemplo, na identificação na Mecânica Quântica das transformações que podem estar associadas a observáveis físicos. Mas isto é uma outra história.

Este operador “multiplicação por x” atuando sobre polinômios também nos dá um exemplo de um fato que sempre causa confusão. Vamos calcular a representação matricial (infinita) deste operador. Para isso, como sempre, temos que escolher uma base para p(x). Escolhamos a base mais simples, a que sempre adotamos quando temos polinômios: \{1,x,x^2,x^3,\dots\}. Se f nessa base é dada pelas componentes (\alpha_1,\alpha_2,\alpha_3,\dots), T(f) será (0,\alpha_1,\alpha_2,\alpha_3,\dots), quer dizer, todos são deslocados uma posição à direita, e por isso este operador se chama também shift (à direita). Matricialmente, temos

T(f) = \left(\begin{array}{cccc} 0  & 0 & 0 & \cdots \\ 1 & 0 &  0 & \cdots \\ 0& 1 & 0 & \cdots \\ \vdots &  \vdots &  \vdots &   \ddots \end{array}\right)\left(\begin{array}{c} \alpha_1 \\ \alpha_2 \\ \alpha_3 \\ \vdots \end{array}\right)

A matriz não é simétrica! Como é possível?!?! Ora, isso se deve ao fato de que a base \{1,x,x^2,x^3,\dots\} não é ortonormal em relação ao nosso produto interno! Isso, obviamente, também ocorre em dimensão finita. Uma matriz A simétrica, após uma mudança de base arbitrária, terá a forma S^{-1}AS, e esse produto só será simétrico se S^{-1}=S^t, quer dizer, a nova base deve ser também ortonormal. Para termos uma representação simétrica para T(f), devemos introduzir uma base ortonormal em relação ao nosso produto interno para p(x). Um senhor chamado Adrien-Marie Legendre já resolveu esse problema para vocês 200 anos atras. Notem que esta base, os polinômios (normalizados) de Legendre, pode ser obtida a partir da base  \{1,x,x^2,x^3,\dots\} pelo procedimento de Gram-Schmidt. O importante é que nesta nova base a transformação T(f) terá uma representação matricial (infinita) simétrica

T(f) = \left(\begin{array}{cccc} 0  & a_1 & 0 & \cdots \\ a_1 & 0 &  a_2 & \cdots \\ 0& a_2 & 0 & \cdots \\ \vdots &  \vdots &  \vdots &   \ddots \end{array}\right)\left(\begin{array}{c} \beta_1 \\ \beta_2 \\ \beta_3 \\ \vdots \end{array}\right)

O cálculo destes coeficientes a_1,a_2,\dots requer algumas propriedades dos polinômios de Legendre, e ainda não é o momento certo para estas discussões…. Notem que, da estrutura dessa matriz infinita, fica claro que um polinômio de grau n será sempre levado num de grau n+1, de onde temos que essa matriz infinita não possui nenhum autovalor/autovetor.

O teorema espectral para matrizes reais simétricas

Como vimos, as matrizes reais simétricas têm um papel muito importante no estudo da diagonalização de matrizes. Em particular, temos o famoso teorema espectral:


Teorema: Para toda matriz A\in M_{n,n}(\mathbb{R})  simétrica (A=A^t), existe uma matriz S ortogonal (S^tS = {\mathbb{I}}) tal que:

S^tAS = {\rm diag}(\lambda_1,\lambda_2,\dots,\lambda_n)


Em outras palavras, toda matriz real simétrica é diagonalizável. Caso seus autovalores \lambda_1,\lambda_2,\dots,\lambda_n sejam todos diferentes,  os autovetores associados \{v_k\} serão ortogonais, i.e.,   \langle v_i,v_j \rangle = 0 se {i\ne j}, e a matriz S será neste caso a justaposição dos n autovetores \{v_k\} (normalizados, para garantir que S seja ortogonal, e na mesma ordem dos autovalores). O caso no qual há autovalores repetidos pode ser encontrado na bibliografia.

A prova usual do teorema espectral utiliza este lema, que de fato é o foco deste post:


Lema: Toda matriz A\in M_{n,n}(\mathbb{R})  simétrica possui pelo menos um autovalor real.


Bem, um corolário imediato do teorema espectral é que TODOS os autovalores de uma matriz real simétrica são reais, no sentido de que as somas das multiplicidades algébricas é n (não há raízes complexas para o polinômio característico), assim como também a soma das multiplicidades geométricas (é sempre possível, de fato, escolher n autovetores LI). Porém, para provar o teorema espectral, este lema mais simples é suficiente.

Relembrando a prova feita em sala: supondo-se o lema válido, seja (\lambda_1,v_1) um par autovalor-autovetor da matriz A, com ||v_1||=1. Vamos construir (usando Gram-Schmidt por exemplo), uma base ortonormal \{v_k\} para \mathbb{R}^n tal que um dos elementos seja v_1. Seja S = (v_1|v_2|\cdots|v_n). É fácil ver, da multiplicação matricial, que

S^tAS = \left(\begin{array}{c|ccc} \lambda_1& 0 &\cdots & 0 \\ \hline 0 & \cdots & \cdots & \cdots \\ \vdots & \cdots & A' & \cdots \\ 0 & \cdots & \cdots & \cdots \end{array}\right)

sendo A' uma matriz (n-1)\times (n-1) também simétrica.  Assim, podemos considerar A':\mathbb{R}^{n-1}\times\mathbb{R}^{n-1}\to\mathbb{R}^{n-1}\times\mathbb{R}^{n-1} e repetir o mesmo procedimento, até terminarmos com um número real. Feito isso, teremos diagonalizado completamente a matriz. (Confiram que, a cada passo, a matriz ortogonal S que diagonaliza a matriz A remanescente “ignora” a direção do autovetor do passo anterior).

A prova usual do Lema consiste em considerar matrizes complexas. (Novamente, lembre-se do dito de Painleve “Entre deux vérités du domaine réel, le chemin le plus facile et le plus court passe bien souvent par le domaine complexe”.  🙂 ) Supondo-se a matriz complexa, o polinômio característico será também complexo. O teorema fundamental da álgebra nos garante que qualquer polinômio de grau maior que zero (não constante) sobre \mathbb{C} tem pelo menos uma raiz. Explorando-se as propriedades do produto interno, é fácil ver que se a matriz for hermitiana (\bar{A} = A^t), esta raiz deve ser real. Toda matriz real simétrica é hermitiana, e temos a prova do lema.

Nossa intenção aqui é apresentar uma outra prova que não envolve números complexos, e com a qual aprenderemos umas cositas a mais… Essencialmente, provaremos o seguinte teorema:


Teorema: Toda matriz A\in M_{n,n}(\mathbb{R}) simétrica possui um autovalor \lambda real tal que

|\lambda| = {\rm Max} (||Ax||), x\in\mathbb{R}^n {\rm\ com\ }||x||=1.


Notem, primeiro, que este teorema implica o lema acima. Alem disso, segundo nosso “espirito construtivista”, este teorema é “superior”, pois nos ensina como calcular um dos autovalores reais de A. Além disso, é uma ótima oportunidade de relacionar Álgebra Linear a disciplina preferida da turma: Cálculo II 🙂 !

Ora, a quantidade fundamental neste teorema é \rho  ={\rm Max} (||Ax||), sendo este máximo calculado sobre todos os vetores x\in\mathbb{R}^n unitários.  De fato, este \rho é uma norma (induzida) para a matriz A, neste caso a norma p=2 de matrizes. Talvez dedique um post a estes pontos mais adiante. O importante aqui é percebermos que este máximo existe e é atingido, pois é o máximo de uma função suave nas componentes de x, sujeito ao vínculo (do tipo dos multiplicadores de Lagrange) ||x||=1. Seja v o vetor unitário para o qual o máximo é atingido, i.e. ||Av||=\rho. Temos

Av = \rho w\quad(1),

sendo w um vetor unitário. Se \rho = 0, então já temos um autovalor \lambda = 0 (este caso corresponde à matriz trivial repleta de zeros). Vamos supor então \rho\ne 0. Tomando-se o produto escalar com w em ambos os lados, temos \langle Av,w\rangle = \rho. Porém, para matrizes A simétricas, teremos também que

\langle Av,w\rangle = \rho = \langle v,Aw\rangle

Aplicando-se a desigualdade de Schwarz ao último produto interno, temos

|\langle v,Aw\rangle| \le ||v|| ||Aw|| \le \rho

onde usamos que v é unitário e a definição de \rho. Ora, isto significa  que a desigualdade de Schwarz é neste caso uma igualdade, o que implica que v e Aw são efetivamente colineares:

Aw = \rho v\quad(2)

Considere agora o vetor u = v+w. Se u for não nulo, somando-se (1) e (2) teremos

Au = \rho u

o que mostra que \rho é autovalor de A. O caso u=0 corresponde, obviamente, a v=-w, o que implica de (1) ou (2) que A possui um autovalor \lambda = -\rho, o que prova o nosso teorema.