Sobre determinantes

Matrizes e determinantes são material do segundo grau (quinta série), mas obviamente não é possível explorar suas principais sutilezas sem alguns conceitos mais elaborados. O determinante é uma função que associa um número real {\rm det} (A) a uma dada matriz quadrada A (como sempre foi até agora, supondo-a com entradas reais)

M_{n,n}(\mathbb{R})\stackrel{\rm det}{\longrightarrow} \mathbb{R}

Sabemos que o determinante é definido por uma fórmula, e que dela decorre uma série de propriedades. Do ponto de vista formal, isto é tudo que precisamos saber para poder trabalhar com determinantes. Porém, por vários motivos, esta não me parece a melhor maneira de introduzir nenhum conceito matemático (ou físico). É muito mais interessante construir o objeto em questão a partir de alguma intuição. Definições são fáceis de serem esquecidas. Já uma intuição adquirida, costuma ser muito mais perene…

Vamos encarar a matriz quadrada A como uma coleção ordenada de n vetores v_i\in \mathbb{R}^n, A = (v_1,v_2,\dots,v_n). O escalar {\rm det}(A), então, pode ser visto como uma função sobre este conjunto ordenados de vetores, i.e., {\rm det}(v_1,v_2,\dots,v_n). Queremos que o determinante funcione como uma espécie de “detector” de dependência linear desses vetores. Vamos exigir que a função {\rm det}(v_1,v_2,\dots,v_n) satisfaça as seguintes propriedades:

  1. Linearidade em todas as entradas:
    {\rm det}(v_1,v_2,\dots,\alpha v_k+v'_k,\dots v_n)=\alpha{\rm det}(v_1,v_2,\dots,v_k,\dots v_n)+{\rm det}(v_1,v_2,\dots,v'_k,\dots v_n)
    para todo k.
  2. {\rm det}(v_1,v_2,\dots,v_n)=0 se os vetores forem L.D.
  3. {\rm det}(e_1,e_2,\dots,e_n)=1, sendo e_k a k-ésima coluna da identidade (base canônica).
  4. Anti-simetria: o determinante deve mudar de sinal se permutarmos dois vetores quaisquer
    {\rm det}(v_1,v_2,\dots, v_k,\dots ,v_\ell,\dots v_n)=-{\rm det}(v_1,v_2,\dots, v_\ell, \dots,v_k,\dots v_n)
    para todos k\ne \ell.

As três primeiras propriedades são as que esperaríamos de uma noção de “volume” em \mathbb{R}^n. A quarta propriedade diz respeito a “orientação” dos vetores (v_1,v_2,\dots,v_n), i.e., podem estar orientados de maneria positiva ou negativa, de acordo com o sinal de {\rm det}(v_1,v_2,\dots,v_n). (Lembrem-se do produto misto).

Por simplicidade das fórmulas, consideremos por ora o caso 3\times 3. A matriz em questão será

\left(\begin{array}{ccc} a_{11}& a_{12}&a_{13} \\a_{21}& a_{22}&a_{23} \\a_{31}& a_{32}&a_{33} \end{array} \right) = \left( a_{11}e_1 + a_{21}e_2 +a_{31}e_3 ,a_{12}e_1 + a_{22}e_2 +a_{32}e_3 ,a_{13}e_1 + a_{23}e_2 +a_{33}e_3 \right)

Usando-se as 3 primeiras propriedades acima, vemos que {\rm det}(A) se reduz a alguns “determinantes elementares”:

\varepsilon_{ijk} =  {\rm det}(e_i,e_j,e_k)

que podem ser facilmente calculados das propriedades 2, 3 e 4, e serão 0, 1 ou -1. O determinante será

{\rm det}(A) = \sum_{ijk}a_{i1}a_{j2}a_{k3}\varepsilon_{ijk}

que é a fórmula de Leibniz para o determinante, neste caso em dimensão 3. Para n arbitrário, a extensão é simples: uma soma de produtos envolvendo sempre uma componente de cada vetor (coluna) de A, multiplicado pela quantidade correspondente \varepsilon_{ijk...}, a qual tem o nome de símbolo de Levi-Civita, e podemos facilmente calculá-la a partir das propriedades 2, 3 e 4 em qualquer dimensão n

\varepsilon_{ijk...} =\left\{\begin{array}{cl} 0, & {\rm se\ houver\ indices\ repetidos}  \\ (-1)^p& {\rm\ c.c.,\ sendo\ } p {\rm\ o\ numero\ de\ permutacoes\ de\ }ijk...{\rm\ em\ relacao\ a\ }12...n\end{array}\right.

A fórmula de Leibniz implica na de Laplace. Considerem, por exemplo, o caso 4\times 4

{\rm det}(A) = \sum_{ijk\ell}a_{i1}a_{j2}a_{k3}a_{\ell 4}\varepsilon_{ijk\ell}

Suponha agora uma “expansão” ao longo da segunda linha de A

{\rm det}(A) = a_{21}c_{21} +a_{22}c_{22} + a_{23}c_{23} + a_{24}c_{24}

Os cofatores c_{ij} podem ser lidos diretamente da fórmula de Leibniz:

c_{21} =\sum_{jk\ell}a_{j2}a_{k3}a_{\ell 4}\varepsilon_{2jk\ell}

c_{22} =\sum_{ik\ell}a_{i1}a_{k3}a_{\ell 4}\varepsilon_{i2k\ell}

c_{23} =\sum_{ij\ell}a_{i1}a_{j2}a_{\ell 4}\varepsilon_{ik2\ell}

c_{24} =\sum_{ijk}a_{i1}a_{j2}a_{k3}\varepsilon_{ijk 2}

Fica como exercício mostrar que temos a fórmula usual dos cofatores:

c_{ij} = (-1)^{i+j}{\rm det}(M_{ij})

sendo M_{ij} a matriz menor 3\times 3 de A obtida eliminando-se a linha i e a coluna j. O caso de n arbitrário é análogo.

Pode-se também mostrar diretamente da fórmula de Leibniz (ou da expansão de Laplace) as duas outras propriedades elementares do determinante: {\rm det}(A)  = {\rm det}(A^t) e {\rm det}(AB) = {\rm det}(A){\rm det}(B). As provas são diretas, há muito material com isso por ai. Vamos aqui focar em dois outros tópicos.

A matriz adjunta e a fórmula da inversa

Seja C a matriz dos cofatores de uma matriz A. Seja v_k\in\mathbb{R}^n o vetor tal que v^t_k seja a k-ésima linha de C. Considere agora o vetor Av_k. O que sabemos sobre ele? Uma coisa é fácil: sua k-ésima linha será {\rm det}(A), pois o produto correspondente será exatamente a expansão de Laplace para o determinante de A, confiram! E sobre as outras linhas, podemos afirmar algo?

Sim, claro que podemos. Considere a linha \ell. Pela definição de produto Av_k, essa entrada no vetor v_k será

{\rm linha}_\ell(Av_k)=\sum_j a_{\ell j}c_{kj}

O lado direito dessa equação pode sempre ser interpretado como uma expansão de Laplace. Para \ell=k, já sabemos que se trata da expansão do determinante de A ao longo da k-ésima linha. E  para o caso \ell\ne k? Ora será a expansão do determinante de uma matriz A para a qual as linhas k e \ell são iguais. Esta matriz não será posto-completo e, portanto, seu determinante será zero. Teremos finalmente

{\rm linha}_\ell(Av_k)=\sum_j a_{\ell j}c_{kj} = {\rm det}(A)\delta_{k\ell},

ou ainda

AC^t ={\rm det}(A) \mathbb{I}

que é a relação fundamental que nos permite escrever a fórmula da inversa de A.

A fórmula de Cramer para sistemas lineares

Este é outro tópico do segundo grau cujo conteúdo é um tanto difícil de ser apreciado sem as noções de álgebra linear. Vamos novamente considerar uma matriz A, cujas colunas são n vetores v_k\in\mathbb{R}^n. O sistema linear AX=B pode sempre ser visto como um problema de expansão de vetores:

AX = x_1v_1+x_2v_2+\cdots + x_nv_n = B

sendo x_k a k-ésima linha do vetor X (as incógnitas).  Considere agora o seguinte determinante {\rm det}(v_1,v_2,\dots,B,\dots,v_n), i.e., o determinante da matriz obtida a partir de A trocando-se sua k-ésima coluna pelo vetor B. Será, obviamente, um número real. Por outro lado, da expressão do sistema linear e das propriedades elementares do determinantes, temos que

{\rm det}(v_1,v_2,\dots,B,\dots,v_n) = x_k{\rm det}(A) ,

de onde segue a regra de Cramer conhecida.

Anúncios

O teorema de Cayley-Hamilton

Retornamos após um pequeno hiato… Como vimos, dada uma matriz (que até agora só consideramos real) A, quadrada n\times n, seu polinômio característico

p_n(\lambda) = {\rm det} \left( A -\lambda \mathbb{I}\right)

é o ponto de partida da análise de seus autovalores e autovetores. Já sabemos que se trata de um polinômio de grau n em \lambda, e que suas raizes

p_n(\lambda) = c_n\lambda^n + c_{n-1}\lambda^{n-1} + \cdots c_1\lambda + c_0 =0

corresponderão aos autovalores de A. Notem que alguns dos coeficientes c_k podem ser facilmente já determinados. Por exemplo (confiram!):

c_n = (-1)^n\quad       (inspeção direta do determinante)

c_{n-1} =(-1)^{n-1}{\rm trace}A\quad          (regra de Laplace)

c_0 ={\rm det}  A\quad           (vem diretamente de p_n(0))

O teorema de Cayley-Hamilton é equivalente a afirmar que a matriz A é uma raiz do seu polinômio (matricial agora) característico, i.e.,

p_n(A) =c_nA^n + c_{n-1}A^{n-1} + \cdots c_1A + c_0\mathbb{I} =0

Este teorema tem uma longa e curiosa história, o verbete da wikipedia tem boas referências. Antes de passarmos às possíveis provas deste teorema, vamos repassar algumas de suas conseqüência. A primeira, e mais óbvia, é que a n-ésima potência de uma matrix quadrada n\times n pode ser escrita como uma combinação linear de suas potências menores que n. Isto permite muitas simplificações. Por exemplo, o quadrado de qualquer matrix 2\times 2 é uma combinação linear da própria matriz e da identidade. Mais interessante ainda, qualquer potencia de uma matriz 2\times 2 A será uma combinação linear entre A e \mathbb{I}. Vejam um exemplo explícito. Seja a matriz

A=\left(\begin{array}{cc}1&2\\3&4\end{array} \right)

seu polinômio característico é p_2(\lambda) = \lambda^2 - 5\lambda -2 e portanto o teorema de Cayley-Hamilton garante que A satisfaz a equação

A^2 = 5A + 2\mathbb{I}

Suponha que você queira calcular A^{3}. Teremos:

A^{3} = 5A^{2} + 2A = 5\left(5A + 2\mathbb{I}\right) + 2A = 27A + 10\mathbb{I},

e assim poderíamos fazer para qualquer potência m>2 de A. O cálculo dos coeficientes na “expansão” de A^n pode ser consideravelmente simplificado caso A seja diagonalizável, vejam o livro do Hoffman&Kunze.

Outra conseqüência interessante está relacionado com a inversa de A. O teorema de Cayley-Hamilton implica que, para qualquer matriz quadrada A, temos

A\left( c_n A^{n-1} + c_{n-1}A^{n-2}+\cdots+c_1\mathbb{I} \right) = -({\rm det A})\mathbb{I}

de onde temos que, se {\rm det}A\ne 0, a matriz entre parêntesis será -({\rm det A})A^{-1}. Trata-se, portanto, de uma fórmula que nos permite expressar a inversa de qualquer matriz n\times n em função de suas potências menores que n.

O teorema de Cayley-Hamilton não é tão estranho quanto parece. A existência de uma relação entre as potências de uma matriz quadrada pode ser notada já com argumentos muitos simples. Primeiro, considere um vetor v\in \mathbb{R}^n não nulo arbitrário, e defina a seqüência \{ v, Av, A^2v, \dots \}. No máximo, teremos n vetores L.I. nessa seqüência, o que implica que deve haver uma relação do tipo

\left( \alpha_nA^n + \alpha_{n-1}A^{n-1}+\cdots \alpha_1 A + \alpha_0\mathbb{I} \right) v =0

para um dado vetor v. O teorema de Cayley-Hamilton nos mostra que existe tal relação, que será válida para todo vetor v.

Uma outra mostra da plausibilidade do teorema de Cayley-Hamilton eu deixo como exercício: prová-lo para o caso de matrizes A diagonalizáveis.

As provas

Há inúmeras provas do teorema de Cayley-Hamilton por ai, dos mais variados graus de dificuldade. Há provas “combinatórias“, analíticas (polinômios matriciais são contínuos e as matrizes diagonalizáveis em \mathbb{C} são densas) e a minha preferida: a prova usando cálculo no plano complexo (ver também o material aqui.) Todas estas provas envolvem conceitos um pouco mais avançados, talvez fosse mais interessante revisitá-las daqui a alguns anos… 🙂

Apresentarei aqui a prova que me parece mais simples no sentido de que é a que utiliza provavelmente conceitos mais elementares, disponíveis a todos agora. Antes, porém, é obrigatório falar da “prova” errada (“bogus proof“) extremamente popular na internet. A idéia seria fazer a substituição \lambda \to A na definição do polinômio característico, e teríamos

p_n(A) = {\rm det} (A - A\mathbb{I}) = {\rm det}(0)=0

Bem, isso é errado in so many levels que nem sei por onde começar. Notem, primeiro, que p_n(A) deveria seu uma matriz, mas o lado direto da equação acima é um número. Quer dizer, essa identidade não faz sequer sentido. O verbete da wikipedia tem alguma discussão sobre isso.

A prova mais simples utiliza a noção elementar de matriz adjunta, i.e., a matriz transposta dos cofatores de uma dada matriz. O importante é que para qualquer matriz quadrada S, temos a identidade

S {\rm adj}(S) = {\rm det}(S)\mathbb{I},

de onde segue naturalmente a fórmula para a inversa conhecida da quinta série.

Seja M(\lambda) a adjunta da matriz A -\lambda \mathbb{I}, i.e.

\left(A -\lambda \mathbb{I}\right)M(\lambda)  = p_n(\lambda)\mathbb{I}\quad(1)

Antes de continuarmos, notem que M(\lambda) é, efetivamente, uma “função matricial” de  \lambda, i.e., dado um número real \lambdaM(\lambda) nos retorna uma matriz n\times n, i.e.,

\mathbb{R}\stackrel{M}{\longrightarrow} M_{n,n}(\mathbb{R})

da definição de adjunta, temos que M(\lambda) envolverá no máximo potências n-1 de \lambda, e portanto podemos escrever

M(\lambda) = B_{n-1}\lambda^{n-1} +B_{n-2}\lambda^{n-2}+\cdots + B_1\lambda+ B_0

sendo B_k matrizes que não dependem de \lambda. Substituindo-se na expressão (1) acima e colecionado-se os termos de mesma potência em \lambda, tem-se

-B_{n-1}\lambda^n + (AB_{n-1} - B_{n-2})\lambda^{n-1}+\cdots+(AB_1 - B_0)\lambda + AB_0 = p_n(\lambda)\mathbb{I}

igualando-se os termos de mesma potência de \lambda em ambos os lados da igualdade, teremos

-B_{n-1} = c_n\mathbb{I},

AB_{n-1} - B_{n-2}= c_{n-1}\mathbb{I}

\vdots \quad\quad\quad\quad \vdots

\quad AB_1 - B_0 = c_1\mathbb{I},

\quad AB_0 = c_0\mathbb{I}

Agora, multiplicando-se a primeira linha por A^n, a segunda por A^{n-1}, etc, e somando-se todas as equações, teremos do lado direito p_n(A) e do lado esquerdo uma soma telescópica cujo o resultado é zero, estabelecendo o teorema da maneira mais simples que conheço.

Inversa à esquerda e à direita, pseudo-inversa

Tivemos já oportunidade de discutir com certa profundida a questão da transformação linear inversa. Em particular, sabemos que se a transformação linear  T:V\to W é bijetora, então existirá a transformação inversa T^{-1}:W\to V, igualmente linear, tal que T^{-1}\circ T = I_V e T\circ T^{-1} = I_W. Além disso,  T^{-1} é única e {\rm dim\,}V ={\rm dim\,}W. Sugiro reproduzir essas provas! Diagramas sempre ajudam a visualizarmos essas transformações e onde elas operam, vejam:

screenshot-from-2016-10-07-154408

Já comentamos que a questão fica mais interessante quando {\rm dim\,}V \ne {\rm dim\,}W e, portanto, a transformação linear T nunca será uma bijeção.  São dois os possíveis casos:

Caso 1: {\rm dim\,}V < {\rm dim\,}W

Nesta situação, a transformação T:V\to W pode admitir uma “inversa à esquerda”, isto é, uma transformação linear S:W\to V tal que S\circ T = I_V, vejam o diagrama abaixo e comparem com o primeiro acima.

screenshot-from-2016-10-07-150009

A primeira questão, obviamente, é quando esta transformação linear inversa à esquerda de T pode existir. A resposta é: sempre que, e somente se, {\rm Ker }T=\{ 0_v\}, i.e., sempre que (e somente se!) T for injetora. Vamos mostrar que T injetora é condição necessária e suficiente para a existência de uma transformação S tal que S\circ T = I_V, o que corresponde a S(T(x)) = x para todo x\in V.

Primeiro, notem que, se a inversa à esquerda  S existe, então temos

T(x) = T(y) \Rightarrow S(T(x)) = S(T(y))\Rightarrow  x=y  

que dizer, T injetora é condição necessária para existir S. Mostremos agora que essa condição também é suficiente. Suponha T injetora. Como {\rm dim\,}V < {\rm dim\,}W, tem-se {\rm Im}V = T(V) \subset W. Porém, T: V \to {\rm Im}V é bijetora, e portanto existe T^{-1}:{\rm Im}V\to V. Considere a seguinte transformação linear S:W\to V

S(y) = \left\{ \begin{array}{cl} T^{-1}(y), & {\rm se\ } y\in {\rm Im} V\\ {\rm qualquer\ coisa\ linear}, & {\rm se\ } y\notin {\rm Im} V \end{array} \right.

teremos, por construção, que S(T(x)) = x para todo x\in V (vejam o diagrama!) e, portanto, S é uma inversa à esquerda de T. Por construção também (vejam o “qualquer coisa”), vemos que S nunca é única se {\rm dim\,}V < {\rm dim\,}W. Notem que S também está sujeita ao teorema posto-nulidade, de onde temos que (mostrem!) {\rm dim}( {\rm Ker} S) =  {\rm dim\,}W - {\rm dim\,}V.  Deste fato, decorre (mostrem!) também o interessante resultado:

W = {\rm Im}T \oplus {\rm Ker}S

para toda transformação linear injetora T:V\to W, sendo S qualquer uma de suas inversas à esquerda.

Caso 2: {\rm dim\,}V > {\rm dim\,}W

Este é o caso no qual pode existir a inversa à direita, a transformação linear S:W\to V tal que T\circ S = I_W, i.e., T(S(y)) = y para todo y\in W. (Vejam o diagrama abaixo.)

screenshot-from-2016-10-07-151447

A condição necessária e suficiente para a existência da inversa à direita é que T seja sobrejetora. A condição necessária vem da própria definição de S, i.e., T(S(y)) = y para todo y\in W, quer dizer, para todo y\in W haverá um x = S(y)\in V tal que T(x) = y.  Para mostrar que a condição é suficiente, vamos supor T sobrejetora e construir uma S. Pra isso, vamos introduzir a noção (já comentada) na aula de pré-imagem. Trata-se de um conjunto. Chamaremos de pré-imagem do elemento y\in W pela transformação T o conjunto:

{\rm PreIm}_T(y) = \{ x\in V | T(x) = y\}

Algumas observações curiosas sobre o conjunto {\rm PreIm}_T(y) \subseteq V: (mostrem todas!)

  • Em geral, não é um subespaço vetorial! Será somente se y=0_W, e neste será o próprio núcleo de T.
  • Se T é bijetora, {\rm PreIm}_T(y) terá sempre um único elemento (i.e., será um singleton).
  • Se T é sobrejetora mas não bijetora, {\rm PreIm}_T(y) terá sempre infinitos elementos (cardinalidade do contínuo).

Apesar de não serem espaços vetoriais, os conjuntos {\rm PreIm}_T(y) infinitos têm várias propriedades relacionas às vetoriais. Conjuntos deste tipo são chamados  espaços afins.

Podemos construir a inversa à direita S:W\to V de uma transformação linear sobrejetora T:V\to W da seguinte maneira (dá-lhe axioma da escolha! Leia os posts anteriores!). Seja \{v_i\} uma base para W e defina S(y) como sendo a transformação linear tal que

S(v_i) = {\rm qualquer\ elemento\ }x\in{\rm PreIm}_T(v_i).

Por construção, teremos T\circ S = I_W. Obviamente, nada garante que a inversa à direita é única. De maneira semelhante ao caso da inversa a esquerda, temos

V = {\rm Ker}T\oplus {\rm Im S}

para toda transformação linear sobrejetora T:V\to W, sendo S qualquer uma de suas inversas à direita. (Demonstrem!). Notem também que, no caso de espaços V  e W de dimensão finita, as questões relacionadas ao axioma da escolha não são de fato muito pertinentes, pois tudo se reduz essencialmente a encontrar soluções de sistemas lineares, e podemos facilmente encontrar todas as inversas, se elas existirem. Faremos alguns exemplos explícitos na aula.

As inversa à esquerda e a direita têm uma relação interessante com a solução do sistema linear Ax = B. Notem, primeiro, que se a matriz  A_{mn} (que sempre pode ser interpretada como uma transformação linear A_{mn}:\mathbb{R}^n\to \mathbb{R}^m) tiver uma inversa à direita, quer dizer, uma matriz  S_{nm} tal que AS = I_{mm}, então x=SB será solução do sistema.  Por outro lado, se o sistema tiver solução e S for uma inversa à esquerda de A, então x=SB será solução.

Esta discussão de inversas à direita e à esquerda nos remetem diretamente ao interessante tópico da pseudo-inversa de uma matriz. (Leiam mais neste artigo já citado). Seja A\in M_{m,n}(\mathbb{R}). A matriz A^+\in M_{n,m}(\mathbb{R}) é dita pseudo-inversa de A se satisfizer as seguintes condições:

  1. (AA^+)A = A
  2. (A^+A)A^+ = A^+
  3. (AA^+)^t = (AA^+)
  4. (A^+A)^t = (A^+A)

As condições 3 e 4 dizem apenas que os produtos AA^+A^+A são simétricos. As condições 1 e 2, por outro lado, sugerem que os produtos poderiam ter algo a ver com as matrizes identidades I_{mm} e I_{nn}. Um resultado interessantíssimo e importante é que para qualquer matriz A\in M_{m,n}(\mathbb{R}), existe uma única pseudo-inversa A^+\in M_{n,m}(\mathbb{R}). Se a matriz A for invertível (n=m e {\rm Ker}A = \{0\}), então A^+ = A^{-1}.

Vamos supor n<m{\rm Ker}A = \{0\}, as condições para a existência da inversa à esquerda, comparem com o caso acima. A matriz (A^tA)\in M_{n,n}(\mathbb{R}) é invertível, já que {\rm Ker}(A^tA) ={\rm Ker}A = \{0\}, vejam a discussão deste post. Neste caso, temos

A^+ =(A^tA)^{-1}A^t,

que pode ser diretamente verificado das 4 condições acima, façam! (Há algum material útil para essa finalidade aqui.) Notem que nesse caso A^+ é uma das inversas à esquerda, pois A^+A=I_{nn}.

O caso da inversa à direita pode ser obtido a partir deste, considerando-se a matriz A^t. Façam!

Componentes, coordenadas, complexo, simplético…

Houve num passado não muito distante, um curso de Eletromagnetismo I (Estrutura Matemática do Eletromagnetismo)  no qual se discutiu a questão das diferentes componentes que um vetor pode ter num dado sistema de coordenadas. O material está aqui. O interesse nesse assunto é mais físico que matemático, e na verdade, mesmo na Física, é considerado cada vez mais obsoleto. Mas vale a pena dar uma conferida.

Na aula, comentamos sobre o subespaço vetorial \mathcal{S} de M_2(\mathbb{R}) (matrizes reais 2\times 2) de matrizes do tipo

\left(\begin{array}{cc}a & b \\ -b & a\end{array}\right) = a \mathbb{I} + b \Omega,

sendo \mathbb{I} a matriz identidade 2\times 2 e \Omega =\left(\begin{array}{cc}0 & 1 \\ -1 & 0\end{array}\right) a chamada “matriz simplética“. Ocorre que \mathcal{S} também é um corpo, se o dotarmos do produto usual de matrizes, confiram! Alem do mais, como \Omega^2 =\Omega\cdot\Omega = -  \mathbb{I}, é fácil ver que, de fato, temos uma “representação matricial” para os números complexos! Quer dizer, o número complexo z = a+bi e a matriz acima têm exatamente as mesmas propriedades algébricas. De fato, o nome “simplético” nada mais é que uma versão (um “calque“), baseada em radicais gregos, do termo “complexo”, que tem radicais latinos. Leiam mais aqui e aqui. (Este último site, o MathOverflow, é de altíssimo nível, uma ótima referência para assuntos matemáticos mais avançados.)

Sabemos que, como espaço vetorial sobre \mathbb{R}, os complexos tem dimensão 2. Poderíamos perguntar (como fizemos em sala), se existiria alguma coisa que nos lembrasse dos complexos, mas com dimensão maior. Por exemplo, seria possível construir uma extensão dos reais do tipo \mathbb{R}(i,j), com i^2=-1,  da mesma maneira que construímos as extensões \mathbb{Q}(\sqrt{2},\sqrt{3},\dots) dos post anteriores? Caso fosse possível construir esse corpo, cujos elementos teriam a forma a+bi+cj, com a,b,c\in\mathbb{R}, teríamos uma “extensão tri-dimensional” dos complexos, que corresponderiam ao caso c=0. Não precisamos especificar muita coisa a respeito da nova quantidade j, mas com certeza, por ser um corpo, o produto ij deve estar em \mathbb{R}(i,j), isto é

ij = \alpha + \beta i + \gamma j

com \alpha,\beta,\gamma\in \mathbb{R}.  Multiplicando-se por i teremos

-j = \alpha i - \beta  + \gamma ij = \alpha\gamma - \beta + (\gamma\beta + \alpha)i + \gamma^2j,

que não tem solução com \alpha,\beta,\gamma\in \mathbb{R}. De fato, só conseguiremos uma “extensão” dos complexos em 4 dimensões, e teremos que abrir mão da comutatividade (e, portanto, não será exatamente uma extensão). São os quaternions. Leiam mais sobre isso aqui.

 

Cubologia mágica

Esse era o título do artigo publicado na Scientific American de 1981 por Douglas Hofstadter. (Sim, você conhece esse nome). De fato, foi o artigo da capa da revista:

842c8904

Esse artigo está reproduzido neste livro, que contêm uma coleção de artigos do autor. No livro, o artigo começa com a seguinte epígrafe:

Cubitis magikia, n. A severe mental disorder accompanied by itching of the fingertips, which can be relieved only by prolonged contact with a multicolored cube originating in Hungary and Japan. Symptoms often last for months. Highly contagious.

Há muito material online sobre a “matemática do cubo mágico”. Há, inclusive, um curso “Aprendendo álgebra com o cubo mágico“, em português, com várias referências, confiram! Há também material interessante aqui, aqui e aqui.

Divirtam-e (depois da prova!!!!! 😮 )

 

Teorema do Posto-Nulidade, posto linha = posto coluna, etc

Abaixo vai, de uma maneira um pouco mais caprichada, o esquema da aula de hoje.

screenshot-from-2016-09-21-075240

Relembrando, estamos interpretando uma matriz A de m linhas e n colunas como uma transformação linear A:\mathbb{R}^n\to \mathbb{R}^m. Não precisamos supor nada sobre a matriz além de ser m\times n, e concluímos muitas coisas interessantes. Repetir todos os passos abaixo é um ótimo exercício.

1) Os espaços vetoriais {\rm Ker} A\subseteq\mathbb{R}^n e {\rm Im}A\subseteq\mathbb{R}^m e o Teorema Posto-Nulidade

São definidos como

{\rm Ker} A = \{ X\in \mathbb{R}^n | AX=0\}

{\rm Im } A = \{ Y\in \mathbb{R}^m | \exists X\in \mathbb{R}^n,  AX=Y\}

As dimensões destes espaços vetoriais (provem que são!) têm nomes especiais: nulidade e posto (nullity e rank), respectivamente:

{\rm null} A = {\rm dim\, Ker} A \le n

{\rm posto} A = {\rm dim\, Im} A \le m

Estas duas quantidades são relacionadas pelo chamado Teorema do Posto-Nulidade:

{\rm null} A + {\rm posto} A = n

A prova envolvia uma escolha de base para \mathbb{R}^n “adaptada” para  o subespaço {\rm Ker} A\subseteq\mathbb{R}^n, i.e.,  uma base tal que os k primeiros vetores (k ={\rm null} A  \le n) geram {\rm Ker} A e o restante (n-k vetores) cobre o complementar:

 \mathbb{R}^n = {\rm span} \{v_1,v_2,\dots,v_k,w_1,w_2,\dots,w_{n-k}\}

con

{\rm Ker} A = {\rm span} \{v_1,v_2,\dots,v_k \}

A prova envolvia basicamente mostrar que Aw_1, Aw_2,\dots eram uma base para {\rm Im} A\subseteq\mathbb{R}^m. Refaçam!

2) Posto linha = Posto coluna

Vimos que podemos aprender um pouco mais se explorarmos a transformação linear associada à matriz transposta: A^t:\mathbb{R}^m\to \mathbb{R}^n. Tudo que fizemos acima pode ser refeito aqui. A novidade é que podemos agora “compor” as transformações (veja a figura), e considerarmos também a transformação linear A^tA:\mathbb{R}^n\to \mathbb{R}^n.

O resultado fundamental era que {\rm Ker}A^tA ={\rm Ker}A (reproduzam!), o que via o Teorema Posto-Nulidade nos dá  {\rm posto} A^tA = {\rm posto} A.

Da figura, temos claramente que {\rm Im}A^tA \subseteq {\rm Im}A^t, e portanto

 {\rm posto} A = {\rm posto} A^tA \le {\rm posto} A^t

Bem, aqui o argumento é que poderíamos repetir toda a construção, mas olhando agora para a composição AA^t (façam!). Com isso, obteríamos essencialmente  {\rm posto} A^t  \le {\rm posto} A, o que nos leva ao resultado festejado

{\rm posto} A = {\rm posto} A^t,

i.e., o número de colunas LI de uma matriz é igual ao número de suas linhas LI!

Tínhamos também um resultado intermediário curioso:

{\rm Ker}A^t\cap {\rm Im}A = \{0\}

Elaborem um pouco mais e convençam-se que

\mathbb{R}^m ={\rm Ker}A^t\oplus {\rm Im}A

(\oplus = soma direta de espaços vetoriais, veja definição 3.4.2 do Pulino.)

Tudo isto é fortemente influenciado, pra não chamar de “cópia deslavada”, deste excelente artigo da nossa querida American Mathematical Monthly. Divirtam-se! O autor, Gilbert Strang, tem (ou tinha) um fantástico curso on-line de Álgebra Linear (do MIT). Seus livros do assunto também são muito bons.

IMPORTANTÍSSIMO. Hoje, na aula, dei uma informação incorreta. Disse que este material não fazia parte do conteúdo da P1, e FAZ! Confiram na ementa oficial os exercícios correspondentes do livro do Pulino para a P1.

Os reais como um espaço vetorial sobre os racionais e o Axioma da Escolha

Como “por la boca se muere el pez“, me atreverei a escrever sobre o Axioma da Escolha. Já advirto que se trata de um tema complexo, com sutilezas que não domino completamente. Encarem este post como uma primeira aproximação ao assunto, como uma exposição nível teletubbies. Há muitos livros sobre o assunto, certamente os interessados encontrarão melhores referências por ai.

Comecemos com o exercício 14 da Seção 2.4 do (sempre inspirador) Hoffman&Kunze:

screenshot-from-2016-09-18-174042

O exercício nos convida a analisar a reta real \mathbb{R} como um espaço vetorial sobre o corpo dos racionais \mathbb{Q}, com todas as operações usuais. É fácil mostrar que todos os axiomas de um espaço vetorial são respeitados aqui. A complicação vem quando tentamos identificar a dimensão desse espaço. Notem, inicialmente, que se o espaço fosse definido sobre \mathbb{R}, não teríamos a menor dúvida, a dimensão seria um e o espaço seria inteiramente gerado, por exemplo, pelo “vetor” x=1. Porém, como já disse, estes espaços simples podem se tornar bastante intricados se trocamos o corpo para os racionais \mathbb{Q}. Neste caso em particular, a reta que sobre \mathbb{R} tinha dimensão 1, passa a ter dimensão infinita quando considerada sobre \mathbb{Q}.

Este é um problema clássico que pode ser resolvido de diversas maneiras, todas bastante interessantes. Vamos considerar algumas. Como sempre, convido os “corajosos” a postar como comentário alguma outra solução diferente.

Argumento da Cardinalidade

Vamos supor que  (\mathbb{R},\mathbb{Q}) fosse de dimensão finita n. Neste caso, teria uma base composta por n números reais \{x_i\}, i=1\dots n, e um real arbitrário y poderia ser sempre escrito como

y = \alpha_1x_1+\alpha_2x_2+\cdots+\alpha_nx_n,

com \alpha_i\in\mathbb{Q}. Ora, qual será a cardinalidade do conjunto de todos os elementos y que podem ser gerados nessa maneira? Será |\mathbb{Q}^n| = |\mathbb{Q}|= \aleph_0 (vejam os posts anteriores) e, portanto, temos uma contradição, já que \mathbb{R} tem a cardinalidade do contínuo.

Seqüências infinitas LI

Esta talvez seja a solução mais “comum” para o problema: exibir explicitamente uma seqüência arbitrariamente grande de vetores LI em (\mathbb{R},\mathbb{Q}), provando portanto que sua dimensão é infinita. Há muitas (com a cardinalidade do contínuo provavelmente!) seqüências deste tipo. Por exemplo, a formada pela raiz quadrada dos números primos. Este resultado não é difícil de ser provado se considerarmos extensões de corpos do tipo \mathbb{Q}(\sqrt{2},\sqrt{3},\dots ). Vejam uma discussão interessante e com boas referências aqui. A seqüência infinita de reais LI sobre \mathbb{Q} mais simples que conheço é obtida pelos logaritmos dos números primos \{\log p_n \}. Vejamos, se essa seqüência fosse LD, teríamos

a_1\log 2 + a_2\log 3 +a_3\log 5+  \cdots  a_n\log p_n  = 0,

com a_i\in\mathbb{Q} não nulos simultaneamente. Multiplicando-se pelo mmc de todos os denominadores, teremos reduzido os coeficientes a elementos de \mathbb{Z}. Porém, usando-se as propriedades elementares dos logaritmos, teremos

2^{a_1}3^{a_2}5^{a_3}\cdots p_n^{a_n}=1,

cuja única solução, invocando-se o teorema fundamental da aritmética, será a_1=a_2=\cdots =a_n=0.

Há muitos outros exemplos de seqüências de reais LI sobre \mathbb{Q}. Vamos ver quantas aparecerão nos comentários… 🙂

Existência dos transcendentais

A outra prova que me ocorre agora é a que envolve a existência dos números transcendentais. Um número transcendental é um numero que não é algébrico. Por sua vez, um número algébrico é um número que é uma raiz de um polinômio de coeficientes racionais. Uma vez mais, multiplicando-se convenientemente pelo mmc dos denominadores, teremos um polinômio de coeficientes inteiros. Os irracionais obtidos por radiciação são todos algébricos, ex.: \sqrt[3]{2} \rightarrow x^3-2=0, \sqrt{2} + \sqrt{3}\rightarrow (x^2-5)^2-6=0, etc. Se \pi é um número transcendental, então a seqüência \{1,\pi,\pi^2,\dots\} é LI sobre  \mathbb{Q} por definição, caso contrário teríamos

a_0+a_1\pi + a_2\pi^2+\cdots + a_n\pi^n=0,

contrariando o fato de \pi ser transcendental e, portanto, não ser raiz de nenhum polinômio de coeficientes inteiros/racionais. O \pi usual é um número transcendental, mas a prova deste fato não é simples. Mais simples, é a prova da transcendentalidade de e, procurem por ai que vocês acharão.

Pode-se inferir a existência de números transcendentais por argumentos de cardinalidade. Notem, primeiro, que os racionais são números algébricos de ordem 1, quer dizer, soluções de polinômios de ordem um com coeficientes inteiros/racionais. Qual a cardinalidade dos algébricos? Resp.: \aleph_0. Quer dizer, a esmagadora maioria dos reais são transcendentais! Um argumento para concluir que a cardinalidade dos algébricos é \aleph_0 é este. Um polinômio de grau n sobre \mathbb{C} terá sempre n raízes distintas (Teorema Fundamental da Álgebra). Quantos polinômios de grau n podemos formar com coeficientes inteiros/racionais? Ora, será |\mathbb{Q}^{n+1}| = \aleph_0, o que nos dá a mesma cardinalidade de possíveis raízes.


Axioma da Escolha

Bem, o Axioma da Escolha entre em cena neste problema se quisermos identificar uma base para (\mathbb{R},\mathbb{Q}), quer dizer, um conjunto (infinito) LI de reais \{x_\mu\} tais que qualquer real y possa ser escrito como uma combinação linear (finita!) de elementos desta base com coeficientes racionais:

y = \sum_k a_k x_{\mu(k)}

Aqui, \mu(k) significa que pegaremos k \ll \infty elementos do conjunto \chi = \{x_\mu\}. Notem que como a_k\in\mathbb{Q}, necessariamente o conjunto \chi deve ter a cardinalidade do contínuo, caso contrário jamais conseguiremos escrever um y real arbitrário como uma combinação linear (finita!) de elementos de \chi.

Bem, vamos agora enunciar, da maneira mais simples, o Axioma da Escolha e ver que papel ele joga neste problema. Em palavras, o Axioma da Escolha nos diz que, dado um conjunto A composto por subconjuntos não vazios S_k, pode-se escolher um elemento de cada um desses subconjuntos. Esta “escolha” pode ser formalizada com uma função do tipo

f:P(A)\to A,

tal que f(S_i)\subset S_i, para todos subconjuntos não vazios S_i\in P(A). O Axioma da Escolha se resume a afirmação que, para um dado conjunto A, existe pelo menos uma “função escolha”.

Deve-se notar que para muitas situações a existência de uma função escolha não oferece nenhuma dificuldade. É o caso, por exemplo, de conjuntos A finitos. Neste casos, o conjunto de todos seus subconjuntos não vazios (P(A)-\{\emptyset\}) também é finito e f pode ser construída, por exemplo, como uma tabela. Notem que, neste caso, podemos construir explicitamente TODAS possíveis funções escolha, que serão também em número finito.  Obviamente, qualquer possível problema com a existência de uma função escolha deve envolver conjuntos infinitos. Porém, mesmo neste caso, há situações em que não há problema nenhum. Por exemplo, consideremos o caso A = \mathbb{N}. Já sabemos que seu conjunto potência tem a cardinalidade do contínuo. Porém, podemos definir uma função escolha para qualquer subconjunto não vazio S_i de \mathbb{N}, por exemplo, escolhendo o menor elemento de S_i. Os naturais tem esta propriedade (chamada do bom ordenamento), que nos garante a existência de um elemento “mínimo” para todo subconjunto não vazio de naturais que consideremos.

Considerem agora o caso de A = \mathbb{R}.  Usando-se a hipótese do contínuo (|\mathbb{R}|=\aleph_1) e o teorema de Cantor, temos que |P(\mathbb{R})|> \aleph_1, quer dizer, o conjunto de subconjuntos não vazios de  \mathbb{R} é gigantesco, com cardinalidade maior que a do contínuo. Como poderíamos definir uma função escolha f neste caso? É claro que para alguns subconjuntos de \mathbb{R} não haveria problema, como, por exemplo, para os S_i\subset \mathbb{N}\subset \mathbb{R}, para os quais poderíamos, novamente, pegar o valor mínimo. O mesmo valeria, por exemplo, para os S_i\subset \mathbb{R} fechados, para os quais sempre haverá um mínimo, assim como um máximo. Mas, considerem, por exemplo, o caso dos S_i\subset \mathbb{R} abertos. Que f poderíamos escolher neste caso? A que retorna o valor mínimo? Não, estes subconjuntos não possuem mínimo. OK, usando nossa criatividade, podemos pegar para os intervalos abertos de \mathbb{R} o valor médio! Muito bem, mas nem todo subconjunto aberto de \mathbb{R} é um intervalo e portanto o valor médio pode simplesmente não existir… Enfim, que f seria essa?!?! Se não conseguimos sequer imaginá-la, como garantir que ela de fato existe!?! É em situações como esta que se admite o Axioma da Escolha, quer dizer, admite-se a EXISTÊNCIA de tal função que não conseguimos sequer imaginar e, portanto, muito menos construir.

Para o nosso problema em particular, admitindo-se o Axioma da Escolha, seremos capazes de selecionar um elemento de qualquer subconjunto S_\mu \in P(\mathbb{R}). Assim sendo, somos capazes, em particular, de selecionar um elemento x_\mu de cada subespaço vetorial unidimensional S_\mu de (\mathbb{R},\mathbb{Q}), e assim teríamos (\mathbb{R},\mathbb{Q}) = {\rm span}(\{x_\mu\}).  Note, e isso é uma característica de toda construção envolvendo o Axioma da Escolha, que, na prática, nada sabemos – além da existência – sobre S_\mu e, muito menos, sobre os elementos x_\mu = f(S_\mu).

Ainda que neste contexto o Axioma da Escolha pareça natural e razoável, há inúmeros paradoxos que surgem a partir do seu uso. Este artigo tem uma ótima discussão sobre este assunto.