Instituto Superior T Ecnico Departamento de Matem Atica: 11 1 12 2 1n N 1 21 1 22 2 2n N 2
Instituto Superior T Ecnico Departamento de Matem Atica: 11 1 12 2 1n N 1 21 1 22 2 2n N 2
Instituto Superior T Ecnico Departamento de Matem Atica: 11 1 12 2 1n N 1 21 1 22 2 2n N 2
Departamento de Matemática
ÁLGEBRA LINEAR
0. Introdução
Este texto tem como objetivo proporcionar apontamentos das aulas de Álgebra Linear
de LMAC e LEFT durante o primeiro semestre de 2022/2023. Não substitui os livros de
texto indicados na bibliografia na página da cadeira.
1. O método de Gauss
O método de Gauss é um método para resolver sistemas lineares cuja ideia é a simpli-
ficação do sistema através da eliminação sucessiva de variáveis.
Definição 1.1. Um sistema linear de m equações a n incógnitas é uma expressão da forma
a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2
(1) ..
.
a x + a x + . . . + a x = b
m1 1 m2 2 mn n m
A primeira variável que ocorre no sistema é x2 . Uma vez que o coeficiente de x2 na primeira
equação é 0, trocamos a primeira equação com a segunda (também poderı́amos trocar com
a terceira). Obtemos então o sistema
x 2
+ 3x4 = 1
2x3 − x4 = 5
2x + x + x = 2
2 3 4
Subtraı́mos agora à terceira equação o dobro da primeira para eliminar a variável x2 obtendo
x2
+ 3x4 = 1
2x3 − x4 = 5
x3 − 5x4 = 0
Voltamos agora ao inı́cio mas consideramos apenas as duas últimas equações. A primeira
variável é agora x3 e o seu coeficiente na primeira linha (que é a segunda linha do sistema
inicial) é não nulo, pelo que não é necessário trocar a ordem das equações. Subtraindo
metade da segunda equação à terceira obtemos o sistema
x2
+ 3x4 = 1
(2) 2x3 − x4 = 5
− 29 x4 = − 25
O sistema (2) é fácil de resolver começando pela equação debaixo e substituindo repeti-
damente os resultados obtidos nas equações de cima: da última equação obtemos x4 = 59 e
ÁLGEBRA LINEAR 3
Recorde-se que neste caso não incluı́mos a coluna de 0s correspondente aos termos depen-
dentes. Obtemos assim
0 1 0 4 1 −2 3 0 1 −2 3 0
1 ↔L2 3 −2L1
1 −2 3 0 L−→ 0 1 0 4 L−→ 0 1 0 4
2 −6 0 16 2 −6 0 16 0 −2 −6 16
1 −2 3 0 1
− 6 L3
1 −2 3 0 1 0 3 8
L3 +2L2
−→ 0 1 0 4 −→ 0 1 0 4 L−→ 1 +2L2
0 1 0 4
0 0 −6 24 0 0 1 −4 0 0 1 −4
1 0 0 20
L1 −3L3
−→ 0 1 0 4
0 0 1 −4
Obtemos assim a seguinte solução para o sistema:
x = −20w
y = −4w com w ∈ R qualquer.
z = 4w
que termina numa matriz em escada de linhas reduzida. Iremos provar que para cada
matriz A existe no máximo uma matriz em escada de linhas reduzida que é equivalente a
A mediante operações elementares.
A demonstração utilizará um género de argumento que se diz por redução ao absurdo
e que se baseia no seguinte facto simples da lógica: Se uma afirmação P implica outra
afirmação Q e Q é falsa, então P é necessariamente falsa. Em sı́mbolos:
((P ⇒ Q) ∧ ¬Q) ⇒ ¬P
Este facto permite-nos provar a validade de uma afirnação A se conseguirmos deduzir uma
falsidade a partir da sua negação ¬A (isto é se ¬A se reduzir ao absurdo). Conclui-se então
que a afirmação ¬A é falsa, ou seja que A é verdadeira.
Teorema 1.12. Sejam m, n números naturais e A uma matriz m × n de números reais ou
complexos. Existe uma única matriz em escada de linhas reduzida equivalente a A mediante
operações elementares.
Dem. A existência é garantida pelos algoritmos de Gauss e Gauss-Jordan. Resta-nos
demonstrar a unicidade. A demonstração é por indução no número n das colunas de
A.
Para a base da indução precisamos de mostrar que se A é uma matriz com uma única
coluna, o resultado é verdadeiro. As únicas matrizes em escada de linhas reduzidas com
uma coluna são a matriz nula e a matriz
1
0
(8) .
..
0
pelo que é suficiente ver que uma matriz coluna A não pode ser simultaneamente equivalente
a estas duas. Isso é verdade porque a única matriz que é equivalente à matriz nula mediante
operações elementares é a própria matriz nula. Isto conclui a prova da base da indução.
Para o passo da indução vamos admitir que a unicidade é válida para matrizes com
n colunas. Queremos concluir que é também válida para matrizes com n + 1 colunas.
Designemos por X≤n a matriz m × n que se obtém da matriz m × (n + 1) X suprimindo a
última coluna3. Observemos que:
(i) Se X está em escada de linhas reduzida, o mesmo acontece com X≤n .
(ii) Se X 0 resulta da aplicação de uma operação elementar a X então X≤n 0
resulta da
aplicação da mesma operação elementar a X≤n .
Seja A uma matriz m×(n+1) e suponhamos que B e C são matrizes em escada de linhas
reduzida que se obtêm de A por operações elementares. Por (i), as matrizes B≤n e C≤n
estão também em escada de linhas reduzida. Por (ii), B≤n e C≤n resultam da aplicação de
operações elementares a A≤n . Por hipótese de indução conclui-se que B≤n = C≤n .
(3) Transitividade: x ∼ y ∧ y ∼ z ⇒ x ∼ z
3Esta notação ad hoc não voltará a ser usada depois desta demonstração.
ÁLGEBRA LINEAR 9
2. O produto de matrizes
Vimos acima que qualquer combinação linear (6) das equações de um sistema linear (5)
é satisfeita por uma solução do sistema. Mais geralmente, começando com um sistema
linear (5), podemos considerar um novo sistema cujas equações são combinações lineares
das equações do sistema inicial. No caso homogéneo (ou seja com bi = 0) um tal sistema
com k equações tem o aspecto seguinte
c11 (a11 x1 + a12 x2 + . . . + a1n xn ) + . . . + c1m (am1 x1 + am2 x2 + . . . + amn xn ) = 0
c21 (a11 x1 + a12 x2 + . . . + a1n xn ) + . . . + c2m (am1 x1 + am2 x2 + . . . + amn xn ) = 0
(9) ..
.
c (a x + a x + . . . + a x ) + . . . + c (a x + a x + . . . + a x ) = 0
k1 11 1 12 2 1n n km m1 1 m2 2 mn n
onde ci1 , . . . , cim sáo os coeficientes da combinação linear que produz a i-ésima equação do
novo sistema. Estes escalares podem ser dispostos numa matriz k × m.
c11 c12 · · · c1m
c21 c22 · · · c2m
. ..
.. .
ck1 ck2 · · · ckm
10 ÁLGEBRA LINEAR
Identificando o sistema inicial com a matriz [aij ]1≤i≤m,1≤j≤n dos seus coeficientes, podemos
pensar neste processo de combinação linear de equações como uma operação que partindo
de duas matrizes, C = [cpq ] de tipo k ×m e A = [aij ] de tipo m×n produz uma nova matriz
que tem por entradas os coeficientes das equações do sistema (9). Esta nova matriz é de
tipo k × n e tem como entrada ij (correspondente ao coeficiente de xj na i-ésima equação
de (9))
m
X
(10) ci1 a1j + ci2 a2j + . . . + cim amj = cil alj
l=1
Em muitos exemplos (como no Exemplo 2.2 acima) o produto calcula-se muito mais rapi-
damente fazendo as contas por linhas ou colunas do que aplicando a fórmula (10) entrada
a entrada.
Usando o produto de matrizes, podemos escrever um sistema (5) usando matrizes para os
coeficientes, incógnitas e termos independentes. A expressão (5) é equivalente à igualdade
de matrizes
x1
a11 a12 · · · a1n b1
x
... .. 2 = ..
(11) . ... .
am1 am2 · · · amn bm
xn
que se pode abreviar
AX = B
Uma vez que entendamos as propriedades do produto de matrizes, poderemos manipular
sistemas e resolvê-los de forma análoga à que é já familiar do estudo anterior da resolução
de equações numéricas.
Os métodos de Gauss e Gauss-Jordan podem também ser descritos em termos do produto
de matrizes. Por exemplo, tendo em conta a descrição do produto de matrizes em termos
de combinação linear de linhas, a aplicação da operação L2 + 3L1 ao sistema (11) consiste
na multiplicação em ambos os lados da igualdade, à esquerda, pela matriz de tipo m × m
1 0 ··· ··· 0
3 1 0 ··· 0
..
0 0 1
. 0
. . .
.. . . ..
0 0 ··· 0 1
De forma semelhante, a operação −2L2 corresponde à multiplicação de (11) pela matriz
m×m
1 0 ··· ··· 0
0 −2 0 · · · 0
..
0 0
1 . 0
. . .
.. . . ..
0 0 ··· 0 1
2.3. Multiplicação por blocos. Uma outra observação sobre o produto de matrizes que
é por vezes muito útil é que este pode ser realizado ”por blocos”. Se decompusermos duas
matrizes A, B em ”matrizes de matrizes”, por exemplo,
A11 A12 B1
A= B=
A21 A22 B2
12 ÁLGEBRA LINEAR
4Os ı́ndices dos somatórios são variáveis mudas. Obtém-se uma expressão da outra substituindo o ı́ndice
x por w e y por z.
14 ÁLGEBRA LINEAR
Definição 2.8. A matriz m × n nula é a matriz que tem todas as entradas iguais a 0. É
denotada por 0 (deixando implı́citas as dimensões).
É imediato da definição do produto que (sempre que os produtos façam sentido) temos
A·0=0 0·A=0
Exemplo
2.9 (A lei do corte não é válida para o produto de matrizes). Seja A a matriz
2 −1
. Então
4 −2
2 def 2 −1 2 −1 0 0
A = AA = =
4 −2 4 −2 0 0
portanto, apesar de A 6= 0 temos
AA = A · 0.
Definição 2.10. Uma matriz n × n, A diz-se invertı́vel se existe uma matriz B (neces-
sariamente também n × n) tal que
AB = BA = In
Uma tal matriz B diz-se uma inversa de A.
Proposição 2.11. Seja A uma matriz n × n invertı́vel, C, D matrizes n × m e E, F
matrizes m × n. Então
AC = AD ⇒ C = D e EA = F A ⇒ E = F
Dem. Provamos apenas a primeira implicação deixando a segunda como exercı́cio. Seja B
uma inversa de A. Então
AC = AD ⇒ B(AC) = B(AD) ⇔ (BA)C = (BA)D ⇔ In C = In D ⇔ C = D
ÁLGEBRA LINEAR 15
2.12. Soma e produto por escalar. Vamos também necessitar de outras operações com
matrizes que têm uma natureza muito mais elementar do que o produto.
Definição 2.13. Sejam A, B matrizes m × n. A soma das matrizes A e B é a matriz do
mesmo tipo A + B que tem como entrada ij
(A + B)ij = aij + bij
O produto de uma matriz A m × n pelo escalar λ ∈ R (ou C) é a matriz λA também do
tipo m × n cuja entrada ij é
(λA)ij = λaij
Por exemplo
2 −1 2 1 4 2 2 + 1 −1 + 4 2 + 2 3 3 4
+ = =
0 −3 0 2 3 −1 0 + 2 −3 + 3 0 − 1 2 0 −1
e √ √
√ 1 1 √2 √2
2 −1 2 = −√ 2 2 2
4 0 4 2 0
Vejamos algumas propriedades fundamentais destas operações cujas demonstrações são
imediatas e ficam como exercı́cio.
Proposição 2.14 (Propriedades da soma de matrizes). Sejam A, B, C matrizes m × n.
Então
(i) (Associatividade) A + (B + C) = (A + B) + C
(ii) (Comutatividade) A + B = B + A
(iii) (Existência de elemento neutro) A + 0 = A
(iv) (Existência de inversos/simétricos) Existe D tal que A + D = 0
É fácil verificar (exercı́cio) que o simétrico de uma matriz é único. Usa-se a notação −A
para o simétrico de uma matriz e claramente a componente ij da matriz −A é dada por
−aij .
Proposição 2.15 (Propriedades do produto por escalar). Sejam A, B matrizes m × n e
λ, µ escalares reais (ou complexos). Então
(i) 1 · A = A
(ii) λ(µA) = (λµ)A
(iii) λ(A + B) = λA + λB
(iv) (λ + µ)A = λA + µA
Outras propriedades do produto por escalar que são muitas vezes utilizadas são as
seguintes
0 · A = 0, (−1) · A = −A
Estas propriedades são de verificação imediata a partir da definição do produto por escalar
mas podem também ser deduzidas das propriedades indicadas nas Proposições acima (sem
usar a definição). Fica como exercı́cio a realização dessas deduções.
16 ÁLGEBRA LINEAR
Vejamos agora algumas relações entre a soma e o produto por escalar com o produto de
matrizes.
Proposição 2.16 (Distributividade). Sejam A uma matrix m × n, B e C matrizes n × p
e D uma matriz p × q. Então
A(B + C) = AB + AC (B + C)D = BD + CD
Dem. Verificamos apenas a primeira igualdade dado que a demonstração da segunda é
inteiramente análoga. Temos que ver que para cada i, j com 1 ≤ i ≤ m e 1 ≤ j ≤ p, as
entradas ij das matrizes A(B + C) e AB + AC são iguais. De acordo com (10) a entrada
ij de A(B + C) é dada pela expressão
Xn Xn
aik (B + C)kj = aik (bkj + ckj )
k=1 k=1
Xn
= aik bkj + aik ckj
k=1
= (AB)ij + (AC)ij
o que mostra a igualdade pretendida.
Podemos usar as propriedades acima para desenvolver e simplificar expressões como
estamos habituados a fazer com os números mas devido às diferenças indicadas acima, isto
requer algum cuidado. Por exemplo, se A e B são matrizes n × n temos
(A + B)2 = (A + B)(A + B) = A(A + B) + B(A + B) = A2 + AB + BA + B 2
Esta expressão é (pela lei do corte para a soma de matrizes) igual à expressão habitual
A2 + 2AB + B 2
se e só se for satisfeita a seguinte igualdade pelas matrizes A, B
AB = BA
o que, como já indicámos acima, quase nunca se verifica.
Definição 2.17. Sejam A, B matrizes n × n. Diz-se que A e B comutam se AB = BA.
É imediato verificar que a matriz λIn comuta com qualquer outra matriz n × n, uma
vez que, pela interpretação do produto de matrizes em termos de combinações lineares de
linhas e colunas, multiplicar A à esquerda por λIn consiste em multiplicar cada linha de
A por λ, enquanto que multiplicar por λIn à direita consiste em multiplicar por λ cada
coluna de A. Portanto
(λIn )A = λA = A(λIn )
Um dos exercı́cios da ficha para as aulas práticas da próxima semana pede-vos que veri-
fiquem que estas matrizes - os múltiplos escalares da matriz identidade - são na realidade
as únicas matrizes que têm esta propriedade de comutar com todas as outras. A igualdade
acima é um caso particular da seguinte propriedade que relaciona o produto de matrizes
com o produto por escalar. A demonstração (muito fácil) é deixada como exercı́cio.
ÁLGEBRA LINEAR 17
2.22. Cálculo da inversa. Põe-se agora a questão de como saber se uma matriz é in-
vertı́vel e nesse caso calcular a matriz inversa. Na realidade já aprendemos a calcular a
inversa! Se B é a inversa de A então
AB = In
Tendo em conta a interpretação do produto AB como um cálculo de combinações lineares
de colunas de A, isto diz-nos que as entradas da i-ésima coluna de A são os coeficientes da
18 ÁLGEBRA LINEAR
combinação linear das colunas de A que produz a i-ésima coluna da matriz identidade. Se
denotarmos a i-ésima coluna de B por Xi , isto diz-nos que a seguinte relação é satisfeita
0
..
.
0
(12) AXi = 1
0
.
..
0
(onde a entrada não nula da matriz à direita está na i-ésima linha). Assim podemos calcular
a i-ésima coluna da inversa resolvendo o sistema linear (12) para o que podemos usar os
métodos de Gauss e Gauss-Jordan. Para calcular a inversa temos que resolver n sistemas
lineares mas não há qualquer razão para o fazer separadamente. Como os coeficientes do
sistema são os mesmos para todos os sistemas podemos resolver todos ao mesmo tempo:
1 0 2
Exemplo 2.23. Vamos calcular A−1 para a matriz A = 0 3 0
4 0 5
1
Aplicamos o método de Gauss-Jordan aos sistemas com termos independentes 0 ,
0
0 0
1 e 0 simultaneamente:
0 1
1 0 2 | 1 0 0 1 0 2 | 1 0 0 1
L
1 0 2 | 1 0 0
3 −4L1
0 3 0 | 0 1 0 L−→ 0 3 0 | 0 1 0 −→ 3 2
0 1 0 | 0 1 0
1
− 3 L3 3
4 0 5 | 0 0 1 0 0 −3 | −4 0 1 0 0 1 | 43 0 − 13
1 0 0 | − 53 0 32
L1 −2L3
−→ 0 1 0 | 0 13 0
0 0 1 | 43 0 − 13
As colunas da matriz à direita são as soluções de cada um dos sistemas e portanto as colu-
nas da matriz inversa. Assim, se a matriz A for invertı́vel então teremos necessariamente
5
− 3 0 23
A−1 = 0 13 0
4
3
0 − 13
1 3 1
Exemplo 2.24. Vamos calcular A−1 para a matriz A = 0 −1 0
2 0 1
ÁLGEBRA LINEAR 19
Temos
1 3 1 | 1 0 0 1 3 1 | 1 0 0
L3 −2L1
0 −1 0 | 0 1 0 −→ 0 −1 0 | 0 1 0
2 0 1 | 0 0 1 0 −6 −1 | −2 0 1
1 3 1 | 1 0 0 1 3 1 | 1 0 0
L3 −6L2 −L2
−→ 0 −1 0 | 0 1 0 −→ 0 1 0 | 0
−1 0
−L3
0 0 −1 | −2 −6 1 0 0 1 | 2 6 −1
1 3 0 | −1 −6 1 1 0 0 | −1 −3 1
L1 −L3 L1 −3L2
−→ 0 1 0 | 0 −1 0 −→ 0 1 0 | 0 −1 0
0 0 1 | 2 6 −1 0 0 1 | 2 6 −1
Assim, se a matriz A for invertı́vel então teremos necessariamente
−1 −3 1
A−1 = 0 −1 0
2 6 −1
Resta perceber porque é que a matriz B calculada nos exemplos anteriores é de facto
uma inversa de A. A maneira como foi determinada torna claro que AB = In , mas para
que B seja a inversa é ainda necessário que BA = In . Isto está longe de ser óbvio (embora
seja fácil de verificar nos exemplos acima ou em qualquer exemplo concreto).
Antes de explicar a razão pela qual o método anterior pode ser sempre usado para
achar a inversa (ou ver que uma matriz não é invertı́vel) vamos primeiro responder à
seguinte pergunta natural: Porque não achar a inversa por linhas resolvendo o sistema
determinado pela equação BA = In linha a linha? De facto podemos fazê-lo, mas a matriz
dos coeficientes do sistema não será A, e dado que o método de Gauss-Jordan (tal como
nós o apresentámos) se aplica imediatamente apenas à solução de sistemas Ax = b com x
e b matrizes coluna, é mais prático fazer as contas como fizemos acima.
Esta questão aponta no entanto para um aspeto básico do cálculo matricial que diz
respeito à simetria entre linhas e colunas. A atribuição do primeiro ı́ndice às linhas e do
segundo às colunas é claramente apenas uma convenção pelo que é natural considerar a
seguinte simetria do conjunto das matrizes que troca linhas com colunas.
Definição 2.25. Seja A uma matriz m × n. A matriz transposta de A é a matriz AT , do
tipo n × m cuja entrada ij é
(AT )ij = aji
Por exemplo
T 1 0 T
1 −1 2 1 2 1 3
= −1 3 e =
0 3 2 3 4 2 4
2 2
Proposição 2.26 (Propriedades da transposição). (i) (AT )T = A
(ii) (αA)T = αAT
(iii) (A + B)T = AT + B T
20 ÁLGEBRA LINEAR
(iv) (AB)T = B T AT .
Dem. As primeiras três propriedades são muito fáceis de demonstrar e ficam como exercı́cio.
Quanto à última, suponhamos que A é uma matriz m × n e B é uma matriz n × p, de
forma a que (AB)T é uma matriz p × m. Dados i, j com 1 ≤ i ≤ p e 1 ≤ j ≤ m temos
então que a entrada ij da matriz (AB)T é
n
X n
X n
X
T T T
(B T )ik (AT )kj = (B T AT )ij
(AB) ij
= (AB)ji = ajk bki = (A )kj (B )ik =
k=1 k=1 k=1
Vemos assim que, quando aplicamos o método de Gauss-Jordan para resolver simultanea-
mente os n sistemas lineares correspondentes à equação AB = In , só há duas possibilidades:
ou a aplicação do método mostra que a caracterı́stica de A é menor do que n e então A
não é invertı́vel ou, a caracterı́stica de A é n e então a matriz A é invertı́vel. Neste último
caso, uma vez que a matriz B calculada pelo método de Gauss-Jordan satisfaz AB = In ,
temos
A−1 (AB) = A−1 In ⇔ B = A−1 .
Observação 2.28. As matrizes que aparecem na demonstração da implicação ((v)⇒ (i))
no Teorema 2.27 (que correspondem às operações elementares sobre as linhas) designam-se
por matrizes elementares. Vimos durante a demonstração que qualquer matriz invertı́vel
se pode escrever como um produto de matrizes elementares6.
Para terminar esta discussão sobre as matrizes observemos ainda a seguinte condição
equivalente à invertibilidade.
Corolário 2.29. Seja A uma matriz quadrada. As seguintes condições são equivalentes.
(i) A é invertı́vel.
(ii) Para cada matriz n × 1, B, o sistema AX = B tem solução.
Proof. Claramente (i) ⇒ (ii). Para demonstrar a implicação recı́proca vamos ver que ¬(i)⇒
¬(ii). Suponhamos então que A não é invertı́vel. Pelo Teorema 2.27 a caracterı́stica de A é
menor do que n. Seja S uma matriz invertı́vel que se obtém multiplicando sucessivamente
as matrizes elementares correspondentes aos passos do método de Gauss, de forma que SA
6É um bom exercı́cio estimar o número máximo de fatores necessário para uma tal fatorização.
ÁLGEBRA LINEAR 23
1
vemos que o sistema
(14) (SA)X = C
não tem solução. Ora (14) é equivalente ao sistema AX = S −1 C, logo o sistema AX = B
não tem solução quando B = S −1 C. Isto conclui a demonstração.
Sendo A uma matriz quadrada, podemos considerar a função X 7→ AX que leva matrizes
coluna em matrizes coluna. O Teorema 2.27 e o Corolário 2.29 mostram que, para uma tal
função, as condições de bijetividade, injetividade e sobrejetividade são equivalentes!
3. Espaços vetoriais
Um espaço vetorial é um “sı́tio onde se podem fazer combinações lineares”. Para isto tudo
o que é necessário é saber como somar e como multiplicar por escalar os objetos do espaço
vetorial. Para que estas combinações lineares se comportem como estamos habituados
nos exemplos que vimos até agora é necessário que satisfaçam certas propriedades que são
especificadas na definição de espaço vetorial.
O arquétipo de um espaço vetorial é Rn = {(x1 , . . . , xn ) : xi ∈ R} em que a multiplicação
por escalar é definida por
α · (x1 , . . . , xn ) = (αx1 , . . . , αxn )
e a soma por
(x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
Nos casos em que n = 1, 2 ou 3, estamos habituados a identificar Rn geometricamente com
o conjunto dos vetores com origem em (0, . . . , 0), e sabemos interpretar geometricamente
o produto por escalar e a soma.
Por exemplo, o conjunto de todas as combinações lineares de dois vetores não colineares
em R3 formam um plano que passa pela origem e contém os dois vetores.
A definição de espaço vetorial vai-nos permitir transferir a nossa intuição geométrica
sobre o comportamento de vetores no espaço para um sem-fim de novas situações!
Definição 3.1. Um espaço vetorial real é um terno (V, +, ·) consituı́do por um conjunto
V , cujos elementos se designam por vetores, juntamente com duas funções
·
• Multiplicação por escalar: R × V →
− V que a um par (α, v) associa um vetor α · v.
+
• Soma de vetores: V × V − → V que a um par de vetores (v, w) associa um vetor
v+w
satisfazendo as seguintes relações:
(i) Para todos os u, v, w ∈ V , u + (v + w) = (u + v) + w.
24 ÁLGEBRA LINEAR
coordenadas cartesianas)
• αv é o ponto de interseção da reta paralela a w que passa por u, com a reta deter-
minada por v e pela origem (que é o conjunto {λv : λ ∈ R}).
• βw é o ponto de interseção da reta paralela a v que passas por u, com a reta
{λw : λ ∈ R}
Vejamos mais alguns exemplos e não-exemplos de espaços vetoriais.
Exemplo 3.7. (i) O conjunto V de todos os polinómios reais com as operações de soma
e produto por escalar habituais é um espaço vetorial. Note-se que V está contido no
conjunto das funções reais F (R, R) e que as operações de soma e produto por escalar
são a restrição aos polinómios das operações definidas para as funções. Isso torna
a verificação da maioria dos axiomas na Definição 3.1 automáticas. De facto, uma
vez que se observe que a soma de polinómios e a multiplicação de um escalar por um
polinómio são polinómios, a validade das propriedades (i)-(ii) e (v)-(viii) é imediata
26 ÁLGEBRA LINEAR
e resta apenas observar que a função nula é um polinómio logo (iii) é satisfeito e que
a função simétrica de um polinómio é um polinómio logo (iv) é também satisfeito.
(ii) Seja V = {(x, y) ∈ R2 : x ≥ 0, y ≥ 0} com a soma habitual de vetores em R2 e com o
produto por escalar definido por
def
α(x, y) = (|α|x, |α|y)
Com estas operações V não é um espaço vetorial porque os axiomas (iv) e (vii) não
são verificados. Por exemplo o vetor (1, 0) não tem simétrico e (0, 0) = 0(1, 0) =
(1 + (−1))(1, 0) 6= 1(1, 0) + (−1)(1, 0) = (2, 0). Em geral, se α e β têm sinais
contrários e v 6= 0, a igualdade (α + β)v = αv + βv não se verifica.
3.8. Subespaços vetoriais.
Definição 3.9. Seja V um espaço vetorial sobre K. Um subconjunto W ⊂ V diz-se
um subespaço vetorial de V se W é fechado7 para as operações de V e, munido destas
operações, é um espaço vetorial.
Exemplo 3.10. O Exemplo 3.7 (i) verifica que o conjunto dos polinómios é um subespaço
vetorial de F (R; R).
Como observámos no Exemplo 3.7(i), quando W ⊂ V é um subconjunto de um espaço
vetorial fechado para a soma e multiplicação por escalar, a verificação de que W é um
espaço vetorial pode reduzir-se à verificação que o elemento neutro da soma e os simétricos
(em V ) de elementos de W pertencem a V . A próxima proposição mostra que mesmo estas
verificações não são necessárias.
Proposição 3.11. Seja V um espaço vetorial. Se W é um subconjunto não vazio de V
fechado para a soma e multiplicação por escalar, então W é um subespaço vetorial de V .
Proof. Como já observámos, a verificação dos axiomas (i)-(ii) e (v)-(viii) é imediata. É
um exercı́cio verificar que, para qualquer v ∈ V , o produto por escalar 0v é o elemento
neutro para a soma. Como W é não vazio e fechado para o produto por escalar conclui-se
que 0 ∈ W e portanto o axioma (iii) é verificado. É também um exercı́cio verificar que
o simétrico de v ∈ V é o produto por escalar (−1)v. Uma vez que W é fechado para o
produto por escalar conclui-se que o axioma (iv) é verificado em W .
Exemplo 3.12. (i) Seja V o espaço vetorial de todos os polinómios reais. O subconjunto
W ⊂ V formado pelos polinómios de grau menor ou igual a 3 é um subespaço vetorial.
De facto, de acordo com a proposição anterior basta observar que W 6= ∅ (por exemplo
o polinómio 0 está em W ), que a soma de polinómios de grau ≤ 3 tem grau ≤ 3 e
que o produto de um polinómio de grau ≤ 3 por um escalar tem ainda grau ≤ 3.
(ii) O plano W = {(x, y, z) ∈ R3 : x+y+z = 0} é um subespaço vetorial de R3 . De acordo
com a Proposição acima basta notar que se (x, y, z), (x0 , y 0 , z 0 ) ∈ W e α ∈ R então
(x+x0 )+(y +y 0 )+(z +z 0 ) = 0 e (αx)+(αy)+(αz) = 0 logo (x+x0 , y +y 0 , z +z 0 ) ∈ W
e (αx, αy, αz) ∈ W .
7Isto
é, se dados w1 , w2 ∈ W e α ∈ K, temos w1 + w2 ∈ W e αw1 ∈ W . Por palavras: a soma em V de
vetores em W está em W , e a multiplicação em V de um vetor de W por um escalar permanece em W .
ÁLGEBRA LINEAR 27
N (A) = {x ∈ Rn : A ... = 0}
xn
Este conjunto é um subespaço vetorial de Rn (o argumento é exatamente o mesmo
que no exemplo anterior). Note-se que N (A) é exactamente o conjunto das soluções
do sistema linear homogéneo que tem A como matriz de coeficientes.
Intuitivamente devemos pensar nos espaços vetoriais como sendo objetos que se com-
portam de forma semelhante ao espaço euclidiano usual - R3 - e nos subespaços vetoriais
como sendo subconjuntos com comportamento semelhante ao das retas e planos em R3 que
passam pela origem.
3.13. Expansão linear.
Definição 3.14. Seja V um espaço vetorial e S ⊂ V um subconjunto. A expansão linear
de S em V é o conjunto L(S) das combinações lineares de elementos de S, isto é
L(S) = {α1 v1 + . . . + αn vn : α1 , . . . , αn ∈ R, v1 , . . . , vn ∈ S, n ∈ N}
Por convenção L(∅) = {0}.
Exemplo 3.15. (i) Seja V o espaço vetorial dos polinómios reais. Vamos determinar
se x + 2x3 ∈ L(S) onde S = {1 − x, x + x2 + x3 , x2 }. Por definição, a pergunta é se
existem escalares α1 , α2 , α3 ∈ R tais que
x + 2x3 = α1 (1 − x) + α2 (x + x2 + x3 ) + α3 x2
Como dois polinómios são iguais se têm os mesmos coeficientes, a igualdade anterior
é equivalente ao sistema
α1 = 0
α1 = 0
−α + α = 1
α = 1
1 2 2
⇔
α2 + α3 = 0
α3 = −1
α2 = 2 α2 = 2
Uma vez que o sistema é impossı́vel, conclui-se que x+2x3 6∈ L(S). Neste caso não se
justificava a utilização do método de Gauss para a resolução do sistema. Mas note-se
que se tivéssemos escrito o sistema acima da forma habitual, a matriz à qual irı́amos
aplicar o método de Gauss seria
1 0 0 | 0
−1 1 0 | 1
0 1 1 | 0
0 1 0 | 2
Os coeficientes dos polinómios em S aparecem nas primeiras três colunas. A última
coluna contém os coeficientes do polinómio x + 2x3 .
28 ÁLGEBRA LINEAR
(ii) Sendo S = {(1, 3, 2), (0, 1, 4), (1, 4, 6)} ⊂ R3 , vamos determinar equações cartesianas
que definam L(S). Os elementos de L(S) são os vetores (a, b, c) ∈ R3 para os quais é
possı́vel achar α1 , α2 , α3 ∈ R tais que
α1 (1, 3, 2) + α2 (0, 1, 4) + α3 (1, 4, 6) = (a, b, c)
Ou seja, são os vetores (a, b, c) tais que o seguinte sistema é possı́vel
1 0 1 | a 1 0 1 | a 1 0 1 | a
−3L1
3 1 4 | b L2−→ 0 1 1 | b − 3a L−→ 3 −4L2
0 1 1 | b − 3a
L3 −2L1
2 4 6 | c 0 4 4 | c − 2a 0 0 0 | c − 4b + 10a
Conclui-se que (a, b, c) ∈ L(S) ⇔ c−4b+10a = 0. Geometricamente, L(S) é um plano
que passa pela origem. Normalmente, esperarı́amos que três vetores em R3 formassem
um referencial e que qualquer outro vetor se pudesse escrever como combinação linear
deles mas neste caso (1, 3, 2)+(0, 1, 4) = (1, 4, 6) e portanto podemos escrever qualquer
combinação linear dos três vetores de S usando apenas os dois primeiros. A expansão
linear destes dois vetores é um plano que tem equação paramétrica
(x, y, z) = α1 (1, 3, 2) + α2 (0, 1, 4), com α1 , α2 ∈ R
e, como vimos acima, equação cartesiana
10x − 4y + z = 0.
Proposição 3.16. Seja V um espaço vetorial e S ⊂ V um subconjunto. Então L(S) é o
mais pequeno subespaço vetorial de V que contém S. Mais precisamente
• L(S) é um subespaço vetorial de V e S ⊂ L(S).
• Se W ⊂ V é um subespaço vetorial de V que contém S, então L(S) ⊂ W .
Dem. Se S é vazio então as condições são claramente verificadas. Suponhamos que S é não
vazio. L(S) contém S porque dado v ∈ S temos que 1 · v = v é uma combinação linear de
elementos de S e portanto pertence a L(S). Como S é não vazio, conclui-se que L(S) 6= ∅.
Para ver que L(S) é um subespaço vetorial precisamos agora de ver que L(S) é fechado
para a soma e para o produto por escalar. Seja λ ∈ R um escalar e α1 v1 + . . . + αn vn um
elemento de L(S). Então
λ(α1 v1 + . . . + αn vn ) = (λα1 )v1 + . . . + (λαn )vn
é também uma combinação linear de elementos de S e portanto pertence a L(S). Conclui-
se que L(S) é fechado para o produto por escalar. Por outro lado, dados dois elementos
α1 v1 + . . . + αn vn e β1 w1 + . . . + βm wm em L(S) a sua soma é
α1 v1 + . . . + αn vn + β1 w1 + . . . + βm wm
que é ainda uma combinação linear de elementos de S. Conclui-se que L(S) também é
fechado para a soma de vetores e portanto é um subespaço vetorial de V .
Finalmente, seja W um qualquer subespaço vetorial de V que contém S. Então dados
v1 , . . . , vn ∈ S e α1 , . . . , αn ∈ R temos que αi vi ∈ W (pois W é fechado para o produto por
escalar) e portanto
α1 v1 + . . . + αn vn ∈ W
ÁLGEBRA LINEAR 29
(porque W é fechado para a soma). Conclui-se que W contém qualquer combinação linear
de elementos de S, ou seja, que W contém L(S).
Devido ao resultado enunciado na Proposição anterior, chamamos a L(S) o subespaço
gerado por S e se W = L(S) dizemos que W é gerado por S e que S é um conjunto de
geradores para W .
Note-se que dado um subespaço vetorial W de V , podemos sempre encontrar um con-
junto S ⊂ W tal que W = L(S): de facto podemos sempre tomar S = W . Esta solução
não é na prática muito útil pois normalmente estaremos interessados em encontrar um
conjunto de geradores tão pequeno quanto possı́vel.
Exemplo 3.17. (i) Vamos achar um conjunto de geradores para o subespaço
a b
W = : a + b − 2c = 0, d − c + a = 0 ⊂ M2×2 (R)
c d
(é imediato verificar que W é de facto um subespaço vetorial de M2×2 (R)).
Podemos resolver o sistema dado pelas condições que definem W (aqui não se
justifica a aplicação do método de Gauss)
( (
a + b − 2c = 0 c = 12 a + 12 b
⇔
d−c+a=0 d = − 12 a + 12 b
O elemento tı́pico de W pode portanto escrever-se na forma
a b 1 0 0 1
1 =a 1 +b 1 1 com a, b ∈ R
2
a + 12 b − 12 a + 12 b 2
− 12 2 2
logo
1 0 0 1
S= 1 , 1 1
2
− 12 2 2
é um conjunto de geradores para W .
3.18. Subespaços de Rn associados a uma matriz. Seja A uma matriz m×n. Chama-
se espaço das linhas de A, e denota-se por EL(A) ao subespaço de Rn gerado pelas linhas
de A. Por exemplo, para
2 0 1 4
(15) A=
0 3 1 2
temos
EL(A) = L({(2, 0, 1, 4), (0, 3, 1, 2)}) ⊂ R4
Quando aplicamos o método de Gauss(-Jordan) a uma matriz, o espaço das linhas não
muda. De facto suponhamos que
A = A1 → A2 → · · · → Ak
é uma sucessão de matrizes obtida por aplicação o método de Gauss-Jordan à matriz A.
Uma vez que as linhas de Ai+1 são combinações lineares das linhas da matriz Ai temos que
{linhas de Ai+1 } ⊂ EL(Ai )
30 ÁLGEBRA LINEAR
e portanto, pela Proposição 3.16 temos EL(Ai+1 ) ⊂ EL(Ai ). Mas, as linhas de Ai também
são combinações lineares das linhas de Ai+1 , logo EL(Ai ) ⊂ EL(Ai+1 ) e conclui-se que
EL(Ai ) = EL(Ai+1 ). O método de Gauss-Jordan dá-nos portanto um método para deter-
minar um conjunto de geradores particularmente simples para o espaço das linhas de uma
matriz: as linhas não nulas da matriz em escada de linhas reduzida obtida como output
do algoritmo.
Analogamente definimos o espaço das colunas de uma matriz A do tipo m × n como o
subespaço de Rm gerado pelas colunas de A. Por exemplo, para a matriz (15) temos
EC(A) = L({(2, 0), (0, 3), (1, 1), (4, 2)}) = R2 .
Note-se que não é verdade que o espaço das colunas permaneça inalterado ao longo da
aplicação do método de Gauss.
Definição 3.19. Um espaço vetorial V diz-se finitamente gerado se existe um conjunto
finito S ⊂ V tal que V = L(S).
Exemplo 3.20. O espaço vetorial V formado por todos os polinómios reais não é finita-
mente gerado. De facto, sendo S = {p1 , . . . , pk } ⊂ V um conjunto finito de polinómios, e
ni o grau do polinómio pi podemos tomar
N = max{n1 , . . . , nk }
e claramente xN +1 não pode ser escrito como combinação linear de elementos de S. Isto
mostra que não existe um conjunto finito de geradores para V .
3.21. Dependência linear. Chegamos agora a um conceito fundamental da Álgebra Lin-
ear que generaliza os conceitos de colinearidade e complanaridade para vetores de R3 .
Definição 3.22. Seja V um espaço vetorial. Um conjunto S ⊂ V diz-se linearmente
dependente se existem v1 , . . . , vn ∈ S todos distintos e escalares α1 , . . . , αn não todos nulos
tais que
α1 v1 + . . . + αn vn = 0
Caso contrário, S diz-se linearmente independente. Um conjunto B ⊂ V diz-se uma base
de V se é linearmente independente e gera V .
Note-se que a negação da condição de dependência linear é logicamente equivalente à
seguinte condição, que utilizamos normalmente para testar independência linear:
S é linearmente independente se e só se dados v1 , . . . , vn elementos distintos
de S e escalares α1 , . . . , αn tais que α1 v1 + . . . + αn vn = 0 temos necessari-
amente α1 = · · · = αn = 0
Exemplo 3.23. (i) Seja S = {v} um conjunto com um único elemento. Se v = 0
então S é linearmente dependente uma vez que 1 · 0 é uma combinação linear com
coeficientes não nulos de elementos de S que produz o vetor 0. Se v 6= 0, então S é
linearmente independente. De facto, uma combinação linear de elementos de S com
coeficientes não nulos é da forma αv com α 6= 0 e é uma consequência dos axiomas
de espaço vetorial que sendo α 6= 0 e v 6= 0 então αv 6= 0 (ver os exercı́cios sobre
espaços vetoriais).
ÁLGEBRA LINEAR 31
às colunas que contêm pivots implica imediatamente que os coeficientes da combinação
linear são todos nulos. Por exemplo, para
2 1 1 4
A= 0 0 1 2
0 0 0 0
olhando apenas para a primeira e terceira componente dos vetores na equação
α1 (2, 1, 1, 4) + α2 (0, 0, 1, 2) = (0, 0, 0, 0)
vemos que
2α1 = 0 e α1 + α2 = 0
pelo que α1 = α2 = 0.
O método de Gauss dá-nos portanto uma maneira prática de determinar uma base
para o espaço das linhas de uma matriz (e, na prática, para qualquer subespaço de
um espaço vetorial finitamente gerado).
(ix) É um exercı́cio simples verificar que {1, x, x2 , . . . , xn , . . .} é uma base para o espaço
vetorial dos polinómios reais.
Intuitivamente, uma base para um espaço vetorial é um “referencial”. De facto, se B
é uma base de V , os coeficientes da combinação linear que exprime um vetor v ∈ V em
termos dos elementos de B são únicos: Admitindo que B = {v1 , . . . , vn }, qualquer vetor v
pode ser escrito na forma
v = α1 v1 + . . . + αn vn
(porque B gera V ) mas se tivermos também
v = β1 v1 + . . . + βn vn
então subtraindo as duas igualdades temos
0 = (α1 − β1 )v1 + . . . + (αn − βn )vn
e, uma vez que, B é um conjunto linearmente independente, isto implica que α1 − β1 =
0, . . . , αn − βn = 0. Os coeficientes dos elementos da base chamam-se as coordenadas de v
na base B. Uma base permite assim identificar os vetores de V com listas de n escalares
(ou seja com Kn ).
3.24. Bases e dimensão. O primeiro Teorema da Álgebra Linear é que todo o espaço
vetorial tem uma base e que todas as bases têm o mesmo número de elementos. Esse
número chama-se a dimensão de V . Vamos apenas mostrar este Teorema no caso de
espaços finitamente gerados, para os quais a dimensão é um número finito. O caso geral é
tratado em [FIS, Secção 1.7].
Este teorema será uma consequência de certas propriedades da relação de dependência
linear que passamos a explicar. Sugerimos que ao ler os enunciados que se seguem se tenha
em mente o exemplo de R3 e a interpretação geométrica usual da combinação linear de
vetores no espaço assim como dos subespaços lineares de R3 - retas, planos, etc.
ÁLGEBRA LINEAR 33
Mas T é linearmente independente, logo algum dos coeficientes βi tem de ser não nulo.
Então !
n
1 X X
ui = − αj vj + βj uj ∈ L(T ∪ {uj : j 6= i})
βi j=1 j6=i
Segue-se que L(S) = L(T ∪ {uj : j 6= i}). Portanto podemos tomar T 0 = {uj : j 6= i}, o
que conclui a demonstração.
Teorema 3.29. Seja V um espaço vetorial finitamente gerado. Então todas as bases de
V são conjuntos finitos com o mesmo número de elementos.
Dem. Seja S ⊂ V um conjunto finito com L(S) = V . Pelo Corolário 3.27 (i), S contém
uma base B para V . Seja n o número de elementos de B. Uma vez que L(B) = V , o Lema
3.28 garante que qualquer subconjunto linearmente independente de V tem no máximo n
elementos. Seja B 0 outra base para V . Uma vez que B 0 é linearmente independente, B 0
tem no máximo n elementos. Mas L(B 0 ) = V , e B ⊂ V é linearmente independente pelo
que uma nova aplicação do Lema 3.28 mostra que n = ]B ≤ ]B 0 . Conclui-se que B e B 0
têm o mesmo número de elementos.
Definição 3.30. O número de elementos de qualquer base de um espaço finitamente gerado
chama-se a dimensão de V e denota-se por dim V ou dimK (V ) para enfatizar o corpo dos
escalares. Se um espaço vetorial V não tem uma base finita, diz-se que tem dimensão
infinita.
Note-se que um espaço vetorial tem dimensão infinita se e só se não é finitamente gerado,
ou equivalentemente é de dimensão finita se e só se é finitamente gerado. Esta consequência
imediata do Corolário 3.27(i) fica como exercı́cio.
Exemplo 3.31. À luz do Exemplo 3.23(vii),(viii) e (ix) temos
(i) dim Rn = n.
(ii) Se A é uma matriz, então dim EL(A) é igual à caracterı́stica da matriz A.
(iii) O espaço dos polinómios tem dimensão infinita.
Intuitivamente, a dimensão de um conjunto é o número de parâmetros reais (ou coorde-
nadas) que necessitamos para descrever os pontos do conjunto. Por exemplo a superfı́cie
da Terra tem dimensão 2 pois um ponto à superfı́cie da terra é descrito por dois números
reais - a latitude e a longitude. Estas questões serão discutidas mais tarde na disciplina de
Cálculo 2. O Teorema 3.29 encoraja esta nossa intuição ao afirmar que numa gama restrita
de exemplos - aqueles em que o conjunto em questão tem a estrutura de um espaço veto-
rial finitamente gerado - não há qualquer ambiguidade quanto ao número de parâmetros
necessários para descrever o conjunto.
Exemplo 3.32. A dimensão do espaço M2×4 (R) é 8. De facto é imediato verificar que as
oito matrizes
1 0 0 0 0 1 0 0 0 0 0 0
E11 = , E12 = , . . . , E24 =
0 0 0 0 0 0 0 0 0 0 0 1
36 ÁLGEBRA LINEAR
constituem uma base. Mais geralmente dim Mm×n (R) = mn. Uma base é dada pelas
matrizes {Eij }1≤i≤m,1≤j≤n onde Eij designa a matriz que tem 1 como entrada ij e todas as
restantes entradas iguais a 0.
Corolário 3.33. Seja V um espaço vetorial de dimensão n.
(i) Qualquer conjunto linearmente independente com n vetores é uma base de V .
(ii) Qualquer conjunto de geradores de V tem pelo menos n elementos.
(iii) Qualquer conjunto linearmente independente tem no máximo n elementos. Equiva-
lentemente, todo o conjunto com mais de n elementos é linearmente dependente.
Dem. Pelo Corolário 3.27(i) todo o conjunto de geradores contém uma base e tem por-
tanto pelo menos n elementos, o que prova (ii). Pelo Corolário 3.27(ii) todo o conjunto
linearmente independente está contido numa base e portanto tem no máximo n elementos,
o que prova (iii). Para ver (i), seja T um conjunto linearmente independente com n ele-
mentos. Pelo Corolário 3.27(ii) existe uma base B contendo T . Como todas as bases têm
n elementos, B = T portanto T é uma base.
Observação 3.34. Com excepção do Corolário 3.33(i), todos os resultados demonstra-
dos acima que assumem que o espaço vetorial é finitamente gerado admitem versões para
espaços vetoriais arbitrários. Por exemplo em qualquer espaço vetorial é verdade que duas
bases têm o mesmo número de elementos, no sentido em que é possı́vel definir uma cor-
respondência bijetiva entre os elementos de uma base e da outra. A demonstração destas
versões mais gerais requer alguns conhecimentos de Teoria dos Conjuntos pelo que não
discutiremos estes resultados.
Vejamos como as propriedades dos conjuntos linearmente independentes e bases demon-
strados acima podem auxiliar no cálculo de bases e na determinação se um conjunto é ou
não linearmente dependente.
Exemplo 3.35. Vamos verificar que o conjunto B = {(1, 0, 1), (1, 1, 0), (0, 0, 3)} é uma
base para R3 e determinar as componentes de (1, 2, 1) nesta base.
Uma vez que dim R3 = 3, de acordo com o Corolário 3.33(i) para ver que B é uma base
basta-nos verificar que B é um subconjunto linearmente independente de R3 . Podemos
fazer isto (pelo menos) de duas formas:
• Usando a definição: B é linearmente independente se e só se
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (0, 0, 0) ⇒ α = β = γ = 0
A equação à esquerda da implicação é um sistema linear homogéneo cujas incógnitas
são os coeficientes α, β, γ. Resolvendo o sistema vemos se o conjunto é ou não
linearmente independente:
α + β = 0 α = 0
β=0 ⇔ β=0
α + 3γ = 0
γ = 0
ÁLGEBRA LINEAR 37
De facto tanto a soma como o produto por escalar são, em ambos os casos, efetuados coor-
denada a coordenada. Para determinar uma base para L(S) podemos portanto (conforme
o Exemplo 3.23(viii)) aplicar o método de Gauss a uma matriz cujas linhas são os vetores
38 ÁLGEBRA LINEAR
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
A combinação linear cos αL1 + sen αL2 das duas equações do sistema produz c1 =
cos α, e substituindo na segunda equação temos
(uma vez que cos α > 0). Em geral, podemos ver geometricamente qual é a relação
entre as coordenadas (a, b) de um vetor na base canónica e as suas coordenadas na
base B. As coordenadas na base B obtêm-se de (a, b) rodando este vetor um ângulo
α no sentido horário.
Vimos no exemplo anterior que as coordenadas na nova base B podiam ser obtidas a
partir das coordenadas noutra base (a base canónica) através de uma certa transformação.
É natural perguntar em geral qual é a relação entre as coordenadas de um vetor v ∈ V em
duas bases ordenadas B1 = (v1 , . . . , vn ) e B2 = (w1 , . . . , wn ) de V dadas.
Seja
v = α1 v1 + . . . + αn vn
40 ÁLGEBRA LINEAR
Observação 3.44. Note-se que o ponto (ii) da Proposição anterior diz, em particular,
que uma matriz de mudança de base é sempre invertı́vel. Reciprocamente, é um exercı́cio
verificar que qualquer matriz invertı́vel é uma matriz de mudança de base (a partir de
qualquer base dada).
4. Transformações lineares
Em cada área da Matemática estudamos um certos tipo de objetos matemáticos de
natureza variável. Por exemplo, em Álgebra Linear estudamos espaços vetoriais, enquanto
que em Geometria se pode estudar, por exemplo, curvas e superfı́cies. Normalmente estes
objetos consistem em conjuntos munidos de certa estrutura adicional. No caso dos espaços
vetoriais esta estrutura adicional toma a forma das operações de soma de vetores e o
produto de vetores por escalares. Para estudar os objetos em questão é sempre necessário
pensar em como se relacionam entre eles. As relações entre os objetos manifestam-se
através de funções entre os conjuntos subjacentes que preservam a estrutura adicional. No
caso que nos interessa agora isso leva-nos à seguinte definição.
Definição 4.1. Sejam V e W espaços vetoriais. Uma função f : V → W diz-se uma
transformação linear de V para W se
(i) f (v1 + v2 ) = f (v1 ) + f (v2 ) para todos os v1 , v2 ∈ V .
(ii) f (αv) = αf (v) para todo o v ∈ V e escalar α.
As transformações lineares são portanto as funções entre os conjuntos subjacentes aos
espaços vetoriais que preservam a soma e o produto por escalar. Note-se que na definição
acima aparecem duas somas (em geral) distintas no axioma (i): do lado esquerdo do sinal
de igual, a soma é a soma de vetores em V , enquanto que do lado direito se trata da soma
em W . Analogamente para os dois produtos por escalar que aparecem no axioma (ii).
Chamamos a atenção para as seguintes consequências imediatas dos axiomas acima: uma
transformação linear leva necessariamente o vetor 0 ∈ V no vetor 0 ∈ W . De facto, sendo
v ∈ V um vetor qualquer sabemos que 0 · v = 0. Como f preserva o produto por escalar
temos então
f (0) = f (0 · v) = 0 · f (v) = 0 ∈ W
A outra observação importante é que uma transformação linear leva combinações lineares
em V para combinações lineares em W : dados escalares α1 , . . . , αn e vetores v1 , . . . , vn
temos
f (α1 v1 + . . . + αn vn ) = f (α1 v1 ) + f (α2 v2 ) + . . . + f (αn vn )
= α1 f (v1 ) + . . . + αn f (vn )
Vejamos alguns exemplos de transformações lineares f : V → W .
Exemplo 4.2. (1) Sejam V = W = R = R1 . A função f : R → R definida pela
expressão f (x) = 2x é uma transformação linear. De facto temos
f (x1 + x2 ) = 2(x1 + x2 ) = 2x1 + 2x2 = f (x1 ) + f (x2 )
f (αx) = 2(αx) = α(2x) = αf (x)
ÁLGEBRA LINEAR 43
O gráfico de f é uma linha reta que passa pela origem. Mais geralmente, é fácil
ver (exercı́cio) que uma função f : R → R é uma transformação linear se e só se
f é uma função linear, isto é, da forma f (x) = ax para algum número real a ∈ R.
Assim, as transformações lineares são as funções reais de variável real cujos gráficos
são retas que passam pela origem.
Por exemplo, a expressão f (x) = 3x + 1 não define uma transformação linear
de R para R. De facto f (0 + 0) = 1 é diferente de f (0) + f (0) = 1 + 1 = 2.
Alternativamente, f (0) = 1 6= 0 e vimos acima que uma transformação linear leva
sempre o vetor nulo do conjunto de partida no vetor nulo do conjunto de chegada.
(2) Sejam V = W = R2 e identifiquemos como habitualmente R2 com o plano. Considere-
se a função f : R2 → R2 definida geometricamente como “rotação de 90 graus em
torno da origem no sentido anti-horário”. Apelando ao significado geométrico da
soma de vetores e produto por escalar é imediato verificar que esta transformação
preserva a soma de vetores e o produto por escalar pelo que é uma transformação
linear.
Podemos verificar a afirmação anterior obtendo uma expressão analı́tica para a
função f . Sendo (a, b) um vetor no primeiro quadrante é imediato verificar que
após a rotação o vetor fica com coordenadas (−b, a). É fácil verificar que o mesmo
sucede para qualquer vetor pelo que a expressão analı́tica para a rotação é
f (a, b) = (−b, a)
Podemos agora ver que f é uma transformação linear:
f ((a1 , b1 ) + (a2 , b2 )) = f (a1 + a2 , b1 + b2 )
= (−b1 − b1 , a1 + a2 ) = (−b1 , a1 ) + (−b2 , a2 )
= f (a1 , b1 ) + f (a2 , b2 )
e
f (α(a, b)) = f (αa, αb) = (−αb, αa) = α(−b, a) = f (a, b)
Note-se que identificando os vetores de R2 com matrizes coluna 2 × 1, podemos
escrever f da seguinte forma
a 0 −1 a
f =
b 1 0 b
(3) Seja V = Rn , W = Rm e A uma matriz m × n. Identificando como habitual-
mente vetores de Rn com matrizes coluna podemos definir uma transformação linear
f : Rn → Rm através da fórmula
f (x) = Ax
O exemplo anterior é um caso particular deste. De facto, o primeiro exemplo
também é. Nesse caso, A = [a] é uma matriz 1 × 1.
(4) Seja W = F (R, R) o espaço vetorial das funções reais de variável real e
V = {f ∈ W : f é diferenciável}
44 ÁLGEBRA LINEAR
[v]B = ...
αn
Uma base finita B com n elementos determina uma função f : V → Mn×1 (R) definida
por
f (v) = [v]B
que é uma bijeção (pela unicidade das coordenadas). Aliás é esta identificação que temos
usado, informalmente, para efetuar cálculos em espaços vetoriais de polinómios e matrizes.
Exercı́cio 4.8. Dado um espaço vetorial V e uma base B = (v1 , . . . , vn ) para V , verifique
que a função f : V → Mn×1 (R) definida por f (v) = [v]B é uma transformação linear.
Proposição 4.9. Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vn ) e B2 = (w1 , . . . , wm )
bases ordenadas para V e W respetivamente. Seja f : V → W uma transformação linear.
ÁLGEBRA LINEAR 47
Então existe uma única matriz Af,B1 ,B2 ∈ Mm×n (R) tal que, para todo o vetor v ∈ V se
tem
[f (v)]B2 = Af,B1 ,B2 [v]B1
A matriz Af,B1 ,B2 diz-se a matriz que representa a transformação linear f com respeito
às bases B1 e B2 .
Exemplo 4.10. (i) Seja V um espaço vetorial com bases B1 = (v1 , . . . , vn ) e B2 =
(w1 , . . . , wn ) e Id : V → V a função identidade (definida por Id(v) = v). É imediato
verificar que Id é uma transformação linear. Temos então, por definição de matriz
mudança de base
AId,B1 ,B2 = SB1 →B2
De facto, a identidade
[Id(v)]B2 = AId,B1 ,B2 [v]B1 ⇔ [v]B2 = AId,B1 ,B2 [v]B1
mostra que AId,B1 ,B2 satisfaz a relação que caracteriza a matriz de mudança de coor-
denadas, e como tal (por unicidade), é a matriz de mudança de coordenadas SB1 →B2 .
(ii) Seja V o espaço vetorial dos polinómios de grau ≤ 3 e considere-se a transformação
linear T : V → V definida por T (p) = p0 . Uma vez que
T (a + bx + cx2 + dx3 ) = b + 2cx + 3dx2 ,
sendo B = (1, x, x2 , x3 ) a base canónica, a equação [T (p)]B = AT,B,B [p]B para a
matriz AT,B,B fica
b a
2c b
3d = AT,B,B c
0 d
e conclui-se então que
0 1 0 0
0 0 2 0
AT,B,B =
0 0 0 3
0 0 0 0
Vale a pena refletir durante um momento no facto de a matriz acima representar a
operação de derivação (embora no contexto restrito dos polinómios de grau menor ou
igual a 3).
Dem. da Proposição 4.9. Vejamos primeiro que se a matriz Af,B1 ,B2 existir, ela é única.
Para o i-ésimo vetor da base B1 , v = vi , a equação que caracteriza a matriz Af,B1 ,B2 é
[f (vi )] = Af,B1 ,B2 [vi ]B1
mas, uma vez que [vi ]B1 tem todas as entradas iguais a 0 exceto a i-ésima que é igual a
1, o produto no termo direito da equação acima é a i-ésima coluna da matriz Af,B1 ,B2 .
Isto mostra que a matriz Af,B1 ,B2 fica univocamente determinada: se existir, a sua i-ésima
coluna é necessariamente igual a [f (vi )]B2 .
48 ÁLGEBRA LINEAR
Para completar a demonstração basta agora verificar que a matriz m × n cuja i-ésima
coluna é [f (vi )]B2 satisfaz a equação do enunciado. Seja v = α1 v1 + . . . + αn vn um vetor
de V . Então
[f (v)]B2 = [f (α1 v1 + . . . + αn vn )]B2
= [α1 f (v1 ) + . . . + αn f (vn )]B2
= α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
onde na segunda igualdade usámos o facto de f ser uma transformação linear e na terceira
o Exercı́cio 4.8. Pela definição do produto de matrizes a expressão
α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
é exatamente o produto da matriz que tem por i-ésima coluna [f (vi )]B2 pelo vetor col-
una com componentes (α1 , . . . , αn ), que por sua vez, é exatamente [v]B1 . Isto conclui a
demonstração.
A Proposição 4.9 permite identificar uma transformação linear entre espaços vetoriais
de dimensão finita com uma matriz mediante a escolha de bases para o espaço vetorial de
partida e de chegada. Além disso explica como obter a matriz em questão: é a matriz cuja
i-ésima coluna contém as coordenadas da imagem do i-ésimo vetor da base do espaço de
partida na base do espaço de chegada.
Isto é extremamente útil para fazer contas com transformações lineares como iremos ver
em seguida. Convém no entanto notar que a Proposição não se aplica a todos os exemplos
de transformação linear que queremos considerar - por exemplo, à operação de derivação
de funções diferenciáveis arbitrárias. Por outro lado, o objeto em que normalmente esta-
mos interessados é a transformação linear ela própria e não uma (das muitas possı́veis)
representações matriciais que usamos para calcular. Uma analogia que pode ser útil é que
uma transformação linear é como uma ideia, que se pode exprimir em várias lı́nguas, as
bases nos espaços de partida e de chegada são como uma escolha de lı́ngua, e a matriz que
representa a transformação linear é a palavra que representa a ideia na lı́ngua escolhida.
4.11. Operações com transformações lineares e a sua tradução em matrizes.
As transformações lineares podem ser combinadas através de várias operações que agora
passamos a descrever.
Definição 4.12. Sejam V e W espaços vetoriais. Escrevemos L(V, W ) para o conjunto
das transformações lineares de V para W . Dadas f, g ∈ L(V, W ) e um escalar α definimos
a soma de f e g como sendo a função f + g : V → W definida pela expressão
(f + g)(v) = f (v) + g(v)
e definimos o produto de uma transformação linear f pelo escalar α como sendo a função
αf : V → W definida pela expressão
(αf )(v) = α · f (v).
Proposição 4.13. Sejam V e W espaços vetoriais. Com as operações de soma e produto
por escalar definidas acima, o conjunto L(V, W ) é um espaço vetorial.
ÁLGEBRA LINEAR 49
Dem. Temos a verificar que as operações de soma e produto por escalar estão bem definidas,
isto é, que dadas f, g ∈ L(V, W ) e um escalar f , as funções f + g e αf estão ainda em
L(V, W ) e depois os oito axiomas que estas operações devem satisfazer num espaço vetorial.
Vemos primeiro que f + g é uma transformação linear: dados v1 , v2 ∈ V temos
(f + g)(v1 + v2 ) = f (v1 + v2 ) + g(v1 + v2 ) = f (v1 ) + f (v2 ) + g(v1 ) + g(v2 )
= f (v1 ) + g(v1 ) + f (v2 ) + g(v2 ) = (f + g)(v1 ) + (f + g)(v2 )
e dado um escalar α e v ∈ V temos
(f + g)(αv) = f (αv) + g(αv) = αf (v) + αg(v) = α(f (v) + g(v)) = α((f + g)(v))
A verificação que (αf ) ∈ L(V, W ) é análoga e fica como exercı́cio. A verificação dos
axiomas de espaço vetorial é também deixada como exercı́cio. Notamos apenas que o vetor
0 ∈ L(V, W ) é a transformação linear identicamente nula que envia todos os vetores v ∈ V
para 0 ∈ W .
Proposição 4.14. Sejam V, W, U espaços vetoriais e f : V → W , e g : W → U trans-
formações lineares. Então a função composta
g◦f: V →U
é uma transformação linear.
Dem. Temos a verificar que g ◦ f preserva a soma e o produto por escalar.
• Dados v1 , v2 ∈ V temos
(g◦f )(v1 +v2 ) = g(f (v1 +v2 )) = g(f (v1 )+f (v2 )) = g(f (v1 ))+g(f (v2 )) = (g◦f )(v1 )+(g◦f )(v2 )
onde na segunda igualdade usámos o facto de f ser uma transformação linear, e na
terceira, o facto de g ser uma transformação linear.
• Dados um escalar α e um vetor v ∈ V temos
(g ◦ f )(αv) = g(f (αv)) = g(αf (v)) = αg(f (v)) = α(g ◦ f )(v)
onde, tal como acima, na segunda igualdade usámos o facto de f ser uma trans-
formação linear, e na terceira, o facto de g ser uma transformação linear.
Proposição 4.15. Sejam V, W espaços vetoriais e f : V → W uma transformação linear.
Se a função f é invertı́vel (isto é, se é bijetiva) então a função inversa f −1 : W → V é
uma transformação linear.
Proof. Temos a verificar que a função inversa f −1 preserva a soma e a multiplicação por
escalar. Sejam w1 , w2 vetores de W . Como f é sobrejetiva existem vetores v1 e v2 de V
tais que f (v1 ) = w1 e f (v2 ) = w2 . Então
f −1 (w1 + w2 ) = f −1 (f (v1 ) + f (v2 )) = f −1 (f (v1 + v2 )) = (f −1 ◦ f )(v1 + v2 ) = v1 + v2
onde na segunda igualdade usámos o facto de f ser uma transformação linear. Por definição
de função inversa temos que v1 = f −1 (w1 ) e v2 = f −1 (w2 ). Substituindo na igualdade acima
50 ÁLGEBRA LINEAR
com uma matriz. Estes factos são muito úteis para fazer contas. Já foram usados muitas
vezes e continuarão a ser usados até ao final do semestre para esse efeito. No entanto não
seria uma boa ideia concluir daqui que nos podemos concentrar exclusivamente em Rn e
nas matrizes. Apesar de ser possı́vel identificar um espaço finitamente gerado com algum
Rn não há em geral nenhuma maneira canónica de o fazer. A identificação é feita através
de uma escolha de base e há muitas escolhas possı́veis. Um espaço vetorial geral não possui
coordenadas especiais (ao contrário do que acontece em Rn e em vários outros exemplos
que temos vindo a considerar como os espaços de matrizes) e esta é uma diferença muito
importante. Veremos em breve que as soluções de certas equações diferenciais formam
espaços vetoriais nos quais não há habitualmente qualquer “base canónica”. O mesmo se
pode dizer para um subespaço vetorial tı́pico de Rn . Pensar num vetor em termos das suas
coordenadas numa base é análogo a pensar numa ideia através da palavra que é usada para
designar a ideia numa dada lı́ngua.
Proposição 4.19. Sejam V, W, U espaços vetoriais, B1 , B2 , B3 bases ordenadas para V, W, U
respetivamente, e f : V → W , g : W → U transformações lineares. Então a matriz que
representa a transformação linear g◦f nas bases dadas é o produto da matriz que representa
g pela matriz que representa f . Isto é,
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
Dem. Dado v ∈ V temos pela definição das matrizes que representam f e g
[(g ◦ f )(v)]B3 = [g(f (v))]B3 = Ag,B2 ,B3 [f (v)]B2
= Ag,B2 ,B3 (Af,B1 ,B2 [v]B1 ) = (Ag,B2 ,B3 Af,B1 ,B2 )[v]B1
donde, pela unicidade da matriz que representa g ◦ f conclui-se que
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
conforme pretendido.
Esta proposição explica a associatividade do produto de matrizes: o produto de matrizes
é a tradução através dos isomorfismos do Exemplo 4.18(iii) da composição de funções, que
é uma operação associativa.
Observação 4.20. É possı́vel pensar visualmente na correspondência entre transformações
lineares e matrizes, e em particular na Proposição anterior da seguinte forma. Considere-
se o diagrama
f
V W
(19) [·]B1 ∼
= [·]B2 ∼
=
Af,B1 ,B2
Mn×1 (R) Mm×1 (R)
onde as setas representam transformações lineares com domı́nio a origem da seta e conjunto
de chegada o término da seta. As setas pretendem representar visualmente que os vetores
do espaço da origem são “transportados” pela transformação linear do seu domı́nio até
ao espaço vetorial de chegada. O sı́mbolo ∼ = designa isomorfismo e os isomorfismos no
ÁLGEBRA LINEAR 53
diagrama acima são os do Exemplo 4.18(ii) que calculam a matriz coluna das coordenadas,
ou seja, v 7→ [v]B1 para a seta da esquerda e w 7→ [w]B2 para a seta da direita. A equação
(20) [f (v)]B2 = Af,B1 ,B2 [v]B1
diz que se obtém o mesmo resultado quando se faz um vetor v ∈ V seguir os dois possı́veis
trajetos do canto superior esquerdo até ao canto inferior direito em (19): do lado esquerdo
de (20) temos o efeito de seguir primeiro a seta de cima e depois a seta da direita; do lado
direito de (20) segue-se primeiro a seta da esquerda e depois a de baixo.
Quando independentemente do caminho seguido entre dois nós do diagrama se obtém
sempre o mesmo resultado diz-se que o diagrama é comutativo. Portanto a equação (20)
traduz a comutatividade de (19).
Nestes termos, a Proposição 4.19 traduz a comutatividade do retângulo exterior no
seguinte diagrama
f g
V W U
[·]B1 ∼
= [·]B2 ∼
= [·]B3 ∼
=
Af,B1 ,B2 Ag,B2 ,B3
Mn×1 (R) Mm×1 (R) Mp×1 (R)
que é claramente uma consequência da comutatividade dos dois quadrados.
Corolário 4.21. Sejam V, W espaços vetoriais, f : V → W uma transformação linear
invertı́vel e B1 , B2 bases para V e W respetivamente. Então Af −1 ,B2 ,B1 = (Af,B1 ,B2 )−1 .
Dem. Uma vez que f ◦ f −1 = IdW e f −1 ◦ f = IdV , e que a matriz que representa a
transformação linear identidade com respeito a uma mesma base num espaço vetorial é a
matriz identidade, pela Proposição anterior temos
Af,B1 ,B2 Af −1 ,B2 ,B1 = I Af −1 ,B2 ,B1 Af,B1 ,B2 = I
(onde I designa a matriz identidade).
4.22. Subespaços vetoriais associados a uma transformação linear.
Definição 4.23. Seja f : V → W uma transformação linear. O núcleo de f é o conjunto
N (f ) = {v ∈ V : f (v) = 0}
e a imagem de f é o conjunto
f (V ) = {f (v) : v ∈ V } ⊂ W
Proposição 4.24. Seja f : V → W uma transformação linear. Então N (f ) é um sube-
spaço vetorial de V e f (V ) é um subespaço vetorial de W .
Dem. Uma vez que f (0) = 0 temos que 0 ∈ N (f ) e 0 ∈ f (V ) pelo que estes conjuntos são
não vazios. Vejamos que N (f ) é um subespaço vetorial:
• Sendo v1 , v2 ∈ N (f ) temos f (v1 +v2 ) = f (v1 )+f (v2 ) = 0+0 = 0 logo v1 +v2 ∈ N (f ).
• Sendo α um escalar e v ∈ N (f ) temos f (αv) = αf (v) = α0 = 0 logo αv ∈ N (f ).
Quanto a f (V ):
54 ÁLGEBRA LINEAR
Para o ano que vem irão aprender que uma solução de uma equação diferencial como
(21) é completamente determinada por x(0) e x0 (0) (fisicamente isto diz que a evolução da
posição da partı́cula é completamente determinada pela sua posição e velocidade iniciais).
Assim o conjunto das soluções é um espaço vetorial de dimensão 2 (um vetor é determinado
por dois números reais) e portanto a fórmula (23) descreve a solução geral da equação (22).
No caso da equação (22) podemos verificar a afirmação anterior diretamente recorrendo
à conservação da energia. Definindo a quantidade
E(t) = (x0 )2 + x2
(correspondendo à soma das energia cinética e potencial) temos
dE
= 2x0 x00 + 2xx0 = 2x0 (−x) + 2xx0 = 0
dt
logo a quantidade (x0 )2 + x2 é conservada ao longo do tempo para qualquer solução da
equação diferencial (22). Em particular se x(t) for uma solução com x(0) = x0 (0) = 0
teremos (x0 (t))2 + x(t)2 = 0 para todo o t e portanto x(t) = 0.
Isto permite-nos concluir que os valores de x(0) e x0 (0) determinam completamente a
solução x(t) para todo o t: se x(t) e y(t) forem soluções de (22) com x(0) = y(0) e
x0 (0) = y 0 (0) então u(t) = x(t) − y(t) é também uma solução de (22) (porque se trata
de uma equação linear!) que satisfaz u(0) = u0 (0) = 0. Mas então u(t) = 0 e portanto
x(t) = y(t).
É agora imediato verificar que as soluções (23) permitem atribuir valores arbitrários a
x(0) e x0 (0) mediante variação dos coeficientes α1 e α2 (na realidade α1 = x(0) e α2 =
x0 (0)) e portanto descrevem todas as soluções de (22).
Suponhamos agora que queremos resolver a equação9
(24) x00 + x = t3
Trata-se agora de uma equação linear não homogénea. Não é no entanto difı́cil descobrir
uma solução particular desta equação tentando encontrar um polinómio que a satisfaça.
Se o fizer irá ver que o único polinómio que satisfaz esta equação é
x(t) = t3 − 6t
A Proposição 4.39 diz-nos então que a solução geral da equação (24) é
x(t) = t3 − 6t + α1 cos t + α2 sen t, com α1 , α2 ∈ R.
5. O Determinante
O nosso objetivo seguinte é compreender em completo detalhe as transformações lineares
T : V → V onde V é um espaço vetorial complexo de dimensão finita. Para atingir este
objetivo vai ser útil ter um critério para a invertibilidade de uma matriz quadrada em
termos das suas entradas. O critério irá dizer que uma matriz A ∈ Mn×n (K) é invertı́vel se
9Fisicamente esta equação corresponde a adicionar ao sistema mecânico considerado anteriormente uma
força exterior dependente do tempo que actua com intensidade t3 /m (onde m é a massa da partı́cula).
62 ÁLGEBRA LINEAR
e só se uma certa expressão complicada das entradas da matriz (chamada o determinante
da matriz) não se anula.
5.1. Motivação. Para motivar esta expressão vamos começar por discutir o caso em que
o corpo K é o dos números reais, caso em que o determinante tem uma interpretação
geométrica. Consideremos primeiro os casos n = 2 e n = 3.
A uma matriz A ∈ M2×2 (R) podemos associar um paralelogramo
gerado pelas linhas v1 e v2 da matriz. A matriz será invertı́vel se o seu espaço das linhas
for R2 , ou, equivalentemente, se o paralelogramo P (v1 , v2 ) não degenerar num segmento
de reta (ou até na origem). Apelando ao conceito intuitivo de área podemos dizer que a
matriz será invertı́vel se a área do conjunto P (v1 , v2 ) for não nula.
Analogamente, uma matriz 3×3 terá caracterı́stica menor que 3 se e só se o paralelipı́pedo
gerado pelas linhas v1 , v2 , v3 da matriz tiver volume nulo. Mais geralmente pode definir-se
uma noção de volume n-dimensional para um subconjunto de Rn (como irão ver em Cálculo
2) e então a condição para a invertibilidade de uma matriz em Mn×n (R) é que o volume
n-dimensional do paralelipı́pedo n-dimensional P (v1 , . . . , vn ) gerado pelas linhas da matriz
seja não nulo.
Se conseguirmos obter uma fórmula para o volume n-dimensional do paralelipı́pedo ger-
ado por n vetores em Rn isso dar-nos-á um critério para a invertibilidade da matriz: que o
volume do paralelipı́pedo gerado pelas linhas seja não nulo. A observação básica que nos
permite obter esta fórmula é a seguinte:
Ao deslizar em conjunto duas arestas de um paralelogramo ao longo da reta
gerada por outra das outras arestas, a área do paralelogramo não se altera
ÁLGEBRA LINEAR 63
ou seja
(25) área(P (v1 , v2 )) = área(P (v1 + αv2 , v2 ))
(e claro que o mesmo se verifica se deslizarmos o ponto final de v2 ao longo da direção
v1 ). Esta fórmula diz-nos por exemplo que as áreas dos paralelogramos determinados pelas
linhas das matrizes
a 0 a 0
e
c d 0 d
são iguais, pois (0, d) pode obter-se de (c, d) deslizando ao longo de (a, 0) (a não ser que
a = 0, mas nesse caso as áreas são nulas e a afirmação permanece verdadeira). Assim, a
área do paralelogramo com arestas (a, 0) e (c, d) é a área do retângulo com arestas (a, 0) e
(0, d), ou seja |ad| (mesmo que a ou d sejam 0). Mas a fórmula (25) diz-nos mais geralmente
que quando aplicamos o método de Gauss a uma matriz 2 × 2, a área do paralelogramo
associado não muda! Supondo que a 6= 0 temos
a b L2 − ac L1 a b
−→
c d 0 d − bca
logo concluı́mos que a área de um paralelogramo com arestas (a, b) e (c, d) é
bc
área (P ((a, b), (c, d))) = |a| · d − = |ad − bc|
a
É um exercı́cio simples verificar que esta fórmula permanece válida mesmo quando a = 0.
Obtemos assim a condição desejada nas entradas da matriz:
a b
é invertı́vel sse ad − bc 6= 0
c d
Podemos fazer um raciocı́nio análogo para matrizes 3 × 3 mas a fórmula obtida será
agora mais complicada. Novamente o volume de um paralelipı́pedo P (v1 , v2 , v3 ) em R3
64 ÁLGEBRA LINEAR
não se alterará se deslizarmos o ponto final de uma das arestas paralelamente ao plano
determinado pelas outras duas, ou seja, por exemplo
volume P (v1 + αv2 , v2 , v3 ) = volume P (v1 , v2 , v3 )
Portanto o volume de um paralelipı́pedo com arestas as linhas da matriz
a b c
0 e f
0 0 i
será o volume do paralelipı́pedo reto com arestas de comprimento |a|, |e| e |i|, e podemos
reduzir a este caso usando eliminação de Gauss:
a b c
a b c
L3 −
gb
h− a
L1
a b c
− ad L1 e− db 0 e − db f − dc
d e f L2−→ 0 e − db
f − dc
−→ a
a a
g
L3 − a L1 a a gb
h− a
gb gc gc dc
g h i 0 h− a i− a 0 0 i − a − e− db (f − a )
a
A demonstração deste teorema segue o padrão usual: iremos ver que só há uma possibili-
dade para uma tal função (obtendo no processo uma fórmula para o determinante) e depois
verificar que essa única possibilidade satisfaz de facto os axiomas da definição. Começamos
por ilustrar este processo usando os axiomas para ver que a única função determinante nas
matrizes 2 × 2 é
a b
det = ad − bc
c d
Sendo a, b, c, d ∈ K quaisquer e aplicando a linearidade do determinante na primeira linha
da matriz temos
a b 1 0 0 1
c d = a c d + b c d
Os primeiro e último termos do lado direito do sinal de igual na expressão acima são nulos
porque as linhas das matrizes em questão estão repetidas. Pelas propriedades (iii) e (ii)
respetivamente temos
1 0 0 1
1 0 = −1
=1 e
0 1
portanto
a b
= ad − bc
c d
é a única função real das matrizes 2 × 2 que satisfaz as condições da Definição 5.3.
Façamos agora o caso mais realista de uma matriz 3 × 3. Assumindo que existe a função
determinante e usando linearidade na primeira linha obtemos
a b c 1 0 0 0 1 0 0 0 1
(27) d e f = a d e f + b d e f + c d e f
g h i g h i g h i g h i
O primeiro termo na soma do lado direito é nulo porque a primeira linha está repetida.
Da mesma forma, cada parcela do lado direito em (27) vai dar origem a dois termos não
nulos quando aplicarmos linearidade ao longo da segunda linha da matriz. Podemos agora
68 ÁLGEBRA LINEAR
aplicar linearidade ao longo da terceira linha a cada um destes 6 termos. Por exemplo,
para o primeiro dos seis resultaria
1 0 0 1 0 0 1 0 0 1 0 0
ae 0 1 0 = ae g 0 1 0 + h 0 1 0 + i 0 1 0 = aei
g h i 1 0 0 0 1 0 0 0 1
uma vez que os dois primeiros termos da soma anterior têm linhas repetidas e o determi-
nante da matriz identidade é 1. Aplicando o mesmo raciocı́nio para os restantes termos não
nulos na expansão até à segunda linha obtemos a seguinte expressão para o determinante:
1 0 0 0 1 0 0 1 0 0 0 1 0 0 1
aei + af h 0 0 1 + bdi 1 0 0 + bf g 0 0 1 + cdh 1 0 0 + ceg 0 1 0
0 1 0 0 0 1 1 0 0 0 1 0 1 0 0
Os determinantes das matrizes com 0s e 1s são ±1 consoante o número de vezes que temos
que trocar um par de linhas para transformar a matriz na identidade é par ou ı́mpar.
Recuperamos assim a expressão para o determinante de uma matriz 3 × 3:
a b c
d e f = aei − af h − bdi + bf g + cdh − ceg
g h i
Os sinais da fórmula anterior podem ser memorizados usando a seguinte mnemónica (que
se chama a regra de Sarrus):
Procedendo desta forma para uma matriz n × n é agora claro que vamos obter uma
expressão para o determinante. Haverá um termo não nulo na expressão para cada matriz
de 1s e 0s que tenha exatamente um 1 em cada linha e em cada coluna. Para descrever
estes termos por meio de uma expressão necessitamos de alguma terminologia.
Definição 5.7. Uma permutação do conjunto {1, . . . , n} é uma função bijetiva
σ : {1, . . . , n} → {1, . . . , n}
Designamos por Σn o conjunto de todas estas permutações.
Uma permutação descreve uma troca de ordem. Deve ser familiar do ensino secundário
que o número de elementos de Σn é n!. Os termos na expansão do determinante vão
corresponder precisamente às permutações: se chamarmos σ(i) à coluna em que aparece
ÁLGEBRA LINEAR 69
o 1 na linha i, a condição que não apareçam dois 1s na mesma coluna é σ(i) 6= σ(j) para
i 6= j, ou seja é a injetividade da função σ. Como uma função injetiva de um conjunto
com n elementos para ele próprio é necessariamente uma bijeção, conclui-se que a função
determinada por uma matriz de 0s e 1s satisfazendo as condições indicadas é uma bijeção.
O termo do determinante de A correspondente a uma permutação σ será dado pelo
produto das entradas de A que ocorriam nas posições onde estão os 1s, ou seja o produto
dos aiσ(i) com i = 1, . . . , n. O termo terá um sinal que será ± consoante o número de vezes
que temos que trocar pares de linhas para transformar a matriz de 0s e 1s na identidade
é par ou impar. Chamando a este sinal sgn(σ) - o sinal da permutação σ - obtemos a
seguinte expressão para o determinante:
X
(28) det(A) = sgn(σ)a1σ(1) a2σ(2) · · · anσ(n)
σ∈Σn
O argumento anterior torna claro que se existir uma função determinante, ela é única (tem
que ser dada pela fórmula (28)!). Mas neste momento não é ainda claro que uma tal função
exista. Há muitas maneiras de trocar pares de linhas de forma a obter a matriz identidade
a partir de uma matriz de 0s e 1s. Se para uma das maneiras o número de trocas fosse
par e para outra maneira fosse ı́mpar concluir-se-ia que a função determinante não podia
existir.
Não é fácil verificar diretamente que o sinal de uma permutação está bem definido. Em
vez disso vamos dar uma construção indutiva do determinante. Uma vez que isto esteja
feito teremos implicitamente provado que o sinal de uma permutação está bem definido!
Será necessariamente
(
1 se j = σ(i)
(29) sgn(σ) = det A(σ) com A(σ) a matriz com entradas aij =
0 caso contrário.
A matriz A(σ) diz-se uma matriz de permutação. O efeito que tem nas coordenadas de um
vetor linha ou coluna é uma permutação das coordenadas. Por exemplo,
x1 xσ(1)
x2 xσ(2)
A(σ)
... = ...
xn xσ(n)
É um bom exercı́cio ver o que acontece quando se multiplica A(σ) à esquerda por um vetor
linha.
Dem. do Teorema 5.6. Já vimos que se existir uma função determinante ela é única (e
dada pela fórmula (28)). Vamos ver por indução em n que existe uma função determinante
para matrizes n × n. Quando n = 1, é imediato que
det([a11 ]) = a11
Suponhamos que já definimos uma função determinante nas matrizes n × n. Dada uma
matriz A do tipo (n + 1) × (n + 1), seja A1i a matriz n × n que se obtém de A suprimindo
70 ÁLGEBRA LINEAR
Observação 5.8. Uma função f : Mn×n (K) → K satisfazendo as propriedades (i) e (ii)
na Definição 5.3 chama-se uma função multilinear alternante das linhas da matriz. O
argumento usado na demonstração de unicidade do determinante aplicado a uma tal função
(sem qualquer alteração) mostra que
X
f (A) = sgn(σ)a1σ(1) · · · anσ(n) f (In )
σ∈Σn
pelo que o valor de uma tal função em qualquer matriz é completamente determinado pelo
valor que assume na matriz identidade. Mas sendo λ ∈ K qualquer, a função A 7→ λ det(A)
é uma função multilinear alternante que assume o valor λ em In , pelo que se conclui que
toda a função multilinear alternante é da forma
f (A) = λ det(A)
em que λ = f (In ).
5.9. Propriedades do determinante. Vamos agora ver algumas propriedades impor-
tantes do determinante que nos ajudam a calculá-lo.
Definição 5.10. Seja A uma matriz n × n. Para 1 ≤ i, j ≤ n designamos por Aij a
matriz (n − 1) × (n − 1) que se obtém de A omitindo a i-ésima linha e a j-ésima coluna.
O menor-ij de A é o número det Aij e o cofator-ij de A é (−1)i+j det Aij . A matriz n × n
cuja entrada ij é o cofator-ij diz-se a matriz dos cofatores de A e denota-se por cof A.
Proposição 5.11 (Propriedades do determinante). Sejam A e B matrizes n × n.
(i) Expansão de Laplace: Sendo 1 ≤ i ≤ n, temos
Xn
det(A) = (−1)i+j aij det(Aij )
j=1
Notamos agora que as matrizes Ã1j e Aij diferem pela troca da (i−1)-ésima linha com
o bloco formado pelas linhas que a precedem - o que corresponde a (i − 2)-trocas de
pares de linhas à medida que a linha (i − 1) “flutua até chegar à superfı́cie”. Portanto
det(Ã1j ) = (−1)i−2 det Aij
Substitituindo em (31) obtemos a fórmula pretendida.
(ii) Fixada uma matriz B, considere-se a função f : Mn×n (R) → R definida por
f (A) = det(AB)
Trata-se de uma função multilinear e alternante das linhas de A pela definição do pro-
duto de matrizes e pelas propriedades (i) e (ii) na definição de função determinante.
Uma vez que f (In ) = det(B), a Observação 5.8 diz-nos que f (A) = det(A) det(B).
(iii) A expressão (28) diz-nos que
X X
det(AT ) = sgn(σ)aT1σ(1) · · · aTnσ(n) = sgn(σ)aσ(1)1 · · · aσ(n)n
σ∈Σn σ∈Σn
ÁLGEBRA LINEAR 73
pelo que
n
1 X
xi = (−1)i+j bj det(Aji )
det A j=1
O somatório na expressão anterior é exatamente o desenvolvimento de Laplace ao longo
da coluna i da matriz Ai do enunciado. Isto conclui a demonstração.
Exemplo 5.18. Vamos achar a coordenada y da solução do sistema
2x + 3y + z = 3
x−y+z =4
x + 2y − z = 5
5.19. O determinante de uma matriz triangular por blocos. Recorde que uma
matriz quadrada A diz-se triangular superior se aij = 0 para i > j (isto é se todas as
entradas abaixo da diagonal principal são nulas) e triangular inferior se aij = 0 para i < j
(isto é se todas as entradas acima da diagonal principal são nulas).
Usando a expansão de Laplace e indução, é imediato verificar que o determinante de
uma matriz triangular (superior ou inferior) é igual ao produto das entradas na diagonal
λ1 ∗ · · · ∗
.. .
0 λ2
. ..
. . = λ1 · · · λn
.. . . . . . ...
0 · · · 0 λn
Uma generalização da última propriedade que é muito útil diz respeito ao cálculo de
determinantes de matrizes escritas por blocos.
Proposição 5.20. O determinante de uma matriz triangular por blocos com blocos quadra-
dos na diagonal é o produto dos determinantes dos blocos diagonais
A1 ∗ · · · ∗
. .
0 A2 . . ..
. . = |A1 | · · · |An |
.. . . . . . ...
0 · · · 0 An
Dem. Exercı́cio.
76 ÁLGEBRA LINEAR
Exemplo 5.21.
1 0 5 11 6
3 2 3 27 5
1 0 3 2
0 0 4 2 2 =
· 4 · = 2 · 4 · 10 = 80
3 2 1 4
0 0 0 3 2
0 0 0 1 4
5.22. O produto externo de vetores.
Definição 5.23. Sejam v, w ∈ R3 . O produto externo de v e w é o vetor v × w ∈ R3
definido por
e1 e2 e3
v × w = v1 v2 v3 = (v2 w3 − v3 w2 )e1 + (v3 w1 − v1 w3 )e2 + (v1 w2 − v2 w1 )e3
w1 w2 w3
= (v2 w3 − v3 w2 , v3 w1 − v1 w3 , v1 w2 − v2 w1 )
onde ei designa o i-ésimo vetor da base canónica de R3 e a expressão à direita se obtém
expandindo o determinante ao longo da primeira linha.
Exemplo 5.24.
e1 e2 e3
(1, −3, 2) × (5, 0, 2) = 1 −3 2 = (−6, 8, 15)
5 0 2
hv, v × wi = hw, v × wi = 0
pelo que v × w é ortogonal ao plano gerado por v e w (se v e w são colineares, então as
propriedade (i) e (iii) dizem-nos que o produto externo é o vetor nulo). Além disso, dada
a interpretação do determinante como o volume do paralelipı́pedo temos que
– v×w –
kv × wk2 = hv × w, v × wi = – v –
– w –
Há dois vetores com a propriedade que acabámos de descrever, que diferem apenas no
seu sentido. O sentido do produto externo é dado pela regra da mão direita: se colocarmos
a mão direita aberta, com os dedos que não o polegar juntos apontando na direção de v e
a rodarmos de modo a que esses dedos apontem para w, o polegar aponta na direção de
v × w.
A razão pela qual isto é assim prende-se com o significado geométrico do sinal do deter-
minante de uma matriz 3 × 3 invertı́vel, que é precisamente
– v1 –
– v2 – > 0 ⇔ v1 , v2 e v3 satisfazem a regra da mão direita.
– v3 –
Nesse caso diz-se que a orientação do referencial (v1 , v2 , v3 ) é positiva. Note-se que o refer-
encial canónico formado pela base canónica de R3 tem esta propriedade. Assim podemos
pensar nos referenciais positivamente orientados como sendo ”semelhantes” ao referencial
habitual.
Para perceber a afirmação anterior recorde-se que podemos transformar a matriz com
linhas v1 , v2 e v3 na matriz identidade aplicando o método do Gauss-Jordan. Cada passo
do método consiste numa operação
(33) Li − αLj , αLi , Li ↔ Lj
que, em termos da matriz dos coeficientes do sistema, corresponde à multiplicação à es-
querda por uma matriz elementar. No primeiro caso trata-se de uma matriz triangular com
uma única entrada não nula fora da diagonal, no segundo caso por uma matriz diagonal
com α na posição i e 1 nas restantes, e no último por uma matriz de permutação que troca
as linhas i e j. O sinal do determinante da matriz dos coeficientes não é alterado pelas
operações do primeiro tipo, permanece igual ou é alterado pelas do segundo tipo consoante
α é positivo ou negativo, e é sempre alterado por operações do terceiro tipo (com i 6= j).
ÁLGEBRA LINEAR 79
Resta agora observar que o efeito que as operações (33) têm relativamente à verificação
da regra da mão direita por um referencial é exatamente o mesmo: operações do primeiro
tipo não têm efeito no que diz respeito à verificação da regra da mão direita pelas linhas
da matriz; operações do segundo tipo não têm efeito se α > 0 e têm efeito se α < 0; as
operações do terceiro tipo têm sempre efeito. Conclui-se que o determinante é positivo sse
as linhas satisfazem a regra da mão direita.
Observação 5.26. A fórmula da Definição 5.23 pode ser usada para definir o produto
externo de (n − 1) vetores em Rn , para n ≥ 1. Sendo e1 , . . . , en a base canónica de Rn e
v1 , . . . vn−1 vetores de Rn , define-se
e1 · · · en
– v1 –
v1 × · · · × vn−1 =
– ... –
– vn−1 –
6. Endomorfismos
Vamos agora iniciar um estudo detalhado das transformações lineares T : V → V em que
o espaço de chegada é o mesmo que o espaço de partida. Estas transformações designam-se
por endomorfismos (do grego endon - dentro) porque aplicam o espaço V para dentro de
si próprio.
Estas transformações desempenham um papel especialmente importante na Matemática
e nas suas aplicações, em parte porque codificam simetrias (por exemplo rotações do espaço
R3 ), e talvez principalmente, porque podem ser usadas para descrever evolução temporal:
se o vetor v ∈ V codificar o estado de um sistema, podemos por vezes codificar o estado
desse sistema após a passagem de uma unidade de tempo por T (v), após outra unidade de
tempo por T 2 (v) = T (T (v)), etc...
Exemplo 6.1. Suponhamos que um vetor (x, y) ∈ R2 codifica o estado de um sistema e
que a evolução após uma unidade de tempo é descrita pela transformação linear
T (x, y) = (2x, y2 )
Para todo o n ∈ Z temos T n (x, y) = (2n x, 2yn ) pelo que os estados atingidos por um sistema
com estado inicial (x0 , y0 ) fora dos eixos são todos pontos da hipérbole xy = x0 y0 . Quando
n → +∞ o estado tende para ∞ ao longo do eixo dos xx (quando x0 é 0, converge para
(0, 0)).
80 ÁLGEBRA LINEAR
Exemplo 6.2. (Cadeias de Markov) Suponhamos que um sistema tem n estados possı́veis
e que temos uma população de tais sistemas. Seja xi a percentagem da população que
se encontra no estado i e suponhamos que podemos determinar a probabilidade pij de, ao
longo de uma unidade de tempo, um sistema evoluir do estado j para o estado i.
Por exemplo os sistemas podem ser pessoas, os estados podem ser 1-viver em Lisboa;
2-viver fora de Lisboa; x1 é então a percentagem da população que vive em Lisboa e x2 =
1 − x1 . Se cada ano, 3% da população se mudar para fora de Lisboa e 1% da população
exterior se mudar para Lisboa, a evolução anual da distribuição da população é codificada
pela operação
x1 0.97 0.01 x1
7→
x2 0.03 0.99 x2
Note-se que uma matriz n × n com entradas pij construı́da pelo procedimento descrito
acima tem entradas todas não negativas e que a soma dos elementos em cada coluna é 1.
Uma tal matriz chama-se uma matriz de Markov.
6.3. Subespaços invariantes. Para analisar um endomorfismo T : V → V vamos usar
uma tática habitual em matemática: decompor T em objetos da mesma natureza, mas tão
simples quanto possı́vel.
Definição 6.4. Seja T : V → V um endomorfismo. Um subespaço vetorial W ⊂ V diz-se
um subespaço invariante de T se T (W ) ⊂ W .
Exemplo 6.5. (i) Se T : R3 → R3 é uma rotação de um ângulo α em torno de um eixo
L que passe pela origem, tanto o eixo L como o plano perpendicular que passa pela
origem são subespaços invariantes.
(ii) Para qualquer endomorfismo T : V → V temos que {0} e V são espaços invariantes,
ditos triviais. Exemplos mais interessantes são o núcleo N (T ) e a imagem Im(T ).
De facto, T (N (T )) = {0} ⊂ N (T ) e claramente T (Im(T )) ⊂ Im(T ).
(iii) Dado v ∈ V , consideremos o conjunto S = {v, T (v), T 2 (v), . . .} ⊂ V . Então L(S) ⊂
V é um subespaço invariante: de facto, dado
α0 v + . . . + αn T n (v) ∈ L(S)
temos
T (α0 v + . . . + αn T n (v)) = α0 T (v) + . . . + αn T n+1 (v) ∈ L(S)
Este espaço chama-se o subespaço cı́clico determinado pelo vetor v ∈ V .
Recorde-se dos Exercı́cios 11 e 21 da ficha sobre espaços vetoriais que um espaço V se
diz a soma direta de dois subespaços W1 , W2 ⊂ V se V = W1 + W2 e W1 ∩ W2 = {0}.
Nesse caso escrevemos V = W1 ⊕ W2 . Cada vetor de V pode então decompor-se de forma
única como a soma de um vetor de W1 e de um vetor de W2 . No Exemplo 6.5 (i) acima, o
espaço R3 é a soma direta do eixo de rotação e do plano ortogonal ao eixo.
Se conseguirmos decompor V como uma soma direta W1 ⊕ W2 de espaços invariantes,
então sendo T1 = T|W1 : W1 → W1 , T2 = T|W2 : W2 → W2 as transformações induzidas
por T nos subespaços invariantes teremos, em termos da decomposição única de um vetor
v ∈ V como a soma v = x + y com x ∈ W1 e y ∈ W2
T (x + y) = T1 (x) + T2 (y)
e a análise do comportamento de T reduz-se à análise do comportamento de T1 e T2 .
Podemos pensar neste processo como uma ”separação de variáveis”: o comportamento de
T como função das duas variáveis x e y é completamente determinado pelo comportamento
de duas funções de apenas uma variável.
Indutivamente podemos tentar analogamente decompor T1 e T2 até que isso deixe de ser
possı́vel, ou seja até expressar T como uma soma direta de endomorfismos ”atómicos”. O
nosso objetivo vai ser descrever estes últimos. Os detalhes de como fazer isso dependem
muito do corpo de base K pois, como iremos ver, este problema está fortemente relacionado
com o problema de fatorizar polinómios com coeficientes no corpo. Por questões de tempo
teremos de nos concentrar nos casos em que o corpo é R ou C mas tentaremos dar alguma
indicação de como o problema se pode resolver em geral.
6.6. Valores próprios e vetores próprios. Os subespaços invariantes (não triviais)
mais simples são os que têm dimensão 1. Se v for um elemento não nulo de um tal espaço,
teremos necessariamente T (v) = λv para algum escalar λ.
Definição 6.7. Seja V um espaço vetorial sobre o corpo K e T : V → V um endomorfismo.
Um vetor não nulo v ∈ V \ {0} diz-se um vetor próprio de T se existe λ ∈ K tal que
T (v) = λv. Nesse caso λ diz-se um valor próprio de T associado ao vetor próprio v.
Também podemos falar de valores e vetores próprios de uma matriz A ∈ Mn×n (K): são
os vetores e valores próprios do endomorfismo de Kn que é representado na base canónica
por A.
82 ÁLGEBRA LINEAR
Exemplo 6.8. (i) Um vetor não nulo segundo um eixo de uma rotação de R3 é um vetor
próprio com valor próprio 1.
(ii) Se P : V → V é uma projeção (isto é se P 2 = P ) então todos os vetores não nulos
do plano de projeção Im(P ) são vetores próprios com valor próprio 1.
(iii) Os vetores não nulos do núcleo N (T ) (se existirem) são vetores próprios de T com
valor próprio 0.
(iv) Seja V = C ∞ (R) o espaço vetorial das funções reais de variável real indefinidamente
diferenciáveis e D : V → V a operação de derivação definida por D(f ) = f 0 . Todos
os números reais λ são valores próprios de D. Os vetores próprios correspondentes a
λ são as funções exponenciais ceλt com c 6= 0.
Uma vez que
T (v) = λv ⇔ T (v) = λ Id(v) ⇔ (T − λ Id)(v) = 0
vemos que λ é um valor próprio se e só se N (T − λ Id) 6= {0}. Desde que V tenha
dimensão finita, é possı́vel determinar os valores próprios e vetores próprios recorrendo
ao determinante: escolhendo uma base B para V e considerando a matriz A = AT,B,B a
condição acima traduz-se em
N (A − λI) 6= {0} ⇔ (A − λI) não é invertı́vel ⇔ det(A − λI) = 0
Quando det(A − λI) = 0, os elementos não nulos de N (A − λI) corresponderão aos vetores
próprios associados a λ.
Exemplo 6.9. Consideremos a transformação linear T : R2 → R2 definida por T (x, y) =
(x + 2y, 2x + y). Considerando a base canónica temos
1−λ 2
A − λI =
2 1−λ
Esta matriz não é invertı́vel exatamente quando
1−λ 2
= 0 ⇔ (1 − λ)2 − 4 = 0 ⇔ λ = −1 ou λ = 3.
2 1−λ
São estes os valores próprios de T . Os vetores próprios de λ = −1 são os elementos não
nulos de N (A + I):
2 2 a
(A + I)v = 0 ⇔ = 0 ⇔ b = −a
2 2 b
ou seja, os vetores da forma a(1, −1) com a 6= 0. Analogamente, os vetores próprios de
λ = 3 (os elementos não nulos do núcleo de A − 3I) são os vetores da forma a(1, 1) com
a 6= 0.
Os vetores v1 = (1, 1) e v2 = (1, −1) formam uma base de R2 em termos da qual é
extremamente simples compreender o efeito que a transformação linear T tem sobre os
vetores de R2 : Ao longo da direção de v1 (a diagonal do primeiro quadrante) T expande
por um fator de 3, enquanto que na direção ortogonal, (a diagonal do quarto quadrante),
T reflete. Com base nisto é fácil descrever o efeito que T teria num desenho qualquer no
plano (ver figura).
ÁLGEBRA LINEAR 83
Note-se ainda que, uma vez que T (v1 ) = 3v1 e T (v2 ) = −v2 , temos que a representação
matricial de T com respeito à base B = (v1 , v2 ) é
3 0
AT,B,B =
0 −1
Definição 6.10. Um endomorfismo T : V → V diz-se diagonalizável se existe uma base
para V constituı́da por vetores próprios de T . Uma matriz A ∈ Mn×n (K) diz-se di-
agonalizável, se a transformação linear de Kn representada por A (com respeito à base
canónica) é diagonalizável.
A razão da palavra diagonalizável é, claro, que a representação de uma transformação
linear diagonalizável numa base B = (v1 , . . . , vn ) de vetores próprios é uma matriz diagonal
λ1 0 · · · 0
...
0 λ2 0
. .
.. . . . . . ...
0 · · · 0 λn
onde λi é o valor próprio associado a vi . Note-se que os valores próprios não são necessari-
amente distintos dois a dois.
Uma matriz quadrada A é diagonalizável se existe uma matriz invertı́vel S (uma matriz
de mudança de coordenadas de uma base formada por vetores próprios de A para a base
canónica) tal que A = SDS −1 com D uma matriz diagonal (que tem como entradas não
nulas valores próprios de A). Ou seja, A é diagonalizável se é semelhante a uma matriz
diagonal.
Recorde-se a nossa estratégia de decompor um endomorfismo T como uma soma direta
de endomorfismos ”atómicos”. Um endomorfismo T : V → V é diagonalizável se V se
decompõe numa soma direta de espaços invariantes de dimensão 1. A nossa estratégia
atinge assim o seu objetivo.
84 ÁLGEBRA LINEAR
Experimente fazer a conta acima com outro vetor inicial v. O que conclui?
Observação 6.22. Vale a pena sublinhar outra ideia utilizada na segunda demonstração do
Teorema 6.18. Seja V um espaço vetorial sobre o corpo K e T : V → V um endomorfismo.
Dado um polinómio p(x) = a0 + a1 x + . . . + ak xk com coeficientes ai ∈ K, p(x) determina
um endomorfismo
p(T ) = a0 Id +a1 T + . . . + ak T k : V → V
Uma vez que a composição de transformações lineares é linear em cada argumento e as
potências de T comutam entre si, uma fatorização p(x) = q(x)r(x) determina uma fator-
ização p(T ) = q(T ) ◦ r(T ) da transformação linear p(T ).
6.23. O determinante de um endomorfismo e o polinómio caracterı́stico. A primeira
demonstração do Teorema 6.18 fez uso de um polinómio associado a um endomorfismo de
um espaço vetorial de dimensão finita V . Começamos por notar que este polinómio é
independente da escolha de base B usada na sua definição.
Definição 6.24. Seja V um espaço vetorial de dimensão finita e T : V → V um endo-
morfismo. Sendo B uma base ordenada qualquer de V definimos o determinante de T
por
det(T ) = det(AT,B,B )
Temos que verificar que o escalar det(T ) é independente da escolha de B: se B 0 é outra
base para V e S = SB→B 0 a matriz de mudança de coordenadas então
AT,B 0 ,B 0 = SAT,B,B S −1
e portanto
1
det(AT,B 0 ,B 0 ) = det(S) det(AT,B,B ) det(S −1 ) = det(S) det(AT,B,B ) = det(AT,B,B )
det(S)
Infelizmente, não seria neste momento fácil explicar-vos como definir intrinsecamente o
determinante de um endomorfismo sem apelar às representações matriciais pelo que a
Definição 6.24 terá de servir.
Uma vez que o determinante deteta a invertibilidade de um endomorfismo (T é invertı́vel
se e só se AT,B,B é invertı́vel para qualquer base B) podemos usar o determinante para
calcular os valores próprios de um endomorfismo T , como foi feito na primeira demonstração
do Teorema 6.18.
Definição 6.25. Seja V um espaço vetorial de dimensão finita sobre o corpo K e T : V →
V um endomorfismo. O polinómio caracterı́stico de T é o polinómio (com coeficientes em
K) definido por
p(λ) = det(T − λ Id)
O polinómio caracterı́stico de uma matriz quadrada A ∈ Mn×n (K) é o polinómio carac-
terı́stico da transformação linear representada por A na base canónica de Kn , ou seja,
p(λ) = det(A − λI)
ÁLGEBRA LINEAR 89
Note-se que o termo constante do polinómio caracterı́stico (que é igual a p(0)) é o deter-
minante de T .
é
5
2
−λ 0 − 12 0
5
1
2
1−λ −21
2
= −(1 + λ)(1 − λ) 2
−λ − 12
p(λ) = 1 3 1 3
2
0 2
− λ 0
2 2
−λ
0 0 0 −1 − λ
= (λ − 1)(λ2 − 4λ + 4) = (λ2 − 1)(λ − 2)2
2
Este polinómio anula-se quando λ = 2 ou λ = ±1. São portanto estes os valores próprios
de A.
Dem. (a) O argumento utilizado na primeira demonstração do Teorema 6.18 aplica-se lit-
eralmente.
(b) Conforme já explicámos, λ é um valor próprio se e só se (T − λ Id) não é invertı́vel, o
que acontece sse p(λ) = 0.
6.28. O algoritmo PageRank. Vamos agora fazer um pequeno interlúdio para discutir
uma aplicação famosa do conceito de vetor próprio. Consideremos uma internet com apenas
três páginas ligadas de acordo com o diagrama
90 ÁLGEBRA LINEAR
1 2
12Se uma página não tem ligações para outras assume-se que tem uma ligação para cada página.
ÁLGEBRA LINEAR 91
indicam o estado das páginas de modo a que a soma das entradas13 seja 1, o limite quando
o tempo tende para +∞ do estado do sistema é o vetor próprio de 1 (normalizado), que é
único.
Mais precisamente, se A é a matriz (37) que controla a transição entre estados e (p1 , p2 , p3 )
é um estado inicial qualquer (com pi ≥ 0 e p1 + p2 + p3 = 1), temos
p1
lim Ak p2 = v
k→∞
p3
com v o único vetor próprio de 1 com entradas não negativas cuja soma é 1. Pode mostrar-
se que (com grande generalidade) o significado das componentes de v é a seguinte: vi é a
percentagem do tempo que uma internauta surfando ao acaso naquelas páginas passaria
na página i. É este número que é usado como medida da relevância da página i - o seu
PageRank.
No exemplo acima terı́amos que os vetores próprios de 1 da matriz (37) são as soluções
de
−1 14 2
a 0
(
3 a = 34 b
(A − I3 )v = 0 ⇔ 1 − 34 0 b = 0 ⇔
0 1
− 2
c 0 c = 34 b
2 3
pelo que a página mais relevante é a página 2, sendo as outras duas igualmente relevantes.
Uma internauta surfando aleatoriamente entre estas três páginas passaria 40% do seu
tempo na página 2 e 30% em cada uma das outras duas páginas.
O algoritmo utilizado pelo Google para ordenar as páginas por relevância é seguramente
muito mais complicado mas o princı́pio básico é o que foi explicado acima. Ao pesquisarmos
um termo, o algoritmo começa por selecionar as páginas relacionadas com esse termo
(utilizando as etiquetas previamente atribuı́das a cada página) e analisa depois as ligações
entre essas páginas conforme descrito acima, listando-as depois por ordem de relevância.
Na realidade, no algoritmo original de Larry Page e Sergey Brin é também levada em
conta a possibilidade de uma internauta não seguir nenhum link na página em que se
encontra (e em vez disso usar um bookmark ou escrever diretamente um URL). Esta
possibilidade é considerada atribuindo uma probabilidade d de ir para qualquer outra
página da internet a partir de uma dada página, sendo (1 − d) a probabilidade de carregar
numa das ligações da página. O parâmetro d é medido experimentalmente (e é cerca de
15%). Tente descrever analiticamente este algoritmo modificado. A solução encontra-se na
página da Wikipedia do algoritmo PageRank.
13Isto corresponde a considerar a percentagem dos internautas em cada página em vez do número
absoluto.
92 ÁLGEBRA LINEAR
Geometricamente, o efeito que T tem num vetor de R2 é deslizá-lo ao longo do eixo dos
xx (o eixo gerado pelo vetor próprio) uma distância igual à sua ordenada.
O principal Teorema sobre endomorfismos complexos afirma que qualquer endomorfismo
não diagonalizável se pode decompor nestas aplicações de ”shear” ou deslizamento.
Notação 6.31. A partir de agora, para simplificar a notação usaremos muitas vezes o
escalar λ para denotar a transformação linear λ Id. Assim, por exemplo, (T − λ Id) apare-
cerá como (T −λ). Também omitiremos alguns parêntesis quando a sua omissão não cause
confusão: por exemplo um vetor T (v) poderá ser denotado simplesmente por T v.
Definição 6.32. Seja T : V → V um endomorfismo e λ um valor próprio de T . O espaço
próprio generalizado de λ é
E g (λ) = {v ∈ V : (T − λ)k v = 0 para algum k}
Os elementos não nulos de E g (λ) designam-se por vetores próprios generalizados associ-
ados ao valor próprio λ. A dimensão de E g (λ) chama-se a multiplicidade algébrica de
λ.
ÁLGEBRA LINEAR 93
Note-se que E(λ) ⊂ E g (λ). É fácil verificar que E g (λ) é de facto um subespaço vetorial
de V : claramente 0 ∈ E g (λ) e E g (λ) é fechado para o produto por escalar. Vejamos
que também é fechado para a soma: se v1 , v2 ∈ E g (λ) então existem k1 , k2 tais que (T −
λ)k1 (v1 ) = 0 e (T − λ)k2 (v2 ) = 0. Seja k o máximo de {k1 , k2 }. Então
(T − λ)k (v1 + v2 ) = (T − λ)k−k1 (T − λ)k1 (v1 ) + (T − λ)k−k2 (T − λ)k2 (v2 ) = 0 + 0 = 0
Finalmente, observe-se que E g (λ) é um subespaço invariante: dado v ∈ E g (λ), existe k tal
que (T − λ)k (v) = 0. Logo
(38) (T − λ)k (T v) = T (T − λ)k (v) = T (0) = 0 ⇒ T v ∈ E g (λ)
Exemplo 6.33. Aplicando a nossa nova terminologia ao Exemplo 6.30 vemos que nesse
caso E g (1) = C2 é estritamente maior do que E(1) = L({(1, 0)}). Logo a multiplicidade
algébrica de λ = 1 é 2, enquanto que a multiplicidade geométrica é apenas 1.
Exemplo 6.34. Consideremos a transformação linear T : R3 → R3 representada com
respeito à base canónica pela matriz
2 1 0
A = 1 2 −1
1 1 1
Calculando os valores próprios vemos que estes são λ = 1 e λ = 2. Os vectores próprios
de 1 são as soluções da equação (A − I)v = 0, ou seja
1 1 0 a a+b=0
1 1 −1 b = 0 ⇔ b = −a
a+b−c=0 ⇔
c=0
1 1 0 c a+b=0
Assim (1, −1, 0) forma uma base para os valores próprios de 1. Uma vez que
2 2 −1
(A − I)2 = 1 1 −1
2 2 −1
tem caracterı́stica 2, o seu núcleo tem dimensão 1 e portanto consiste no espaço próprio
e 1. Podemos facilmente verificar que o mesmo acontece com as matrizes (A − I)k para
todos os valores de k para k ≥ 2 pelo que os únicos vetores próprios generalizados de 1
são os vetores próprios de 1. Na realidade, iremos ver em breve no Lema 6.48, o facto de
N ((A − I)2 ) = N (A − I) implica que N ((A − I)k ) = N (A − I) para todo o k, e não há
portanto necessidade de realizar mais cálculos.
Temos assim que a multiplicidade algébrica de 1 é igual à multiplicidade geométrica, que
é 1.
Os vectores próprios de 2 são as soluções da equação
0 1 0 a b=0
1 0 −1 b = 0 ⇔ b=0
a−c=0 ⇔
a=c
1 1 −1 c a+b−c=0
94 ÁLGEBRA LINEAR
A segunda parte é a afirmação que os espaços próprios generalizados geram todo o V . Para
provar a primeira afirmação vamos usar o seguinte resultado.
ÁLGEBRA LINEAR 95
Para demonstrar que os vetores própios generalizados geram V vamos usar a noção de
espaço vetorial quociente. Recorde-se dos exercı́cios da ficha sobre espaços vetoriais que,
dado um subespaço W ⊂ V , o conjunto V /W é o conjunto dos planos paralelos a W em
V , que se escrevem na forma v + W com v ∈ V . Com as operações de soma e produto por
escalar definidas pelas fórmulas
(v1 + W ) + (v2 + W ) = (v1 + v2 ) + W, α(v + W ) = (αv) + W
o conjunto V /W adquire a estrutura de um espaço vetorial - o espaço vetorial quociente de
V por W . Este espaço ”descarta” o subespaço W no sentido em que dois vetores v1 e v2 de
V que difiram por um elemento de W correspondem ao mesmo elemento v1 + W = v2 + W
no espaço quociente.
Se T : V → V é uma transformação linear e W ⊂ V é um subespaço invariante, então T
determina um endomorfismo T : V /W → V /W , definido pela expressão
T (v + W ) = T (v) + W
De facto, se v1 + W = v2 + W ⇔ v1 − v2 ∈ W , então T (v1 ) − T (v2 ) ∈ W pelo que
T (v1 ) + W = T (v2 ) + W . Isto mostra que a fórmula acima para T define de facto uma
função de V /W para V /W e é então imediato verificar que esta função preserva a soma e
o produto por escalar em V /W .
O nosso plano será ver que, sendo W o subespaço gerado por todos os subespaços próprios
generalizados de um dado endomorfismo T : V → V , temos V /W = {0} e portanto W = V .
Dem. do Teorema 6.37. Começamos por ver que a soma dos espaços próprios generalizados
é direta. Suponhamos que v ∈ E g (λ1 ) e que v = w2 + . . . + wp com wj ∈ E g (λj ) vetores
próprios generalizados de valores próprios distintos de λ1 . Sejam n2 , . . . , np tais que (T −
λj )nj wj = 0, e
q(T ) = (T − λ2 )n2 · · · (T − λp )np
Uma vez que a ordem dos fatores na fatorização de q(T ) é arbitrária, temos que q(T )wj = 0
para todo o j. Portanto
q(T )v = q(T )w2 + . . . + q(T )wp = 0
96 ÁLGEBRA LINEAR
Pelo Lema 6.38 a restrição de cada um dos fatores de q(T ) a E g (λ1 ) é um isomorfismo.
Segue-se que a restrição de q(T ) a E g (λ1 ) é também um isomorfismo e portanto
q(T )v = 0 ⇒ v = 0.
Pn
Conclui-se assim que E g (λ1 ) ∩ j=2 E g (λj ) = {0} e portanto, indutivamente, que
V = ⊕ki=1 E g (λi )
Vejamos agora que os espaços próprios generalizados geram V . Seja W = ⊕ki=1 E g (λi ) o
subespaço de V gerado por todos os espaços próprios generalizados. Claramente W é um
subespaço invariante. Consideremos a transformação linear T : V /W → V /W determinada
por T no espaço quociente.
Se V /W 6= 0, pelo Teorema 6.18, o endomorfismo T tem um valor próprio α. Seja v + W
um vetor próprio de T associado a α. Então
T (v + W ) = α(v + W ) ⇔ T (v) = αv + w com w ∈ W
Suponhamos primeiro que α não é um dos valores próprios de T . Então, pelo lema 6.38, a
restrição de (T − α) a W é um isomorfismo. Seja w0 ∈ W tal que (T − α)w0 = w. Então
(T − α)(v − w0 ) = w − (T − α)w0 = 0
Uma vez que v − w0 6= 0 (senão v = w0 ∈ W e v + W = 0 + W contrariamente à nossa
hipótese que v + W é um vetor próprio de T ) conclui-se que α é um vetor próprio de T , o
que contradiz a hipótese inicial sobre α.
Suponhamos então que α é um dos valores próprios de T . Sem perda de generalidade
podemos assumir que α = λ1 . Podemos escrever
k
M
w = w1 + w2 com w1 ∈ E g (λ1 ), w2 ∈ E g (λj )
j=2
Lk
Pelo Lema 6.38 podemos escolher w20 ∈ j=2 E g (λj ) tal que (T − α)w20 = w2 . Então
(T − α)(v − w20 ) = w − w2 = w1
Sendo m tal que (T − λ1 )m (w1 ) = (T − α)m (w1 ) = 0 temos então
(T − α)m+1 (v − w20 ) = (T − α)m (T − α)(v − w20 ) = (T − α)m (w1 ) = 0
Portanto v − w20 ∈ E g (α) = E g (λ1 ) ⊂ W . Uma vez que w20 ∈ W conclui-se que v ∈ W ,
o que novamente contradiz a hipótese de v + W ser um vetor próprio. Esta contradição
mostra que V /W = {0} e conclui a demonstração.
0 0 ··· 0
tem ı́ndice de nilpotência k. De facto, o efeito de multiplicar N por uma matriz com k
linhas é
··· L2 · · ·
0 1 ···
0 ··· L1 · · ·
. ··· L3 · · ·
0 0 ..
··· L2 · · ·
0
= ..
.. .
0 0 ...
1 .
···
L ···
k
0 0 ··· 0 ··· Lk · · ·
0 0 0
logo, à medida que o expoente i em N i aumenta, a linha de 1s vai subindo até que finalmente
desaparece quando i chega a k.
O nosso objetivo nesta secção é mostrar o seguinte resultado, que, em conjunto com
o Teorema da Decomposição Primária, levará imediatamente a uma forma normal para
todos os endomorfismos de espaços complexos - a forma canónica de Jordan.
98 ÁLGEBRA LINEAR
Como (pelo Lema 6.48) o conjunto {N k−1 v(k)j } é linearmente independente conclui-se que
todos os coeficientes de vetores de B com filtração k se anulam. Aplicando N k−2 a (43)
obtemos agora uma igualdade que envolve apenas os termos em (43) com filtração k − 1:
bk−1
bk
!
X X
N k−2 αk,j,1 N v(k)j + αk−1,j,0 v(k − 1)j = 0
j=1 j=1
6.53 diz-se que T admite uma forma canónica de Jordan. Quando K não é algebricamente
fechado isto não acontece para todos os endomorfismos T (isto é análogo ao facto que
mesmo sobre C nem todos os endomorfismos são diagonalizáveis) mas, quando acontece, é
um facto que pode ser aproveitado.
Para determinar a forma canónica de Jordan de um endomorfismo T (o que significa
calcular a matriz diagonal por blocos e a base) podemos começar por calcular os valores
próprios de T . Estes dizem-nos que escalares aparecem na diagonal da matriz AT,B,B .
Embora seja possı́vel determinar os espaços próprios generalizados de cada valor próprio λ
e depois aplicar o algoritmo da Observação 6.50 à restrição de T − λ a cada E g (λ), é mais
prático proceder da seguinte forma.
Uma vez que os elementos da base correspondentes às primeiras colunas de cada bloco Ji
são vetores próprios, a multiplicidade geométrica de cada valor próprio λ dá-nos o número
de blocos com λ na diagonal.
Para determinar o resto da base B e o comprimento dos blocos tentamos resolver recur-
sivamente as equações (46) começando com um vetor próprio v1 . Isto pode requerer algum
cuidado na escolha do vetor v1 como iremos ver nos exemplos que se seguem.
Finalmente, o polinómio caracterı́stico de T dá informação sobre a forma canónica de
Jordan que pode facilitar a determinação da base:
Proposição 6.57. Seja V um espaço vetorial de dimensão finita, T : V → V um endo-
morfismo, e p(λ) o seu polinómio caracterı́stico.
(a) A multiplicidade do valor próprio λi enquanto raı́z de p (isto é, o maior expoente m
tal que (λ − λi )m divide p(λ)) é igual à multiplicidade algébrica de λi , dim E g (λi ).
(b) Se K = C então
p(λ) = (λ1 − λ)n1 (λ2 − λ)n2 · · · (λk − λ)nk
onde λ1 , . . . , λk são os valores próprios (distintos) de T e ni as suas multiplicidades
algébricas.
Dem. (a) Quando o corpo de base é C esta afirmação é uma consequência imediata da
forma canónica de Jordan. De facto a multiplicidade de λi como raı́z é igual aos número
de vezes que λi aparece na diagonal na forma canónica de Jordan, que é precisamente
o número de elementos numa base para o espaço próprio generalizado de λi .
Para demonstrar a afirmação em geral (para um espaço vetorial sobre um corpo
qualquer) note-se que pelo Teorema 6.42 existe uma base B1 para E g (λi ) formada por
cadeias de Jordan para o valor próprio λi . Completando esta base com um conjunto
B2 de vetores de V tal que B = B1 ∪ B2 é uma base de B obtemos uma representação
matricial diagonal por blocos
J X
AT,B,B =
0 T0
onde as colunas de J correspondem aos vetores do conjunto B1 (J é diagonal por
blocos, com blocos de Jordan correspondentes a λi na diagonal) e as restantes colunas
correspondem aos vetores de B2 . Pela Proposição 5.20 o polinómio caracterı́stico de T é
104 ÁLGEBRA LINEAR
igual a (λi − λ)m q(λ), onde m = #B1 = dim E g (λi ), e q(λ) é o polinómio caracterı́stico
de T 0 .
Argumentando como na demonstração do Teorema 6.37 vemos que λi não pode ser
um valor próprio de T 0 , e portanto (λi −λ) não divide q(λ). Isto conclui a demonstração.
(b) É uma consequência imediata do facto de podermos calcular o polinómio caracterı́stico
usando a forma canónica de Jordan de T .
Observação 6.58. A Proposição 6.57(a) justifica a terminologia multiplicidade algébrica.
A Proposição anterior ajuda a calcular a forma canónica de Jordan de uma matriz
complexa. De facto, uma fatorização do polinómio caracterı́stico em fatores do primeiro
grau dá-nos a multiplicidade algébrica de cada valor próprio λi e portanto o número de vezes
que λi aparece na diagonal da forma canónica de Jordan (que é a soma dos comprimentos
dos blocos correspondentes a λi ).
Exemplo 6.59. No Exemplo 6.26 a fatorização p(λ) = (λ − 1)(λ + 1)(λ − 2)2 do polinómio
caracterı́stico implica que a multiplicidade algébrica de 2 é igual a 2. Assim, ao verificar
que a multiplicidade geométrica de λ = 2 é apenas 1, podemos concluir, sem quaisquer
outros cálculos adicionais, que a forma canónica de Jordan desta matriz é
1 0 0 0
0 −1 0 0
0 0 2 1
0 0 0 2
Exemplo 6.60. Retomando o Exemplo 6.34 vemos que, uma vez que a multiplicidade
geométrica de cada valor próprio é 1, teremos um bloco para cada valor próprio. À partida
haveria duas possibilidades para a matriz diagonal por blocos (a menos de troca de ordem
dos blocos):
1 1 0 2 1 0
0 1 0 ou 0 2 0
0 0 2 0 0 1
No entanto vimos já que o espaço próprio generalizado de λ = 2 tem dimensão 2 (e isto
é também uma consequência da Proposição 6.57(a)) pelo que teremos necessariamente a
segunda opção. A base B = (v1 , v2 , v3 ) terá que ser formada por um vetor próprio v1 de
λ = 2, um vetor próprio v3 de λ = 1 e um vetor próprio generalizado v2 de 2 satisfazendo
(A − 2I)v2 = v1
Neste exemplo as escolhas possı́veis para v1 e v3 são únicas a menos de um escalar não
nulo. Se tomarmos v1 = (1, 0, 1) e v3 = (1, −1, 0) temos que resolver a equação
0 1 0 a 1
(A − 2I)v2 = v1 ⇔ 1 0 −1 b = 0
1 1 −1 c 1
ÁLGEBRA LINEAR 105
Uma solução é por exemplo v2 = (0, 1, 0) (mas poderı́amos somar a este vetor qualquer
elemento do núcleo de (A − 2I), isto é, qualquer vetor próprio de 2). Conclui-se assim que
neste exemplo podemos tomar para a base B no Teorema 6.53
B = ((1, 0, 1), (0, 1, 0), (1, −1, 0))
Exemplo 6.61. Seja A uma matriz com forma canónica de Jordan
1 1 0
(47) J= 0 1
0
0 0 1
O espaço próprio de 1 tem dimensão 2. Seja {v1 , v10 } uma base para o espaço próprio de 1.
Tem que se ter cuidado na escolha do vector próprio v de 1 que se pôe na primeira coluna
da matriz S. De facto, só será possı́vel resolver a equação
(A − I)v2 = v
para achar a segunda coluna se v estiver no espaço das colunas da matriz (A − I), que
tem dimensão 1. É portanto necessário achar uma combinação linear v = αv1 + βv10 que
pertença ao espaço das colunas de A − I. A terceira coluna poderá ser qualquer vector
próprio de 1 que juntamente com v forme uma base para o espaço próprio.
Vejamos um exemplo concreto. Considere-se a matriz
0 −1 2
A = −1 0 2
−1 −1 3
Verifica-se facilmente que 1 é o único valor próprio. Os vectores próprios de 1 são as
soluções de
−1 −1 2 a
−1 −1 2 b = 0 ⇔ 2c = a + b
−1 −1 2 c
O espaço próprio de 1 é portanto o conjunto dos vectores
a 1 0
b = a 0 + b 1
1 1 1
2
(a + b) 2 2
espaço das colunas de A − I, que é o espaço gerado por (1, 1, 1). A soma dos dois vectores
da ”base natural” é exactamente (1, 1, 1). Resolvendo a equação
−1 −1 2 a 1
−1 −1 2 b = 1 = 0 ⇔ 2c = a + b + 1
−1 −1 2 c 1
obtemos as soluções
a 0 1 0
b = 0 + a 0 + b 1
1 a b 1 1 1
2
+ 2
+ 2 2 2 2
Podemos tomar por exemplo v2 = 0, 0, 12 . Para v3 podemos tomar qualquer vector próprio
de 1 que juntamente com (1, 1, 1) forme uma base do espaço próprio, por exemplo, 1, 0, 12 .
Obtemos assim a base
B = ((1, 1, 1), (0, 0, 21 ), (1, 0, 12 ))
e temos
−1
1 0 1 1 1 0 1 0 1
A = 1 0 0 0 1 0 1 0 0
1 12 12 0 0 1 1 21 21
Exemplo 6.62. Suponhamos que V é um espaço vetorial de dimensão 5 e T : V → V tem
um único valor próprio λ com multiplicidade geométrica 2. As possı́veis formas canónicas
de Jordan (a menos de troca de blocos) são
λ 1 0 0 0 λ 1 0 0 0
0 λ 1 0 0 0 λ 1 0 0
0 0 λ 1 0 ou 0 0 λ 0 0
0 0 0 λ 0 0 0 0 λ 1
0 0 0 0 λ 0 0 0 0 λ
Sendo B = (v1 , v2 , v3 , v4 , v5 ) uma base na qual T fica em forma de Jordan, podemos dis-
tinguir os dois casos da seguinte forma. Na matriz da direita, uma vez que os blocos têm
dimensão ≤ 3 o endomorfismo (T − λ)3 é identicamente nulo. Isso não acontece na matriz
da direita, onde (T − λ)3 v4 = v1 .
Para acharmos a base B resolvendo as equações (46) indutivamente teremos de ter o
cuidado de começar com um vetor próprio v1 de λ que esteja na imagem de (T − λ)3 no
caso da matriz da esquerda, e na imagem de (T − λ)2 no caso da matriz da direita. O
segundo vetor próprio (v5 no caso da esquerda e v4 no caso da direita) tem unicamente que
ser escolhido de forma a gerar o espaço próprio de λ juntamente com v1 .
6.63. O Teorema de Cayley-Hamilton. Terminamos a matéria desta secção com um
resultado fundamental que é muitas vezes útil para fazer cálculos com matrizes quadradas.
Seja V um espaço vetorial de dimensão finita n e T : V → V um endomorfismo. Dado um
ÁLGEBRA LINEAR 107
14O significado de (48) é algo subtil. No caso em que o corpo K tem infinitos elementos, os polinómios
são determinados pelas funções K → K que definem e portanto a validade de (48) segue do facto de a
igualdade se verificar para todo o λ ∈ K. Quando K é um corpo finito, é necessário observar que, na
dedução da igualdade descrita na Proposição 5.11(iv), nunca usámos a invertibilidade dos elementos não
nulos de K mas apenas os restantes axiomas de corpo. O resultado é portanto válido para matrizes cujas
entradas são polinómios com coeficientes em K.
108 ÁLGEBRA LINEAR
Portanto
−A3 + 5A2 − 7A + 2I = 0 ⇔ A(−A2 + 5A − 7I) = −2I ⇒ A−1 = 21 (A2 − 5A + 7I)
É fácil calcular o valor de t(A) para qualquer polinómio t(x). Dividindo t(x) pelo polinómio
caracterı́stico obtemos
t(x) = q(x)p(x) + r(x)
sendo o grau de r menor ou igual a 2. Uma vez que p(A) = 0, temos t(A) = q(A)p(A) +
r(A) = r(A).
ÁLGEBRA LINEAR 109
(v, (T − λ)v, . . . , (T − λ)k v) é uma cadeia de Jordan para algum k, (iii) implica a afirmação
que falta em (ii).
O resultado anterior diz que os espaços próprios generalizados de T C correspondentes
a valores próprios complexos (isto é, com parte imaginária não nula) ocorrem em pares
conjugados e que podemos tomar para base de E g (λ) os vetores conjugados de uma base
de E g (λ). Assim, na forma canónica de Jordan para T C há uma correspondência bijetiva
entre os blocos com λ na diagonal e os blocos com λ na diagonal.
A observação anterior juntamente com o resultado seguinte permite-nos obter uma forma
canónica para os endomorfismos reais.
Proposição 6.73. Seja V um espaço vetorial real e {v1 , . . . , vn } um subconjunto de vetores
(distintos) de V C . Se {v1 , . . . , vn , v1 , . . . , vn } é um subconjunto linearmente independente de
V C então {Re(v1 ), Im(v1 ), . . . , Re(vn ), Im(vn )} é um subconjunto linearmente independente
de V .
Dem. Usando a identificação de V com o conjunto {(x, 0) : x ∈ V } de V C , temos
v+v v−v
Re(v) = Im(v) =
2 2i
Dados escalares reais α1 , . . . , αn , β1 , . . . , βn , a expressão
α1 Re(v1 ) + . . . + αn Re(vn ) + β1 Im(v1 ) + . . . + βn Im(vn ) = 0
é equivalente a
v1 + v1 vn + vn v1 − v1 vn − vn
α1 + . . . + αn + β1 + . . . + βn )=0
2 2 2i 2i
α1 − iβ1 αn − iβn α1 + iβ1 αn + iβn
⇔ v1 + . . . + vn + v1 + . . . + vn = 0
2 2 2 2
logo se {Re(v1 ), Im(v1 ), . . . , Re(vn ), Im(vn )} é linearmente dependente em V , então o con-
junto {v1 , . . . , vn , v1 , . . . , vn } é linearmente dependente em V C , o que conclui a demon-
stração.
Definição 6.74. Um bloco de Jordan real é uma matriz quadrada da forma (44) com λ
real ou da forma
a −b 1 0 ··· 0 0
..
b a
0 1 0 ··· .
. ..
0 0
a −b 1 0
0 0 . . .
(50) b a 0 1
.
.. ..
. . .
. 1 0
0 1
0 0 ··· 0 0 a −b
0 0 ··· 0 0 b a
com a, b ∈ R e b 6= 0.
112 ÁLGEBRA LINEAR
Teorema 6.75. (Forma canónica de Jordan real) Seja V um espaço vetorial real de di-
mensão finita e T : V → V um endomorfismo. Então existe uma base B para V tal que a
matriz AT,B,B que representa T com respeito à base B é diagonal por blocos
J1 0 · · · 0
. . . ..
0 J2 .
AT,B,B = . .
.. .. 0
0 ··· Jm
com cada Ji um bloco de Jordan real.
Dem. Seja T C : V C → V C a complexificação de T .
Se λ ∈ R então (T C − λ)k v = 0 ⇔ (T − λ)k Re(v) = (T − λ)k Im(v) = 0 pelo que o espaço
próprio generalizado de λ para T C é a complexificação do espaço próprio generalizado
de λ para T . Em particular, podemos assumir que as cadeias de Jordan para T C que
correspondem a blocos com λ ∈ R na diagonal são formadas por vetores de V ⊂ V C .
Pela Prop 6.72, os blocos de Jordan de T C correspondentes a valores próprios complexos
λ = a + bi com b 6= 0 ocorrem em pares conjugados e para cada par J, J podemos escolher
cadeias de Jordan conjugadas (v1 , . . . , vk ) e (v1 , . . . , vk ) com
T C v1 = λv1 , . . . , T C vk = λvk + vk−1
Seja B 0 a base de V C formada por todas as cadeias de Jordan para V C escolhidas da
forma acima (isto é, escolhendo vetores de V para as cadeias correspondentes a valores
próprios reais e escolhendo cadeias conjugadas para blocos de valores próprios conjugados
correspondentes). Tomamos para B o subconjunto de V formado por
(i) cadeias de Jordan em B 0 correspondentes a valores próprios reais,
(ii) {Re(v1 ), Im(v1 ), . . . , Re(vk ), Im(vk )} para cada par conjugado de cadeias (v1 , . . . , vk )
e (v1 , . . . , vk )
Pelo Lema 6.73, os conjuntos {Re(v1 ), Im(v1 ), . . . , Re(vk ), Im(vk )} são linearmente inde-
pendentes. Contas inteiramente análogas a (49) mostram que a restrição de T a
L({Re(v1 ), Im(v1 ), . . . , Re(vk ), Im(vk )})
na base (Re(v1 ), Im(v1 ), . . . , Re(vk ), Im(vk )) é dado pelo bloco de Jordan real (2k) × (2k)
(50) com a e b tais que v1 ∈ V C é um vetor próprio de a − bi.
B é um conjunto linearmente independente porque a soma dos subespaços gerados pelos
vários conjuntos de vetores de tipo (i) e (ii) é direta (isso é claramente verdade para as
suas complexificações pelo Teorema da Decomposição Primária). Uma vez que o número
de elementos de B é igual à dimensão de V conclui-se que B é uma base para V com as
propriedades requeridas.
Observação 6.76. Ao contrário da forma canónica de Jordan complexa, a forma real
não é única a menos da ordem dos blocos. Nos blocos correspondentes a valores próprios
complexos, o sinal da parte imaginária b pode ser escolhido arbitrariamente (mas a escolha
tem de ser constante em cada bloco). A troca do sinal de b corresponde à simetria dada
ÁLGEBRA LINEAR 113
pela conjugação que troca a ordem do par (λ, λ). Esta indeterminação pode ser resolvida
convencionando que nos blocos com entrada complexa temos sempre b > 0.
Exemplo 6.77. Vamos determinar a forma canónica de Jordan real da transformação
linear T : R4 → R4 representada na base canónica pela matriz
2 0 0 −2
0 0 0 0
A= 0 −1 1 −1
2 1 −1 −1
Calcula-se que os valores próprios são 0, e 1 ± i. A multiplicidade geométrica de 0 é 2,
sendo uma base para o espaço próprio de 0 dada pelos vetores (0, 1, 1, 0) e (1, −1, 0, 1).
A matriz A é portanto diagonalizável enquanto matriz complexa. A forma canónica de
Jordan real de A é
0 0 0 0
0 0 0 0
J = 0 0 1 −1
0 0 1 1
Um vetor próprio de 1 − i é (1 − i, 0, −i, 1) logo uma matriz S tal que A = SJS −1 é, por
exemplo,
0 1 1 −1
1 −1 0 0
S= 1 0 0 −1
0 1 1 0
6.78. Cultura geral: classificação geral dos endomorfismos de espaços vetoriais
de dimensão finita. Nesta secção de leitura opcional vamos, por uma questão de cultura
geral, indicar brevemente como se generaliza a classificação dos endomorfismos que vimos
para K = R ou C a corpos arbitrários. Seja V um espaço vetorial de dimensão finita sobre
o corpo K e T : V → V um endomorfismo qualquer.
Todo o polinómio com coeficientes em K pode ser fatorizado de forma única como o pro-
duto de polinómios ditos irredutı́veis que desempenham um papel análogo ao dos números
primos nos inteiros. Quando K = C o Teorema Fundamental da Álgebra garante que os
únicos polinómios (mónicos) irredutı́veis são da forma (x − λ) com λ ∈ C e daqui segue
fácilmente que os únicos polinómios (mónicos) reais irredutı́veis são (x − λ) com λ ∈ R e
(x − a)2 + b2 com a, b ∈ R e b 6= 0.
A versão geral do Teorema da Decomposição Primária 6.37 afirma que todo o endomor-
fismo T de um espaço vetorial de dimensão finita pode ser decomposto numa soma direta
de endomorfismos cujos polinómios caracterı́sticos são potências de polinómios irredutı́veis,
havendo uma parcela para cada polinómio irredutı́vel que divide o polinómio caracterı́stico
de T . Quando K = C este resultado é precisamente o Teorema da Decomposição Primária
6.37. Quando K = R, este resultado corresponde à decomposição do endomorfismo em
blocos de Jordan reais e complexos (cada valor próprio real e cada par de valores próprios
complexos conjugados corresponde a uma parcela).
114 ÁLGEBRA LINEAR
Vejamos que forma tomam os blocos de uma decomposição primária. Dado v ∈ V \ {0},
associamos a v o subespaço cı́clico W = L({T i v : i ∈ N0 }). Sendo p(x) = c0 + c1 x + . . . + xk
um polinómio com coeficientes em K de grau mı́nimo (dito o polinómio mı́nimo de v) tal
que
p(T )v = 0
temos que B = (v, T v, T 2 v, . . . , T k−1 v) é uma base para W e, nessa base para W , a matriz
que representa T|W é
0 0 . . . −c0
1 0 −c1
AT|W ,B,B =
... ... ..
0 .
..
0 . 1 −ck−1
que se chama a matriz companheira do polinómio p. Estas matrizes têm uma forma bas-
tante simples: a grande maioria das entradas é igual a zero. O seu polinómio caracterı́stico
é exatamente o polinómio p(λ) como verão nos exercı́cios sobre o determinante. Usando o
Teorema de Cayley-Hamilton, não é dı́ficil verificar que o polinómio mı́nimo de um dado
v ∈ V \ {0} é sempre um fator do polinómio caracterı́stico de T .
Um Teorema fundamental da Álgebra Linear afirma que para todo o endomorfismo T de
um espaço vetorial de dimensão finita, existe uma decomposição de V como a soma direta
de subespaços cı́clicos, ou alternativamente, que existe uma base B de V tal que AT,B,B
é diagonal por blocos sendo cada bloco diagonal uma matriz companheira de um fator do
polinómio caracterı́stico15.
Como viram nos exercı́cios sobre endomorfismos, uma fatorização de um polinómio leva
a uma decomposição em blocos da sua matriz companheira. Aplicando o resultado men-
cionado no parágrafo anterior aos blocos de uma decomposição primária (cujos polinómios
caracterı́sticos são potências de polinómios irredutı́veis) obtemos uma decomposição diag-
onal por blocos na qual, ao longo da diagonal, temos matrizes companheiras de polinómios
irredutı́veis. Quando K = C isto é exatamente a forma canónica de Jordan, enquanto que
no caso em que K = R obtemos uma matriz semelhante à forma canónica de Jordan real.
Para um excelente tratamento elementar dos temas descritos nos parágrafos anteriores
recomendamos [HK]. Quem continuar a estudar Álgebra irá provavelmente ver todos estes
resultados como um caso particular do Teorema de classificação dos módulos finitamente
gerados sobre domı́nios de ideais principais. Um endomorfismo T : V → V dá a V a
estrutura de um módulo 16 sobre o domı́nio de ideais principais K[t] dos polinómios com
coeficientes em K: define-se a multiplicação de p(t) ∈ K[t] por um elemento v ∈ V como
15Além disso é possı́vel escolher estes fatores de uma forma natural, o que leva à chamada Forma
canónica racional de um endomorfismo (assim conhecida porque é válida, em particular, sobre o corpo dos
racionais)
16Se suprimirmos na definição de corpo o requisito da invertibilidade dos elementos não nulos obtemos
a noção de anel. Os números inteiros e os polinómios com coeficientes num corpo são exemplos de anéis.
Um módulo sobre um anel é o análogo neste contexto de um espaço vetorial sobre um corpo.
ÁLGEBRA LINEAR 115
p(t) · v = p(T )v. As formas normais para os endomorfismos brevemente descritas acima são
uma consequência imediata da classificação dos módulos finitamente gerados sobre K[t].
7.1. Definição de produto interno num espaço vetorial. Recordemos o produto in-
terno (ou escalar) de vetores de R2 e R3 . Trata-se de uma operação que produz um número
real hv, wi a partir de dois vetores v e w. É dado pelas fórmulas
h(x1 , x2 ), (y1 , y2 )i = x1 y1 + x2 y2 para (x1 , x2 ), (y1 , y2 ) ∈ R2
e
h(x1 , x2 , x3 ), (y1 , y2 , y3 )i = x1 y1 + x2 y2 + x3 y3 para (x1 , x2 , x3 ), (y1 , y2 , y3 ) ∈ R3
respetivamente. Em ambos os casos, o significado geométrico, do produto interno hv, wi é
kvkkwk cos α em que kxk designa o comprimento do vetor x e α é o ângulo entre v e w.
As propriedades destes produtos podem ser abstraı́das nos seguintes axiomas simples.
Definição 7.2. Seja V um espaço vetorial real. Um produto interno em V é uma função
h·, ·i : V × V → R
satisfazendo
(1) Bilinearidade: Para todos os α1 , α2 ∈ R e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi > 0 para todo o v 6= 0.
Observação 7.3. Tendo em conta a simetria do produto interno, para verificar a bi-
linearidade basta verificar a primeira (ou a segunda) das igualdades que caracterizam a
bilinearidade.
116 ÁLGEBRA LINEAR
Dem. Resta-nos apenas provar a unicidade. Consideremos apenas o caso real uma vez que
o caso complexo é inteiramente análogo: se A ∈ Mn×n (R) é tal que hv, wi = [v]TB A[w]B
então tomando v = vi , w = wj obtemos
0
..
.
hvi , wj i = 0 · · · 1 · · · 0 A 1 = aij
.
..
0
pelo que a matriz A é necessariamente dada pela fórmula (52).
Observação 7.16. Para chegar à expressão (51) usámos apenas a propriedade (1) das
Definições 7.2 e 7.7 pelo que a expressão matricial (51) se aplica a funções de V × V para
os escalares que satisfaçam apenas o axioma (1) (ditas funções bilineares no caso real, e
sesquilineares no caso complexo).
As propriedades (2) e (3) na definição de produto interno impõem algumas condições
sobre a matriz GB . Quanto à condição (2), escrevendo gij para a entrada ij da matriz GB ,
temos no caso real
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GTB
ou seja, a matriz da métrica é simétrica. No caso complexo temos
T
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GB
Diz-se que a matriz GB é hermitiana. Reciprocamente, se G é uma matriz que satisfaz
estas condições é imediato verificar que a função
T
hv, wi = [v]B G[w]B
satisfaz as condições (1) e (2) nas definições 7.2 e 7.7 (uma tal função diz-se uma forma
bilinear (resp. sesquilinear) simétrica).
Quanto à condição (3), ela claramente implica que os valores próprios de uma matriz da
métrica têm que ser reais positivos (mesmo no caso em que K = C): se GB [v]B = λ[v]B
então
T T
kvk2 = hv, vi = [v]B GB [v]B = λ[v]B [v]B = λk[v]B k2 > 0 ⇒ λ > 0
Observação 7.17. Veremos em breve que uma matriz simétrica ou hermitiana é sem-
pre diagonalizável. Admitindo este facto, é imediato verificar que dada uma base B para
V e uma matriz G simétrica (resp. hermitiana) com valores próprios todos positivos, a
T
expressão hv, wi = [v]B G[w]B define um produto interno em V .
Assim, uma base B para o espaço vetorial V estabelece uma correspondência biunı́voca
entre os produtos internos em V e as matrizes simétricas (resp. hermitianas) com valores
próprios todos positivos.
120 ÁLGEBRA LINEAR
Estas fórmulas explicam como a expressão para o produto interno é alterada por uma mu-
dança de coordenadas e são inteiramente análogas à fórmula que descreve a maneira como
as expressões matriciais de um endomorfismo em duas bases distintas estão relacionadas.
As expressões do lado direito do primeiro sinal de igual em (54) são todas iguais pela
definição de norma e pela linearidade na primeira variável (no caso complexo note-se que
1
o escalar kuk é real e portanto igual ao seu conjugado).
Quando V = R2 ou R3 com o produto interno usual, a definição anterior coincide com a
u
noção de projeção ortogonal já estudada no ensino secundário. De facto o vetor kuk é um
versor da direção determinada por u (isto é, tem a mesma direção e sentido e comprimento
1). O escalar que multiplica este versor é
u
u
h
kuk
kvk cos α = 1 · kvk cos α = kvk cos α
, vi =
kuk
com α o ângulo entre u e v, pelo que a expressão 54 é, neste caso, a expressão familiar do
ensino secundário.
Exemplo 7.23. A projeção ortogonal de (1, −1, 2) sobre o vetor (0, 1, 1) com respeito ao
produto interno usual em R3 é
h(1, −1, 2), (0, 1, 1)i
(0, 1, 1) = 21 (0, 1, 1) = 0, 12 , 12
h(0, 1, 1), (0, 1, 1)i
Note-se que proju (v) é colinear com u (por definição, proju (v) é um múltiplo escalar
de u). Claramente proju é uma transformação linear (pois o produto interno é linear na
segunda coordenada) e, como
u u
proju (λu) = hu, λui 2
= λkuk2 = λu
kuk kuk2
temos que
• A imagem de proju é exatamente L({u})
• proju é a identidade na sua imagem, isto é proj2u = proju (isto é, proju é uma
projeção).
A transformação linear proju é portanto uma projeção na reta gerada por u. As direções
de projeção são as que estão contidas no núcleo de proju que é precisamente o plano
perpendicular a u:
u
proju (v) = 0 ⇔ hu, vi = 0 ⇔ hu, vi = 0
kuk2
A transformação proju permite assim escrever qualquer vetor v como a soma de um vetor
colinear com u e outro ortogonal a u:
v = (v − proju (v)) + proju (v)
Dem. (i) Podemos assumir sem perda de generalidade que u 6= 0 (pois nesse caso 0 =
|hu, vi| = kukkvk e u, v são colineares). Nesse caso temos, pela positividade do
produto interno
hu, vi hu, vi
0 ≤ kv − proju (v)k2 = hv − u, v − ui
hu, ui hu, ui
hu, vi hu, vi hu, vi hu, vi
= hv, vi − hu, vi − hv, ui + hu, ui
hu, ui hu, ui hu, ui hu, ui
|hu, vi|2
= kvk2 −
kuk2
e esta desigualdade é equivalente a
|hu, vi|2 ≤ kuk2 kvk2
que, tomando raı́zes quadradas, é a desigualdade de Cauchy-Schwarz. A igualdade
verifica-se apenas quando v − proju (v) = 0, o que acontece se e só se v é um múltiplo
escalar de u.
(ii) Temos
(55) ku + vk2 = hu + v, u + vi = hu, ui + hu, vi + hv, ui + hv, vi
Uma vez que z + z = 2 Re(z) ≤ 2|z| temos
hu, vi + hv, ui = 2 Re(hu, vi) ≤ 2|hu, vi| ≤ 2kukkvk
onde na segunda desigualdade aplicámos a desigualdade de Cauchy-Schwarz. Substi-
tuindo em (55) obtemos
ku + vk2 ≤ kuk2 + 2kukkvk + kvk2 = (kuk + kvk)2
que é equivalente à desigualdade triangular.
Observação 7.25. (i) A desigualdade triangular chama-se assim porque u, v, u + v for-
mam as arestas de um triângulo em V e a desigualdade diz precisamente que o com-
primento de um dos lados de um triângulo é sempre menor ou igual à soma do com-
primento dos dois outros lados.
Definição 7.27. Seja V um espaço vetorial real e v, w ∈ V vetores não nulos. Define-se
o ângulo entre v e w como o único α ∈ [0, π] tal que
hv, wi
cos α =
kvkkwk
(Isto faz sentido porque, pela desigualdade de Cauchy-Schwarz a expressão do lado direito
do sinal de igual pertence ao intervalo [−1, 1].)
Dem. Uma vez que S ⊂ L(S), é evidente que L(S)⊥ ⊂ S ⊥ (se um vetor é ortogonal a
todos os elementos de L(S), certamente é também ortogonal a todos os vetores de S).
Reciprocamente, se v ∈ L(S), existem vetores v1 , . . . , vk em S e escalares α1 , . . . , αk tais
que v = α1 v1 + . . . + αk vk . Dado w ∈ S ⊥ , temos
Exemplo 7.31. (i) Se A ∈ Mm×n (R) então N (A) = EL(A)⊥ ⊂ Rn (onde o produto
interno considerado é o usual). De facto, pela definição do produto de matrizes,
ÁLGEBRA LINEAR 125
w1 = v1
w2 = v2 − projw1 (v2 )
w3 = v3 − projw1 (v3 ) − projw2 (v3 )
.. ..
. .
wk = vk − projw1 (vk ) − . . . − projwk−1 (vk )
L({v1 , . . . , vi }) = L({w1 , . . . , wi })
126 ÁLGEBRA LINEAR
Dem. Vamos usar indução em i para ver que {w1 , . . . , wi } é um conjunto ortogonal e
L({v1 , . . . , vi }) = L({w1 , . . . , wi }). A base da indução é o caso i = 1, que é óbvio porque
um conjunto com um único vetor não nulo é um conjunto ortogonal e, por definição,
w 1 = v1 .
Seja i > 1 e assumamos por indução que o resultado é válido para i − 1. Vejamos
primeiro que L({v1 , . . . , vi }) = L({w1 , . . . , wi }). Temos que verificar duas inclusões
• Por hipótese de indução v1 , . . . , vi−1 ∈ L({w1 , . . . , wi−1 }) ⊂ L({w1 , . . . , wi }). Uma
vez que proju (v) é um múltiplo de u, a seguinte reformulação da definição de wi
vi = wi + projw1 (vi ) + . . . + projwi−1 (vi )
mostra que vi ∈ L({w1 , . . . , wi }). Conclui-se que L({v1 , . . . , vi }) ⊂ L({w1 , . . . , wi })
• Novamente, por hipótese de indução, temos L({w1 , . . . , wi−1 }) ⊂ L({v1 , . . . , vi }).
Na expressão para wi
wi = vi − projw1 (vi ) − . . . − projwi−1 (vi )
os termos precedidos por um sinal menos formam uma combinação linear de w1 , . . . , wi−1
e portanto, por hipótese de indução, de v1 , . . . , vi−1 . Conclui-se que wi ∈ L({v1 , . . . , vi })
e portanto que L({w1 , . . . , wi }) ⊂ L({v1 , . . . , vi }).
Para ver que {w1 , . . . , wi } é um conjunto ortogonal basta-nos ver que hwj , wi i = 0 para
j < i pois a hipótese de indução diz-nos que hwj , wl i = 0 para j 6= l quando j, l < i. Ora
hwj , wi i = hwj , vi − projw1 (vi ) − . . . − projwi−1 (vi )i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
Do lado direito do sinal de igual, novamente pela hipótese de indução que {w1 , . . . , wi−1 } é
ortogonal, o único termo hwj , wk i que é não nulo é o termo correspondente a k = j portanto
hwj , vi i
hwj , wi i = hwj , vi i − 0 − . . . − hwj , wj i − . . . − 0 = hwj , vi i − hwj , vi i = 0
hwj , wj i
o que conclui a demonstração.
ÁLGEBRA LINEAR 127
Na expressão anterior não foi necessário dividir por hw1 , w1 i porque kw1 k = 1. Dividindo
pela norma obtemos o segundo vetor da base ortonormada
1
q
w̃2 = (− 12 , 1, 0, − 12 ) = 23 (− 12 , 1, 0, − 12 )
kw2 k
O vetor v3 = (0, 0, 1, 0) já é ortogonal a w1 e w̃2 e tem norma 1, pelo que podemos tomar
para base ortonormada de V o conjunto
q
{( 2 , 0, 0, − 2 ), (− 6 , 23 , 0, − √16 ), (0, 0, 1, 0)}
√1 √1 √1
O resultado seguinte, embora muito simples, é uma das principais razões para a utilização
de bases ortogonais ou ortonormadas. Juntamente com as noções de valor e vetor próprio
será um dos resultados de Álgebra Linear que mais vezes será utilizado em aplicações. Diz
essencialmente que é muito fácil calcular as coordenadas de um vetor numa base ortogonal.
Não é necessário resolver um sistema linear, basta fazer uma conta muito simples.
Proposição 7.37. Seja B = (v1 , . . . , vn ) uma base ortogonal para o espaço com produto
interno V . Então dado v ∈ V as coordenadas de v na base B são dadas pela expressão
hv1 ,vi
hv1 ,v1 i
[v]B =
..
.
hvn ,vi
hvn ,vn i
d(x, S) = inf{kx − uk : u ∈ S}
Mais geralmente, a distância entre dois subconjuntos não vazios S, T ⊂ V define-se por
d(S, T ) = inf{kx − yk : x ∈ S, y ∈ T }
130 ÁLGEBRA LINEAR
Note-se que o ı́nfimo existe porque o conjunto {kx − yk : x ∈ S, y ∈ T } é não vazio (porque
S e T são não vazios) e limitado inferiormente (por 0).
Slogan: As distâncias medem-se na perpendicular
Veremos agora algumas instâncias do aforismo anterior deixando outras para os exercı́cios.
Verão outras instâncias quando estudarem curvas e superfı́cies em Cálculo 2.
No caso em que S = U é um subespaço vetorial de V e v 6∈ U , dado x ∈ U podemos
escrever o vetor v − x como
v − x = (v − PU (v)) + (PU (v) − x)
uma vez que v − PU (v) ∈ U ⊥ e PU (v) − x ∈ U , pelo Teorema de Pitágoras, temos
kv − xk2 = kv − PU (v)k2 + kPU (v) − xk2 ≥ kv − PU (v)k2 ⇔ kv − xk ≥ kv − PU (v)k
Uma vez que PU (v) ∈ U , isso mostra que d(v, U ) = kv − PU (v)k e, portanto, que PU (v) é
o ponto de U mais próximo de v.
ÁLGEBRA LINEAR 131
Este argumento pode facilmente ser adaptado para calcular distâncias de pontos a planos
v + U que não passam pela origem ou a distância entre planos que não se intersetem.
Exemplo 7.42. Vamos achar a distância (para o produto interno usual) do ponto (1, 2, −1)
ao plano H = {(x, y, z) ∈ R3 : x + y + 2z = 2}.
A direção ortogonal ao plano é (1, 1, 2). A reta ortogonal ao plano que passa por (1, 2, −1)
tem equação paramétrica
(1, 2, −1) + t(1, 1, 2) = (1 + t, 2 + t, −1 + 2t)
e interseta H quando
1
(1 + t) + (2 + t) + 2(−1 + 2t) = 2 ⇔ 6t = 1 ⇔ t = 6
O ponto v = ( 76 , 13
6
, − 32 ) de interseção desta reta com H é o ponto de H mais próximo
de (1, 2, −1). De facto se w ∈ H for outro ponto, temos como antes, pelo Teorema de
Pitágoras, que
kw − (1, 2, −1)k2 = kw − vk2 + kv − (1, 2, −1)k2 ≥ kv − (1, 2, −1)k2
pois v − (1, 2, −1) (que tem a direção de (1, 1, 2)) e w − v (que pertence ao plano paralelo
a H que passa pela origem) são perpendiculares.
7.43. O método dos quadrados mı́nimos. 17 Seja A uma matriz m × n. Mesmo que o
sistema linear Ax = b seja impossı́vel, podemos tentar encontrar o valor de x que está mais
próximo de constituir uma solução no sentido em que a distância de Ax a b é minimizada.
O conjunto {Ax : x ∈ Rn } é um subespaço de Rm , nomeadamente o espaço das colunas
de A, EC(A). Como vimos acima, Ax estará o mais próximo possı́vel de um ponto b ∈ Rm
quando
Ax − b ∈ EC(A)⊥
17Esta discussão é adaptada do tratamento deste método em [D].
132 ÁLGEBRA LINEAR
mas, uma vez que EC(A) = EL(AT ), pelo Exemplo 7.31(i) temos
Assim, Ax será o ponto mais próximo de b quando se verifica a equação dos quadrados
mı́nimos para x
(58) AT (Ax − b) = 0 ⇔ AT Ax = AT b
Note-se que a solução pode não ser única (se N (A) 6= 0) mas o sistema (58) tem sempre
solução pois traduz exatamente a condição de Ax ser o ponto de EC(A) mais próximo de
b, e este ponto existe sempre.
Este método é extremamente útil na prática. Frequentemente temos dados experimentais
que queremos ajustar a uma lei conhecida, que depende de parâmetros. Os inevitáveis erros
experimentais terão como consequência que nenhuma escolha dos parâmetros se adequará
exatamente às medições, mas este método permite achar quais os valores dos parâmetros
que melhor se adequam às medições efetuadas.
Exemplo 7.44. Vamos determinar a reta y = ax + b que melhor aproxima os três pontos
(não colineares) (0, −2), (1, 3), (4, 5) ∈ R2 . Se existisse uma reta que passasse pelos três
pontos, os coeficientes a, b seriam soluções do sistema
a · 0 + b = −2
0 1 −2
a
a·1+b=3 ⇔ 1 1 = 3
b
a · 4 + b = 5 4 1 5
Este sistema não tem solução mas o método dos quadrados mı́nimos dá-nos os coeficientes
a, b tais que a soma
é mı́nima (é isto que dá o nome ao método). Temos que achar a solução do sistema
0 1 −2
0 1 4 a 0 1 4 17 5 a 23
1 1 = 3 ⇔ =
1 1 1 b 1 1 1 5 3 b 6
4 1 5
que é
39
a 1 3 −5 23 26
= =
b 26 −5 17 6 − 12
pelo que a reta que melhor aproxima os pontos dados (no sentido dos mı́nimos quadrados)
é
y = 39
26
x − 12
Observação 7.45. Pouco após a sua descoberta, em 1801, o planeta anão Ceres (na
cintura dos asteróides) ficou tapado pelo Sol. Foi para prever (com sucesso) o sı́tio onde
Ceres iria aparecer depois de passar por detrás do Sol, com base nas poucas observações que
se tinham conseguido anteriormente, que Gauss inventou o método dos quadrados mı́nimos.
7.46. Uma fórmula para o volume de um paralelipı́pedo k-dimensional. Vamos
descrever uma fórmula para o volume k-dimensional de um paralelipı́pedo de dimensão
k em Rn que será útil em Cálculo 2 quando se estudar a integração em superfı́cies (k-
dimensionais) curvas.
Proposição 7.47. Sejam v1 , . . . , vk ∈ Rn vetores linearmente independentes. Então o
volume k-dimensional do paralelipı́pedo P com arestas v1 , . . . , vk é
√
Volk (P ) = det AT A
onde A ∈ Mn×k (R) é a matriz que tem v1 , . . . , vk por colunas.
Dem. Sejam wk+1 , . . . , wn uma base ortonormada para o complemento ortogonal do plano
gerado por v1 , . . . , vk . Então (para qualquer noção razoável de volume k-dimensional)
o volume do paralelipı́pedo n-dimensional com arestas v1 , . . . , vk , wk+1 , . . . , wn é igual ao
134 ÁLGEBRA LINEAR
volume k-dimensional que queremos calcular. Sendo B ∈ Mn×n (R) a matriz que tem por
colunas os vetores v1 , . . . , vk , wk+1 , . . . , wn (por ordem) e escrevendo B por blocos na forma
[A | C] com A a matriz formada pelas primeiras k colunas, temos
T
T A A 0
B B=
0 In−k
(onde C T C = In−k porque os vetores wi constituem uma base ortonormada para o plano
que geram). Portanto
√
(det B)2 = det(B T B) = det(AT A) ⇔ det AT A = | det B|
e, uma vez que | det B| é o volume do paralelipı́pedo n-dimensional com arestas v1 , . . . , vk , wk+1 , . . . , wn ,
isto conclui a demonstração.
Notamos que a matriz AT A no enunciado anterior é exatamente a matriz da métrica
com respeito à base (v1 , . . . , vk ) para a restrição do produto interno usual ao plano gerado
por {v1 , . . . , vk }.
Exemplo 7.48. A área do paralelogramo em R3 com arestas (1, −2, 1) e (2, 3, 0) é
v s
u 1 2 6 −4 √
1 −2 1
u
tdet −2 3 = = 62
u
2 3 0 −4 13
1 0
Observação 7.62. Embora não haja nenhum critério útil para ver se uma matriz é diago-
nalizável, há um critério muito simples para ver se uma matriz complexa A é diagonalizável
por uma base ortonormada. Isto acontece sse AA∗ = A∗ A, caso em que se diz que a matriz
A é normal. Vejam os exercı́cios sobre o produto interno para uma demonstração.
7.63. A decomposição em valores singulares. Vamos agora usar o Teorema espetral
para obter uma decomposição muito útil para uma transformação linear de Kn em Km
para K = R ou C. Deixamos como exercı́cio a adaptação desta discussão ao caso em que
os espaços Kn são substituı́do por espaços de dimensão finita com produto interno.
Começamos por considerar o caso de uma matriz quadrada. O seguinte resultado gener-
aliza a decomposição polar de um número complexo não nulo. Geometricamente, exprime
um endomorfismo invertı́vel de Kn como a composição de um conjunto de expansões e
contrações (reais) nas direções de uma base ortonormada (pelo Teorema Espetral é esse o
ÁLGEBRA LINEAR 141
efeito de uma matriz hermitiana com todos os valores próprios positivos) seguido de uma
”rotação” (uma transformação unitária).
Proposição 7.64 (Decomposição polar). Seja A ∈ Mn×n (C) uma matriz invertı́vel. Então
existem uma matriz hermitiana P com valores próprios todos positivos e uma matriz
unitária U únicas tais que A = U P .
Dem. A matriz A∗ A é hermitiana e todos os seus valores próprios são positivos uma vez
que A∗ Av = λv ⇒ kAvk2 = v ∗ A∗ Av = λkvk2 . Pelo Teorema espetral existe uma matriz
unitária S e uma matriz
√ diagonal
√ D com entradas diagonais positivas tais que A∗ A =
SDS ∗ . Seja P = S DS ∗ , onde D denota a matriz que se obtém de D tomando a raı́z
quadrada não negativa de cada uma das entradas de D.
É imediato verificar que P é hermitiana com todos os valores próprios positivos (os seus
valores próprios são as raı́zes quadradas dos valores próprios de D). Além disso
√ √ √ ∗ √ √ √
P ∗ P = (S DS ∗ )∗ (S DS ∗ ) = S D S ∗ S DS ∗ = S D DS ∗ = SDS ∗ = A∗ A
Para concluir a existência da decomposição polar, verifiquemos que U = AP −1 é unitária:
U ∗ U = (P −1 )∗ A∗ AP −1 = (P −1 )∗ P ∗ P P −1 = I
Resta-nos demonstrar a unicidade das matrizes U e P . Para tal basta notar que se A =
U P é uma decomposição polar então A∗ A = P ∗ P = P 2 . Se B for uma base ortonormada
que diagonaliza P então a mesma base ortonormada diagonaliza A∗ A. Conclui-se que o
espaço próprio de λ para P coincide com o espaço próprio de λ2 para A∗ A. Logo P é
completamente determinada por A, e portanto o mesmo sucede com U .
Observação 7.65. No Teorema anterior, se A ∈ Mn×n (R) então a matriz P na demon-
stração será real (pelo Teorema espetral para matrizes simétricas) e portanto U será também
real. Conclui-se assim que toda a matriz real invertı́vel A se fatoriza de forma única como
A = OP com O uma matriz ortogonal e P uma matriz simétrica com todos os valores
próprios positivos.
142 ÁLGEBRA LINEAR
√
Exemplo 7.66. Se A = [a + bi] ∈ M1×1 (C) então A∗ A = [a2 + b2 ], P = [ a2 + b2 ] e
escrevendo a + bi = r(cos θ + i sen θ) temos que U = P −1 A = [cos θ + i sen θ]. Vemos assim
que a decomposição polar generaliza a forma trigonométrica dos números complexos.
O seguinte Teorema pode ser visto como uma generalização da decomposição polar a
transformações lineares arbitrárias. Afirma que qualquer transformação linear de Kn para
Km pode ser decomposta numa rotação inicial em Kn , seguida de uma transformação que
expande ou contrai ao longo de alguns eixos coordenados, colapsando os restantes eixos
coordenados, seguida de outra rotação em Km .
Teorema 7.67 (Decomposição em valores singulares). Seja A ∈ Mm×n (C). Existe uma
fatorização de A na forma
A = U1 DU2
com U1 ∈ Mm×m (C) e U2 ∈ Mn×n (C) unitárias e D ∈ Mm×n (R) uma matriz cujas únicas
entradas não nulas são reais positivos σ1 ≥ . . . ≥ σk > 0 ao longo da diagonal, isto é
(
σi se j = i e i ≤ k,
dij =
0 caso contrário
Os números σi chamam-se os valores singulares de A.
Proof. A matriz A∗ A ∈ Mn×n (C) é hermitiana e tem todos os valores próprios ≥ 0 (uma
vez que hA∗ Av, vi = kAvk2 ≥ 0). Sejam U2 uma matriz unitária e Λ uma matriz diagonal
tais que
(62) A∗ A = U2−1 ΛU2
sendo as entradas diagonais não nulas de Λ por ordem σ12 ≥ . . . ≥ σk2 > 0. Seja D ∈
Mm×n (R) uma matriz cujas únicas entradas não nulas são σ1 ≥ . . . ≥ σk > 0 ao longo
da diagonal (isto é dii = σi para 1 ≤ i ≤ k e todas as outras entradas são nulas). Temos
DT D = Λ.
ÁLGEBRA LINEAR 143
Recorde que Ui−1 = Ui∗ uma vez que as matrizes Ui são unitárias. A equação (62) diz-nos
que (AU2−1 )∗ (AU2−1 ) = Λ pelo que
• As últimas n − k colunas de AU2−1 são nulas.
• As primeiras k colunas v1 , . . . , vk ∈ Cm são um conjunto ortogonal em Cm sendo o
comprimento da coluna i igual a σi
As colunas não nulas de AU2−1 são uma base ortogonal para o espaço das colunas de A
(uma vez que geram EC(A) e são ortogonais).
Seja U1 uma matriz unitária cujas primeiras k colunas são kvvii k (tal matriz obtém-se
completando a base ortonormada { kvv11 k , . . . , kvvkk k } para EC(A) a uma base ortonormada de
Cn .
Então A = U1 DU2 conforme desejado: esta equação é equivalente a AU2−1 = U1 D que
se verifica por definição da matriz U1 !
Observação 7.68. (i) Se A for uma matriz real, podemos tomar para U1 e U2 matrizes
ortogonais obtendo assim a decomposição em valores singulares real.
(ii) Embora a decomposição em valores singulares não seja única, os valores singulares
de A são completamente determinados por A: são as raı́zes quadradas positivas dos
valores próprios de A∗ A.
(iii) Em termos muito concretos:
• As colunas de U2−1 são uma base ortonormada B1 = {w1 , . . . , wn } para Cn (os
elementos chamam-se vetores singulares à direita)
• As colunas de U1 são uma base ortonormada B2 = {x1 , . . . , xm } para Cm (os
seus elementos chamam-se vetores singulares à esquerda)
• O vetor wi é enviado por A em σi xi para 1 ≤ i ≤ k e para 0 se i > k.
1 0 1
Exemplo 7.69. Consideremos a matriz A = . Temos
1 1 −1
1 1 2 1 0
1 0 1
AT A = 0 1 = 1 1 −1 = U2−1 ΛU2
1 1 −1
1 −1 0 −1 2
√1 √1 T
− √16
√1 √1
− 3 − 3 − √16
2 3 0 0 2
= − √13 0 √2
6
0 2 0 − √1
3
0 √2
6
1
√ 1
√ √1 0 0 0 1
√ √1 √1
3 2 6 3 2 6
Portanto
T
− √13 √1 − √16 √
2
3 √0 0
U2 = − √13 0 √2
6
, D=
√1 √1 √1
0 2 0
3 2 6
144 ÁLGEBRA LINEAR
√ √
Os valores singulares são σ1 = 3, σ2 = 2. Neste caso, uma vez que o espaço das colunas
é todo o R2 , a matriz U1 é dada por
√
−1 0
√ 2 0 0 1
AU2 = U1 =
− 3 0 0 −1 0
A decomposição singular de A é portanto
√ − √13 − √13 √1
3
0 1 3 √0 0 √1 √1
A = U1 DU2 = 0
−1 0 0 2 0 2 2
− √6 √26
1 √1
6
7.70. Formas quadráticas. Como outra aplicação do Teorema espetral vamos aproveitar
para classificar a menos de mudança de variável linear os polinómios homogéneos de grau
2 de várias variáveis. Podemos pensar nestes como as funções de várias variáveis mais
simples a seguir às funções lineares.
Definição 7.71. Uma forma quadrática em Rn é uma função f : Rn → R da forma
(63) f (x) = xT Ax
com A ∈ Mn×n (R) (estamos como habitualmente a identificar uma matriz 1 × 1 com um
escalar).
Por exemplo
2 5 x
= 2x2 + 6xy + 4y 2
(64) f (x, y) = x y
1 4 y
é uma forma quadrática em R2 . Note-se que a forma quadrática depende apenas da parte
T
simétrica A+A2
da matriz A. De facto uma vez que a transposição de matrizes 1 × 1 não
tem qualquer efeito temos xT Ax = (xT Ax)T = xT AT x. Substituindo a matriz A em (63)
T
por A+A2
obtemos portanto a mesma expressão. Por outro lado, uma vez que a soma das
entradas ij e ji da matriz A é o coeficiente de xi xj na expressão (63) matrizes simétricas
distintas dão azo a formas quadráticas distintas. Há assim uma correspondência biunı́voca
entre formas quadráticas e matrizes quadradas reais simétricas.
ÁLGEBRA LINEAR 145
Tendo em conta o Teorema espetral, dada uma matriz simétrica A, existe uma matriz
ortogonal S e uma matriz diagonal (real) D tal que
A = SDS −1
Proposição 7.73. Uma forma quadrática f (x) = xT Ax com A ∈ Mn×n (R) simétrica é
Exemplo 7.74. A forma quadrática (64) é indefinida uma vez que a matriz simétrica que
a representa
2 3
3 4
Observação 7.75. A expressão (65) mostra também que toda a matriz simétrica com
valores próprios positivos é a matriz da métrica de um produto interno, pois a positividade
do produto interno corresponde precisamente ao facto da forma quadrática determinada
pela matriz ser definida positiva.
Seja A uma matriz simétrica n × n. Dado 1 ≤ i ≤ n escrevemos Ai para a matriz que
se obtém de A tomando apenas as primeiras i linhas e colunas de A. Os determinantes
destas submatrizes de A chamam-se os menores principais de A.
Proposição 7.76 (Critério de Sylvester). Seja f : Rn → R a forma quadrática determi-
nada pela matriz simétrica A ∈ Mn×n (R). Então
• f é definida positiva sse det Ai > 0 para i = 1, . . . , n.
• f é definida negativa sse det Ai é positivo para i par e negativo para i ı́mpar.
Dem. Note-se que f (x) = xT Ax é definida positiva sse −f (x) = xT (−A)x é definida
negativa. Uma vez que det(−Ai ) = (−1)i det Ai (em geral, a multilinearidade do determi-
nante implica que det(λA)i = λi det Ai ), vemos que as duas afirmações do enunciado são
equivalentes. Basta portanto demonstrar a primeira.
Se f é definida positiva, a sua restrição a Ri = {(x1 , . . . , xi , 0, . . . , 0) : x1 , . . . , xi ∈ R}
será também definida positiva. Mas claramente esta restrição é dada pela fórmula (com
x ∈ Ri )
f|Ri (x) = xT Ai x
logo, para que f seja definida positiva, é necessário que det Ai > 0.
Reciprocamente, suponhamos que det Ai > 0 para cada i = 1, . . . n. Seja i > 1 e
suponhamos indutivamente que já verificámos que f|Rk é definida positiva para todo k < i
(para k = 1 é claro que se det A1 = a11 > 0 então f|R1 (x1 ) = a11 x21 é definida positiva).
Suponhamos por absurdo que f|Ri não era definida positiva. Uma vez que, por hipótese,
det Ai > 0, a matriz Ai teria que ter pelo menos dois valores próprios negativos (contados
ÁLGEBRA LINEAR 147
com multiplicidade). Sendo W ⊂ Ri um plano gerado por dois vetores próprios indepen-
dentes de Ai com valores próprios negativos, terı́amos f|W (y) < 0 para y ∈ W \ {0}.
Mas a intersecção de W com Ri−1 ⊂ Ri tem dimensão pelo menos 1 pelo que existiria
um vetor y ∈ Ri−1 \ {0} com f (y) < 0, contradizendo a hipótese de indução que f|Ri−1 é
definida positiva.
Exemplo 7.77. Consideremos a forma quadrática f : R3 → R definida por
f (x, y, z) = 10x2 + 10y 2 + 10z 2 + 2xy + 2yz
A matriz simétrica que lhe está associada é
10 1 0
A = 1 10 1
0 1 10
Os menores principais
10 1 0
10 1
|10| = 10,
1 10
= 99,
1 10 1
= 1000 − 20 = 980
0 1 10
Num referencial ortonormado formado por vetores próprios da matriz simétrica que ocorre
na expressão acima, a expressão (69) transforma-se em
λ1 u2 + λ2 v 2 + λ3 w2 + g 0 u + h0 v + i0 z + j = 0
Módulo translações nos eixos dos u, v, w podemos assumir que as constantes g 0 = h0 = i0
se anulam, desde que o λi correspondente não se anule. Temos então os seguintes casos:
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais iguais (que podemos assumir positivos):
A equação define o conjunto vazio se j < 0, um ponto se j = 0 e um elipsóide se
j > 0 (trata-se da superfı́cie que se obtém de uma superfı́cie esférica reescalando os
eixos).
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais não todos iguais (podemos assumir que
λ1 , λ2 > 0 e λ3 < 0: Os protótipos destas superfı́cies são as definidas pelas equações
x2 + y 2 − z 2 = 1, x2 + y 2 − z 2 = 0, x2 + y 2 − z 2 = −1
p
Para entender a sua forma convém observar que o significado geométrico de x2 + y 2
é (pelo Teorema de Pitágoras) a distância do ponto (x, y, z) aopeixo dos zz. Num
qualquer semiplano limitado pelo eixo dos zz podemos usar r = x2 + y 2 ≥ 0 como
coordenada ao longo do semi-eixo perpendicular a Oz e a equação da interseção da
nossa superfı́cie com esse semiplano é determinada pela equação
r2 − z 2 = 1, r2 − z 2 = 0, r2 − z 2 = −1
ou seja, trata-se de uma hipérbole nos casos em que o termo direito é ±1 e de
um par de semi-retas no caso restante. As superfı́cies que pretendemos descrever
obtêm-se rodando estas curvas em torno do eixo Oz. Denominam-se respetivamente
um hiperbolóide, um cone e um hiperbolóide de duas folhas.
• λ1 = 0 e λ2 , λ3 6= 0 com o mesmo sinal que podemos assumir positivo: Os protótipos
são agora da forma
x2 + y 2 = j 0 , x2 + y 2 − z = j 0
que são respetivamente o vazio, o eixo dos zz ou um cilindro em torno do eixo dos
zz no primeiro caso, ou um parabolóide (uma parábola z = r2 − j 0 rodada em torno
do eixo dos zz).
• λ1 = 0 e λ2 , λ3 6= 0 com sinais diferentes (podemos assumir λ2 > 0, λ3 < 0): Os
protótipos são
x2 − y 2 = j 0 , x2 − y 2 − z = j 0
No primeiro caso trata-se de um cilindro hiperbólico, isto é, de uma hipérbole
transladada ao longo do eixo dos zz (ou no caso degenerado em que j 0 = 0, da
união de dois planos concorrentes no eixo dos zz), enquanto que no segundo a su-
perfı́cie designa-se por uma sela uma vez que tem o aspeto de uma sela de um cavalo
(há uma parábola virada para cima ao longo do eixo dos xx e uma decrescente ao
longo do eixo dos yy).
ÁLGEBRA LINEAR 151
References
[Ax] S. Axler, Linear Algebra Done Right, Springer UTM (1997).
[D] E. Dias, Álgebra Linear, https://www.math.tecnico.ulisboa.pt/~edias/TextosNet/
ALbookfin_Net.pdf
[FIS] S. Friedberg, A. Insel and L. Spence, Linear Algebra (4th edition), Pearson Education (2003).
[HK] K. Hoffman and R. Kunze, Linear Algebra, Prentice-Hall (1961)