0% found this document useful (0 votes)
29 views79 pages

Functions of Matrices Nicholas J. Higham 2025 Scribd Download

The document is a promotional advertisement for various ebooks available on ebookgate.com, including 'Functions of Matrices' by Nicholas J. Higham. It provides links to download the ebooks in different formats such as PDF, ePub, and MOBI. The document also lists other titles by different authors available for instant download.

Uploaded by

risbyhader0b
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
29 views79 pages

Functions of Matrices Nicholas J. Higham 2025 Scribd Download

The document is a promotional advertisement for various ebooks available on ebookgate.com, including 'Functions of Matrices' by Nicholas J. Higham. It provides links to download the ebooks in different formats such as PDF, ePub, and MOBI. The document also lists other titles by different authors available for instant download.

Uploaded by

risbyhader0b
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 79

Get the full ebook with Bonus Features for a Better Reading Experience on ebookgate.

com

Functions of Matrices Nicholas J. Higham

https://ebookgate.com/product/functions-of-matrices-
nicholas-j-higham/

OR CLICK HERE

DOWLOAD NOW

Download more ebook instantly today at https://ebookgate.com


Instant digital products (PDF, ePub, MOBI) available
Download now and explore formats that suit you...

Physics of the Piano 1st Edition Nicholas J. Giordano

https://ebookgate.com/product/physics-of-the-piano-1st-edition-
nicholas-j-giordano/

ebookgate.com

Dangerous Frames Nicholas J. G. Winter

https://ebookgate.com/product/dangerous-frames-nicholas-j-g-winter/

ebookgate.com

Visual Perception 3rd Edition Nicholas J. Wade

https://ebookgate.com/product/visual-perception-3rd-edition-nicholas-
j-wade/

ebookgate.com

Totally Nonnegative Matrices Shaun M. Fallat

https://ebookgate.com/product/totally-nonnegative-matrices-shaun-m-
fallat/

ebookgate.com
Diary of a Disaster British Aid to Greece 1940 1941 Higham

https://ebookgate.com/product/diary-of-a-disaster-british-aid-to-
greece-1940-1941-higham/

ebookgate.com

Traffic Highway Engineering Fouth Edition Nicholas J.


Garber

https://ebookgate.com/product/traffic-highway-engineering-fouth-
edition-nicholas-j-garber/

ebookgate.com

NIST handbook of mathematical functions 1 Pap/Cdr Edition


Frank W. J. Olver

https://ebookgate.com/product/nist-handbook-of-mathematical-
functions-1-pap-cdr-edition-frank-w-j-olver/

ebookgate.com

120 Banned Books Censorship Histories of World Literature


Second Edition Nicholas J. Karolides

https://ebookgate.com/product/120-banned-books-censorship-histories-
of-world-literature-second-edition-nicholas-j-karolides/

ebookgate.com

Pediatric Hematology Methods and Protocols 1st Edition


Nicholas J. Goulden

https://ebookgate.com/product/pediatric-hematology-methods-and-
protocols-1st-edition-nicholas-j-goulden/

ebookgate.com
ot104_HighamFM-B:Gockenbach 2/8/2008 2:47 PM Page 1

Functions
of Matrices
ot104_HighamFM-B:Gockenbach 2/8/2008 2:47 PM Page 2
ot104_HighamFM-B:Gockenbach 2/8/2008 2:47 PM Page 3

Functions
of Matrices
Theory and Computation

Nicholas J. Higham
University of Manchester
Manchester, United Kingdom

Society for Industrial and Applied Mathematics • Philadelphia


Copyright © 2008 by the Society for Industrial and Applied Mathematics.

10 9 8 7 6 5 4 3 2 1

All rights reserved. Printed in the United States of America. No part of this book may
be reproduced, stored, or transmitted in any manner without the written permission of the
publisher. For information, write to the Society for Industrial and Applied Mathematics,
3600 Market Street, 6th Floor, Philadelphia, PA 19104-2688 USA.

Trademarked names may be used in this book without the inclusion of a trademark symbol.
These names are used in an editorial context only; no infringement of trademark is intended.

Maple is a registered trademark of Waterloo Maple, Inc.

Mathematica is a registered trademark of Wolfram Research, Inc.

MATLAB is a registered trademark of The MathWorks, Inc. For MATLAB product


information, please contact The MathWorks, Inc., 3 Apple Hill Drive, Natick, MA
01760-2098 USA, 508-647-7000, Fax: 508-647-7101, [email protected],
www.mathworks.com.

Library of Congress Cataloging-in-Publication Data


Higham, Nicholas J., 1961-
Functions of matrices : theory and computation / Nicholas J. Higham.
p. cm.
Includes bibliographical references and index.
ISBN 978-0-89871-646-7 1. Matrices. 2. Functions. 3. Factorization (Mathematics)
I. Title.

QA188.H53 2008
512.9'434--dc22
2007061811

is a registered trademark.
ot104_HighamFM-B:Gockenbach 2/8/2008 2:47 PM Page 5

To Françoise

ot104_HighamFM-B:Gockenbach 2/8/2008 2:47 PM Page 6
Contents

List of Figures xiii

List of Tables xv

Preface xvii

1 Theory of Matrix Functions 1


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Definitions of f (A) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Jordan Canonical Form . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Polynomial Interpolation . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Cauchy Integral Theorem . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Equivalence of Definitions . . . . . . . . . . . . . . . . . . . . 8
1.2.5 Example: Function of Identity Plus Rank-1 Matrix . . . . . . 8
1.2.6 Example: Function of Discrete Fourier Transform Matrix . . . 10
1.3 Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Nonprimary Matrix Functions . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Existence of (Real) Matrix Square Roots and Logarithms . . . . . . . 16
1.6 Classification of Matrix Square Roots and Logarithms . . . . . . . . . 17
1.7 Principal Square Root and Logarithm . . . . . . . . . . . . . . . . . . 20
1.8 f (AB) and f (BA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9 Miscellany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.10 A Brief History of Matrix Functions . . . . . . . . . . . . . . . . . . . 26
1.11 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2 Applications 35
2.1 Differential Equations . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.1 Exponential Integrators . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Nuclear Magnetic Resonance . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 Control Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5 The Nonsymmetric Eigenvalue Problem . . . . . . . . . . . . . . . . . 41
2.6 Orthogonalization and the Orthogonal Procrustes Problem . . . . . . 42
2.7 Theoretical Particle Physics . . . . . . . . . . . . . . . . . . . . . . . 43
2.8 Other Matrix Functions . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9 Nonlinear Matrix Equations . . . . . . . . . . . . . . . . . . . . . . . 44
2.10 Geometric Mean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.11 Pseudospectra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.12 Algebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

vii
viii Contents

2.13 Sensitivity Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48


2.14 Other Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.14.1 Boundary Value Problems . . . . . . . . . . . . . . . . . . . . 48
2.14.2 Semidefinite Programming . . . . . . . . . . . . . . . . . . . . 48
2.14.3 Matrix Sector Function . . . . . . . . . . . . . . . . . . . . . . 48
2.14.4 Matrix Disk Function . . . . . . . . . . . . . . . . . . . . . . . 49
2.14.5 The Average Eye in Optics . . . . . . . . . . . . . . . . . . . . 50
2.14.6 Computer Graphics . . . . . . . . . . . . . . . . . . . . . . . . 50
2.14.7 Bregman Divergences . . . . . . . . . . . . . . . . . . . . . . . 50
2.14.8 Structured Matrix Interpolation . . . . . . . . . . . . . . . . . 50
2.14.9 The Lambert W Function and Delay Differential Equations . 51
2.15 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Conditioning 55
3.1 Condition Numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 Properties of the Fréchet Derivative . . . . . . . . . . . . . . . . . . . 57
3.3 Bounding the Condition Number . . . . . . . . . . . . . . . . . . . . 63
3.4 Computing or Estimating the Condition Number . . . . . . . . . . . 64
3.5 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 Techniques for General Functions 71


4.1 Matrix Powers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Polynomial Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Taylor Series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Rational Approximation . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4.1 Best L∞ Approximation . . . . . . . . . . . . . . . . . . . . . 79
4.4.2 Padé Approximation . . . . . . . . . . . . . . . . . . . . . . . 79
4.4.3 Evaluating Rational Functions . . . . . . . . . . . . . . . . . . 80
4.5 Diagonalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 Schur Decomposition and Triangular Matrices . . . . . . . . . . . . . 84
4.7 Block Diagonalization . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.8 Interpolating Polynomial and Characteristic Polynomial . . . . . . . 89
4.9 Matrix Iterations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.9.1 Order of Convergence . . . . . . . . . . . . . . . . . . . . . . . 91
4.9.2 Termination Criteria . . . . . . . . . . . . . . . . . . . . . . . 92
4.9.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.9.4 Numerical Stability . . . . . . . . . . . . . . . . . . . . . . . . 95
4.10 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.11 Bounds for kf (A)k . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.12 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5 Matrix Sign Function 107


5.1 Sensitivity and Conditioning . . . . . . . . . . . . . . . . . . . . . . . 109
5.2 Schur Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3 Newton’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4 The Padé Family of Iterations . . . . . . . . . . . . . . . . . . . . . . 115
5.5 Scaling the Newton Iteration . . . . . . . . . . . . . . . . . . . . . . . 119
Contents ix

5.6 Terminating the Iterations . . . . . . . . . . . . . . . . . . . . . . . . 121


5.7 Numerical Stability of Sign Iterations . . . . . . . . . . . . . . . . . . 123
5.8 Numerical Experiments and Algorithm . . . . . . . . . . . . . . . . . 125
5.9 Best L∞ Approximation . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.10 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

6 Matrix Square Root 133


6.1 Sensitivity and Conditioning . . . . . . . . . . . . . . . . . . . . . . . 133
6.2 Schur Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3 Newton’s Method and Its Variants . . . . . . . . . . . . . . . . . . . . 139
6.4 Stability and Limiting Accuracy . . . . . . . . . . . . . . . . . . . . . 144
6.4.1 Newton Iteration . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.4.2 DB Iterations . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.4.3 CR Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.4.4 IN Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.5 Scaling the Newton Iteration . . . . . . . . . . . . . . . . . . . . . . . 147
6.6 Numerical Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.7 Iterations via the Matrix Sign Function . . . . . . . . . . . . . . . . . 152
6.8 Special Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.8.1 Binomial Iteration . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.8.2 Modified Newton Iterations . . . . . . . . . . . . . . . . . . . 157
6.8.3 M-Matrices and H-Matrices . . . . . . . . . . . . . . . . . . . 159
6.8.4 Hermitian Positive Definite Matrices . . . . . . . . . . . . . . 161
6.9 Computing Small-Normed Square Roots . . . . . . . . . . . . . . . . 162
6.10 Comparison of Methods . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.11 Involutory Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.12 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7 Matrix pth Root 173


7.1 Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.2 Schur Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.3 Newton’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.4 Inverse Newton Method . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.5 Schur–Newton Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.6 Matrix Sign Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
7.7 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

8 The Polar Decomposition 193


8.1 Approximation Properties . . . . . . . . . . . . . . . . . . . . . . . . 197
8.2 Sensitivity and Conditioning . . . . . . . . . . . . . . . . . . . . . . . 199
8.3 Newton’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
8.4 Obtaining Iterations via the Matrix Sign Function . . . . . . . . . . . 202
8.5 The Padé Family of Methods . . . . . . . . . . . . . . . . . . . . . . . 203
8.6 Scaling the Newton Iteration . . . . . . . . . . . . . . . . . . . . . . . 205
8.7 Terminating the Iterations . . . . . . . . . . . . . . . . . . . . . . . . 207
8.8 Numerical Stability and Choice of H . . . . . . . . . . . . . . . . . . 209
x Contents

8.9 Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210


8.10 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

9 Schur–Parlett Algorithm 221


9.1 Evaluating Functions of the Atomic Blocks . . . . . . . . . . . . . . . 221
9.2 Evaluating the Upper Triangular Part of f (T ) . . . . . . . . . . . . . 225
9.3 Reordering and Blocking the Schur Form . . . . . . . . . . . . . . . . 226
9.4 Schur–Parlett Algorithm for f (A) . . . . . . . . . . . . . . . . . . . . 228
9.5 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
9.6 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

10 Matrix Exponential 233


10.1 Basic Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
10.2 Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
10.3 Scaling and Squaring Method . . . . . . . . . . . . . . . . . . . . . . 241
10.4 Schur Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
10.4.1 Newton Divided Difference Interpolation . . . . . . . . . . . . 250
10.4.2 Schur–Fréchet Algorithm . . . . . . . . . . . . . . . . . . . . . 251
10.4.3 Schur–Parlett Algorithm . . . . . . . . . . . . . . . . . . . . . 251
10.5 Numerical Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . 252
10.6 Evaluating the Fréchet Derivative and Its Norm . . . . . . . . . . . . 253
10.6.1 Quadrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
10.6.2 The Kronecker Formulae . . . . . . . . . . . . . . . . . . . . . 256
10.6.3 Computing and Estimating the Norm . . . . . . . . . . . . . . 258
10.7 Miscellany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
10.7.1 Hermitian Matrices and Best L∞ Approximation . . . . . . . 259
10.7.2 Essentially Nonnegative Matrices . . . . . . . . . . . . . . . . 260
10.7.3 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.7.4 The ψ Functions . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.8 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

11 Matrix Logarithm 269


11.1 Basic Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
11.2 Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
11.3 Series Expansions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
11.4 Padé Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
11.5 Inverse Scaling and Squaring Method . . . . . . . . . . . . . . . . . . 275
11.5.1 Schur Decomposition: Triangular Matrices . . . . . . . . . . . 276
11.5.2 Full Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
11.6 Schur Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
11.6.1 Schur–Fréchet Algorithm . . . . . . . . . . . . . . . . . . . . . 279
11.6.2 Schur–Parlett Algorithm . . . . . . . . . . . . . . . . . . . . . 279
11.7 Numerical Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.8 Evaluating the Fréchet Derivative . . . . . . . . . . . . . . . . . . . . 281
11.9 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
Contents xi

12 Matrix Cosine and Sine 287


12.1 Basic Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
12.2 Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
12.3 Padé Approximation of Cosine . . . . . . . . . . . . . . . . . . . . . . 290
12.4 Double Angle Algorithm for Cosine . . . . . . . . . . . . . . . . . . . 290
12.5 Numerical Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . 295
12.6 Double Angle Algorithm for Sine and Cosine . . . . . . . . . . . . . . 296
12.6.1 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
12.7 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

13 Function of Matrix Times Vector: f (A)b 301


13.1 Representation via Polynomial Interpolation . . . . . . . . . . . . . . 301
13.2 Krylov Subspace Methods . . . . . . . . . . . . . . . . . . . . . . . . 302
13.2.1 The Arnoldi Process . . . . . . . . . . . . . . . . . . . . . . . 302
13.2.2 Arnoldi Approximation of f (A)b . . . . . . . . . . . . . . . . . 304
13.2.3 Lanczos Biorthogonalization . . . . . . . . . . . . . . . . . . . 306
13.3 Quadrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
13.3.1 On the Real Line . . . . . . . . . . . . . . . . . . . . . . . . . 306
13.3.2 Contour Integration . . . . . . . . . . . . . . . . . . . . . . . . 307
13.4 Differential Equations . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
13.5 Other Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
13.6 Notes and References . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

14 Miscellany 313
14.1 Structured Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
14.1.1 Algebras and Groups . . . . . . . . . . . . . . . . . . . . . . . 313
14.1.2 Monotone Functions . . . . . . . . . . . . . . . . . . . . . . . 315
14.1.3 Other Structures . . . . . . . . . . . . . . . . . . . . . . . . . 315
14.1.4 Data Sparse Representations . . . . . . . . . . . . . . . . . . . 316
14.1.5 Computing Structured f (A) for Structured A . . . . . . . . . 316
14.2 Exponential Decay of Functions of Banded Matrices . . . . . . . . . . 317
14.3 Approximating Entries of Matrix Functions . . . . . . . . . . . . . . . 318

A Notation 319

B Background: Definitions and Useful Facts 321


B.1 Basic Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
B.2 Eigenvalues and Jordan Canonical Form . . . . . . . . . . . . . . . . 321
B.3 Invariant Subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
B.4 Special Classes of Matrices . . . . . . . . . . . . . . . . . . . . . . . . 323
B.5 Matrix Factorizations and Decompositions . . . . . . . . . . . . . . . 324
B.6 Pseudoinverse and Orthogonality . . . . . . . . . . . . . . . . . . . . 325
B.6.1 Pseudoinverse . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
B.6.2 Projector and Orthogonal Projector . . . . . . . . . . . . . . . 326
B.6.3 Partial Isometry . . . . . . . . . . . . . . . . . . . . . . . . . . 326
B.7 Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
B.8 Matrix Sequences and Series . . . . . . . . . . . . . . . . . . . . . . . 328
B.9 Perturbation Expansions for Matrix Inverse . . . . . . . . . . . . . . 328
xii Contents

B.10 Sherman–Morrison–Woodbury Formula . . . . . . . . . . . . . . . . . 329


B.11 Nonnegative Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
B.12 Positive (Semi)definite Ordering . . . . . . . . . . . . . . . . . . . . . 330
B.13 Kronecker Product and Sum . . . . . . . . . . . . . . . . . . . . . . . 331
B.14 Sylvester Equation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
B.15 Floating Point Arithmetic . . . . . . . . . . . . . . . . . . . . . . . . 331
B.16 Divided Differences . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334

C Operation Counts 335

D Matrix Function Toolbox 339

E Solutions to Problems 343

Bibliography 379

Index 415
List of Figures

2.1 The scalar sector function sectp (z) for p = 2: 5. . . . . . . . . . . . . . 49

3.1 Relative errors in the Frobenius norm for the finite difference approx-
imation (3.22) to the Fréchet derivative. . . . . . . . . . . . . . . . . 68

4.1 2-norms of first 99 terms in Taylor series of eA . . . . . . . . . . . . . 75


4.2 Relative errors for inversion of A = 3In , n = 25: 60, via the charac-
teristic polynomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.1 The function gr (x) = tanh(r arctanh(x)) for r = 2, 4, 8, 16. . . . . . . 118


5.2 Best L∞ approximation r(x) to sign(x) from R3,4 on [−2, −1] ∪ [1, 2]. 129

6.1 The cardioid (6.45), shaded, together with the unit circle . . . . . . . 157

7.1 Convergence of the Newton iteration (7.6) for a pth root of unity . . 179
7.2 Regions of a ∈ C for which the inverse Newton iteration (7.15) con-
verges to a−1/p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

8.1 Bounds on number of iterations for Newton iteration with optimal


scaling for 1 ≤ κ2 (A) ≤ 1016 . . . . . . . . . . . . . . . . . . . . . . . . 207

9.1 Normwise relative errors for funm mod and condrel (exp, A)u. . . . . . 230

10.1 2-norms of first 20 powers of A in (10.39). . . . . . . . . . . . . . . . 249


10.2 2-norm of exp(At) for A in (10.39). . . . . . . . . . . . . . . . . . . . 249
10.3 Normwise relative errors for MATLAB’s funm, expm, expmdemo1, and
funm mod. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
10.4 Same data as in Figure 10.3 presented as a performance profile. . . . 254

11.1 Illustration of condition (b) of Theorem 11.4. . . . . . . . . . . . . . 272


11.2 Normwise relative errors for MATLAB’s logm, logm old, logm iss schur,
and logm iss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
11.3 Same data as in Figure 11.2 presented as a performance profile. . . . 282

12.1 Normwise relative errors for Algorithm 12.6, MATLAB’s funm, and
Algorithm 12.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
12.2 Same data as in Figure 12.1 presented as a performance profile. . . . 297
12.3 Normwise relative errors for Algorithm 12.6, Algorithm 12.7, Algo-
rithm 12.8, funm, and sine obtained as shifted cosine from Algo-
rithm 12.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

xiii
List of Tables

4.1 Number of matrix multiplications required by the Paterson–Stockmeyer


method and Algorithms 4.2 and 4.3 to evaluate a degree m matrix
polynomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Number of matrix multiplications required by the Paterson–Stockmeyer
method to evaluate both pmm (A) and qmm (A). . . . . . . . . . . . . . 80
4.3 Errors keA − Fbk/keA k for Fb from funm simple for the matrix A =
gallery(’triw’,8). . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.4 Square root and sign iterations applied to Wilson matrix in single
precision arithmetic. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.1 Iteration functions fℓm from the Padé family (5.27). . . . . . . . . . . 116
5.2 Number of iterations for scaled Newton iteration. . . . . . . . . . . . 125
5.3 Newton iteration with spectral scaling for Jordan block J(2) ∈ R16×16 . 126
5.4 Newton iteration with determinantal scaling for random A ∈ R16×16
with κ2 (A) = 1010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.5 Newton iteration with determinantal scaling for random A ∈ R16×16
with real eigenvalues parametrized by d. . . . . . . . . . . . . . . . . 127

6.1 Cost per iteration of matrix square root iterations. . . . . . . . . . . 143


6.2 Summary of stability and limiting accuracy of square root iterations. 147
6.3 Results for rank-1 perturbation of I. . . . . . . . . . . . . . . . . . . 150
6.4 Results for Moler matrix. . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.5 Results for nonnormal matrix. . . . . . . . . . . . . . . . . . . . . . . 151
6.6 Results for Chebyshev–Vandermonde matrix. . . . . . . . . . . . . . . 151

8.1 Results for nearly orthogonal matrix, n = 16. . . . . . . . . . . . . . . 212


8.2 Results for binomial matrix, n = 16. . . . . . . . . . . . . . . . . . . . 212
8.3 Results for Frank matrix, n = 16. . . . . . . . . . . . . . . . . . . . . 212

10.1 Some formulae for eA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234


10.2 Maximal values θm of k2−s Ak such that the backward error bound
(10.31) does not exceed u = 2−53 , values of νm = min{ |x| : qm (x) =
0}, and upper bound ξm for kqm (A)−1 k. . . . . . . . . . . . . . . . . 244
10.3 Number of matrix multiplications, πm , required to evaluate pm (A)
and qm (A), and measure of overall cost Cm in (10.35). . . . . . . . . 245
Pm
10.4 Coefficients b(0 : m) in numerator pm (x) = i=0 bi xi of Padé approx-
imant rm (x) to ex , normalized so that b(m) = 1. . . . . . . . . . . . . 246
10.5 Zeros αj of numerator p8 and βj of denominator q8 of [8/8] Padé
approximant r8 to τ (x) = tanh(x)/x, shown to 5 significant digits. . . 258

xv
xvi List of Tables

11.1 Maximal values θm of kXk such that the bound (11.19) ensures krm (X)−
log(I +X)k does not exceed u = 2−53 , along with upper bound (11.20)
for κ(qm (X)) and upper bound (11.21) for φm , both with kXk = θm . 277

12.1 Number of matrix multiplications π2m required to evaluate p2m (A)


and q2m (A). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
12.2 Maximum value θ2m of θ such that the absolute error bound (12.24)
does not exceed u = 2−53 . . . . . . . . . . . . . . . . . . . . . . . . . 292
12.3 Upper bound for κ(q2m (A)) when θ ≤ θ2m , based on (12.26) and (12.27),
where the θ2m are given in Table 12.2. . . . . . . . . . . . . . . . . . 293
12.4 Upper bounds for ke p2m k∞ and ke q2m k∞ for θ ≤ θ2m . . . . . . . . . . . 293
12.5 Logic for choice of scaling and Padé approximant degree d ≡ 2m. . . 294
12.6 Maximum value βm of kAk such that the absolute error bound (12.28)
does not exceed u = 2−53 . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.7 Number of matrix multiplications π e2m to evaluate p2m (A), q2m (A),
pe2m+1 (A), and qe2m+1 (A). . . . . . . . . . . . . . . . . . . . . . . . . . 298

14.1 Structured matrices associated with some scalar products. . . . . . . 314

B.1 Constants αpq such that kAkp ≤ αpq kAkq , A ∈ Cm×n . . . . . . . . . . 327

C.1 Cost of some matrix computations. . . . . . . . . . . . . . . . . . . . 336


C.2 Cost of some matrix factorizations and decompositions. . . . . . . . . 337

D.1 Contents of Matrix Function Toolbox and corresponding parts of this


book. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
D.2 Matrix-function-related M-files in MATLAB and corresponding algo-
rithms in this book. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Preface

Functions of matrices have been studied for as long as matrix algebra itself. Indeed,
in his seminal A Memoir on the Theory of Matrices (1858), Cayley investigated the
square root of a matrix, and it was not long before definitions of f (A) for general f
were proposed by Sylvester and others. From their origin in pure mathematics, ma-
trix functions have broadened into a subject of study in applied mathematics, with
widespread applications in science and engineering. Research on matrix functions in-
volves matrix theory, numerical analysis, approximation theory, and the development
of algorithms and software, so it employs a wide range of theory and methods and
promotes an appreciation of all these important topics.
My first foray into f (A) was as a graduate student when I became interested in
the matrix square root. I have worked on matrix functions on and off ever since.
Although there is a large literature on the subject, including chapters in several
books (notably Gantmacher [203, ], Horn and Johnson [296, ], Lancaster
and Tismenetsky [371, ], and Golub and Van Loan [224, ]), there has not
previously been a book devoted to matrix functions. I started to write this book in
2003. In the intervening period interest in matrix functions has grown significantly,
with new applications appearing and the literature expanding at a fast rate, so the
appearance of this book is timely.
This book is a research monograph that aims to give a reasonably complete treat-
ment of the theory of matrix functions and numerical methods for computing them,
as well as an overview of applications. The theory of matrix functions is beautiful and
nontrivial. I have strived for an elegant presentation with illuminating examples, em-
phasizing results of practical interest. I focus on three equivalent definitions of f (A),
based on the Jordan canonical form, polynomial interpolation, and the Cauchy inte-
gral formula, and use all three to develop the theory. A thorough treatment is given
of problem sensitivity, based on the Fréchet derivative. The applications described
include both the well known and the more speculative or recent, and differential
equations and algebraic Riccati equations underlie many of them.
The bulk of the book is concerned with numerical methods and the associated
issues of accuracy, stability, and computational cost. Both general purpose methods
and methods for specific functions are covered. Little mention is made of methods
that are numerically unstable or have exorbitant operation counts of order n4 or
higher; many methods proposed in the literature are ruled out for at least one of
these reasons.
The focus is on theory and methods for general matrices, but a brief introduction
to functions of structured matrices is given in Section 14.1. The problem of computing
a function of a matrix times a vector, f (A)b, is of growing importance, though as yet
numerical methods are relatively undeveloped; Chapter 13 is devoted to this topic.
One of the pleasures of writing this book has been to explore the many connec-
tions between matrix functions and other subjects, particularly matrix analysis and
numerical analysis in general. These connections range from the expected, such as

xvii
xviii Preface

divided differences, the Kronecker product, and unitarily invariant norms, to the un-
expected, which include the Mandelbrot set, the geometric mean, partial isometries,
and the role of the Fréchet derivative beyond measuring problem sensitivity.
I have endeavoured to make this book more than just a monograph about matrix
functions, and so it includes many useful or interesting facts, results, tricks, and
techniques that have a (sometimes indirect) f (A) connection. In particular, the book
contains a substantial amount of matrix theory, as well as many historical references,
some of which appear not to have previously been known to researchers in the area.
I hope that the book will be found useful as a source of statements and applications
of results in matrix analysis and numerical linear algebra, as well as a reference on
matrix functions.
Four main themes pervade the book.
Role of the sign function. The matrix sign function has fundamental theoretical
and algorithmic connections with the matrix square root, the polar decomposition,
and, to a lesser extent, matrix pth roots. For example, a large class of iterations for
the matrix square root can be obtained from corresponding iterations for the matrix
sign function, and Newton’s method for the matrix square root is mathematically
equivalent to Newton’s method for the matrix sign function.
Stability. The stability of iterations for matrix functions can be effectively defined
and analyzed in terms of power boundedness of the Fréchet derivative of the iteration
function at the solution. Unlike some earlier, more ad hoc analyses, no assumptions
are required on the underlying matrix. General results (Theorems 4.18 and 4.19)
simplify the analysis for idempotent functions such as the matrix sign function and
the unitary polar factor.
Schur decomposition and Parlett recurrence. The use of a Schur decomposition
followed by reordering and application of the block form of the Parlett recurrence
yields a powerful general algorithm, with f -dependence restricted to the evaluation
of f on the diagonal blocks of the Schur form.
Padé approximation. For transcendental functions the use of Padé approximants,
in conjunction with an appropriate scaling technique that brings the matrix argument
close to the origin, yields an effective class of algorithms whose computational building
blocks are typically just matrix multiplication and the solution of multiple right-hand
side linear systems. Part of the success of this approach rests on the several ways
in which rational functions can be evaluated at a matrix argument, which gives the
scope to find a good compromise between speed and stability.
In addition to surveying, unifying, and sometimes improving existing results and
algorithms, this book contains new results. Some of particular note are as follows.
• Theorem 1.35, which relates f (αIm + AB) to f (αIn + BA) for A ∈ Cm×n and
B ∈ Cn×m and is an analogue for general matrix functions of the Sherman–
Morrison–Woodbury formula for the matrix inverse.
• Theorem 4.15, which shows that convergence of a scalar iteration implies con-
vergence of the corresponding matrix iteration when applied to a Jordan block,
under suitable assumptions. This result is useful when the matrix iteration
can be block diagonalized using the Jordan canonical form of the underlying
matrix, A. Nevertheless, we show in the context of Newton’s method for the
matrix square root that analysis via the Jordan canonical form of A does not
always give the strongest possible convergence result. In this case a stronger
result, Theorem 6.9, is obtained essentially by reducing the convergence analysis
to the consideration of the behaviour of the powers of a certain matrix.
Preface xix

• Theorems 5.13 and 8.19 on the stability of essentially all iterations for the ma-
trix sign function and the unitary polar factor, and the general results in The-
orems 4.18 and 4.19 on which these are based.
• Theorems 6.14–6.16 on the convergence of the binomial, Pulay, and Visser iter-
ations for the matrix square root.
• An improved Schur–Parlett algorithm for the matrix logarithm, given in Sec-
tion 11.6, which makes use of improved implementations of the inverse scaling
and squaring method in Section 11.5.

The Audience
The book’s main audience is specialists in numerical analysis and applied linear al-
gebra, but it will be of use to anyone who wishes to know something of the theory
of matrix functions and state of the art methods for computing them. Much of the
book can be understood with only a basic grounding in numerical analysis and linear
algebra.

Using the Book


The book can be used as the basis for a course on functions of matrices at the graduate
level. It is also a suitable reference for an advanced course on applied or numerical
linear algebra, which might cover particular topics such as definitions and properties
of f (A), or the matrix exponential and logarithm. It can be used by instructors at all
levels as a supplementary text from which to draw examples, historical perspective,
statements of results, and exercises. The book, and the subject itself, are particularly
well suited to self-study.
To a large extent the chapters can be read independently. However, it is ad-
visable first to become familiar with Sections 1.1–1.3, the first section of Chapter 3
(Conditioning), and most of Chapter 4 (Techniques for General Functions).
The Notes and References are an integral part of each chapter. In addition to
containing references, historical information, and further details, they include material
not covered elsewhere in the chapter and should always be consulted, in conjunction
with the index, to obtain the complete picture.
This book has been designed to be as easy to use as possible and is relatively
self-contained. Notation is summarized in Appendix A, while Appendix B (Back-
ground: Definitions and Useful Facts) reviews basic terminology and needed results
from matrix analysis and numerical analysis. When in doubt about the meaning of
a term the reader should consult the comprehensive index. Appendix C provides a
handy summary of operation counts for the most important matrix computation ker-
nels. Each bibliography entry shows on which pages the item is cited, which makes
browsing through the bibliography another route into the book’s content.
The exercises, labelled “problems”, are an important part of the book, and many
of them are new. Solutions, or occasionally a reference to where a solution can be
found, are given for almost every problem in Appendix E. Research problems given
at the end of some sets of problems highlight outstanding open questions.
A Web page for the book can be found at
http://www.siam.org/books/ot104
It includes
xx Preface

• The Matrix Function Toolbox for MATLAB, described in Appendix D. This


toolbox contains basic implementations of the main algorithms in the book.

• Updates relating to material in the book.

• A BibTEX database functions-of-matrices.bib containing all the references


in the bibliography.

Acknowledgments
A number of people have influenced my thinking about matrix functions. Discussions
with Ralph Byers in 1984, when he was working on the matrix sign function and I was
investigating the polar decomposition, first made me aware of connections between
these two important tools. The work on the matrix exponential of Cleve Moler and
Charlie Van Loan has been a frequent source of inspiration. Beresford Parlett’s ideas
on the exploitation of the Schur form and the adroit use of divided differences have
been a guiding light. Charles Kenney and Alan Laub’s many contributions to the
matrix function arena have been important in my own research and are reported on
many pages of this book. Finally, Nick Trefethen has shown me the importance of the
Cauchy integral formula and has offered valuable comments on drafts at all stages.
I am grateful to several other people for providing valuable help, suggestions, or
advice during the writing of the book:

Rafik Alam, Awad Al-Mohy, Zhaojun Bai, Timo Betcke, Rajendra Bhatia,
Tony Crilly, Philip Davies, Oliver Ernst, Andreas Frommer, Chun-Hua Guo,
Gareth Hargreaves, Des Higham, Roger Horn, Bruno Iannazzo, Ilse Ipsen,
Peter Lancaster, Jörg Liesen, Lijing Lin, Steve Mackey, Roy Mathias,
Volker Mehrmann, Thomas Schmelzer, Gil Strang, Françoise Tisseur, and
Andre Weideman.

Working with the SIAM staff on the publication of this book has been a pleasure. I
thank, in particular, Elizabeth Greenspan (acquisitions), Sara Murphy (acquisitions),
Lois Sellers (design), and Kelly Thomas (copy editing).
Research leading to this book has been supported by the Engineering and Physical
Sciences Research Council, The Royal Society, and the Wolfson Foundation.

Manchester Nicholas J. Higham


December 2007
Chapter 1
Theory of Matrix Functions

In this first chapter we give a concise treatment of the theory of matrix functions,
concentrating on those aspects that are most useful in the development of algorithms.
Most of the results in this chapter are for general functions. Results specific to
particular functions can be found in later chapters devoted to those functions.

1.1. Introduction
The term “function of a matrix” can have several different meanings. In this book we
are interested in a definition that takes a scalar function f and a matrix A ∈ Cn×n
and specifies f (A) to be a matrix of the same dimensions as A; it does so in a way
that provides a useful generalization of the function of a scalar variable f (z), z ∈ C.
Other interpretations of f (A) that are not our focus here are as follows:

• Elementwise operations on matrices, for example sin A = (sin aij ). These oper-
ations are available in some programming languages. For example, Fortran 95
supports “elemental operations” [423, ], and most of MATLAB’s elemen-
tary and special functions are applied in an elementwise fashion when given
matrix arguments. However, elementwise operations do not integrate well with
matrix algebra, as is clear from the fact that the elementwise square of A is not
equal to the matrix product of A with itself. (Nevertheless, the elementwise
product of two matrices, known as the Hadamard product or Schur product, is
a useful concept [294, ], [296, , Chap. 5].)

• Functions producing a scalar result, such as the trace, the determinant, the
spectral radius, the condition number κ(A) = kAk kA−1 k, and one particular
generalization to matrix arguments of the hypergeometric function [359, ].

• Functions mapping Cn×n to Cm×m that do not stem from a scalar function.
Examples include matrix polynomials with matrix coefficients, the matrix trans-
pose, the adjugate (or adjoint) matrix, compound matrices comprising minors
of a given matrix, and factors from matrix factorizations. However, as a special
case, the polar factors of a matrix are treated in Chapter 8.

• Functions mapping C to Cn×n , such as the transfer function f (t) = B(tI −


A)−1 C, for B ∈ Cn×m , A ∈ Cm×m , and C ∈ Cm×n .

Before giving formal definitions, we offer some motivating remarks. When f (t)
is a polynomial or rational function with scalar coefficients and a scalar argument,
t, it is natural to define f (A) by substituting A for t, replacing division by matrix

1
2 Theory of Matrix Functions

inversion (provided that the matrices to be inverted are nonsingular), and replacing
1 by the identity matrix. Then, for example,

1 + t2
f (t) = ⇒ f (A) = (I − A)−1 (I + A2 ) if 1 ∈
/ Λ(A).
1−t
Here, Λ(A) denotes the set of eigenvalues of A (the spectrum of A). Note that rational
functions of a matrix commute, so it does not matter whether we write (I − A)−1 (I +
A2 ) or (I + A2 )(I − A)−1 . If f has a convergent power series representation, such as

t2 t3 t4
log(1 + t) = t − + − + ···, |t| < 1,
2 3 4
we can again simply substitute A for t to define

A2 A3 A4
log(I + A) = A − + − + ···, ρ(A) < 1. (1.1)
2 3 4
Here, ρ denotes the spectral radius and the condition ρ(A) < 1 ensures convergence of
the matrix series (see Theorem 4.7). In this ad hoc fashion, a wide variety of matrix
functions can be defined. However, this approach has several drawbacks:

• In order to build up a general mathematical theory, we need a way of defining


f (A) that is applicable to arbitrary functions f .

• A particular formula may apply only for a restricted set of A, as in (1.1). If we


define f (A) from such a formula (rather than obtain the formula by applying
suitable principles to a more general definition) we need to check that it is
consistent with other definitions of the same function.

• For a multivalued function (multifunction), such as the logarithm or square


root, it is desirable to classify all possible f (A) that can be obtained by using
different branches of the function and to identify any distinguished values.

For these reasons we now consider general definitions of functions of a matrix.

1.2. Definitions of f (A)


There are many equivalent ways of defining f (A). We focus on three that are of
particular interest. These definitions yield primary matrix functions; nonprimary
matrix functions are discussed in Section 1.4.

1.2.1. Jordan Canonical Form


It is a standard result that any matrix A ∈ Cn×n can be expressed in the Jordan
canonical form

Z −1 AZ = J = diag(J1 , J2 , . . . , Jp ), (1.2a)
 
λk 1
 .. 
 λk . 
Jk = Jk (λk ) =  .  ∈ Cmk ×mk , (1.2b)
 .. 1 
λk
1.2 Definitions of f (A) 3

where Z is nonsingular and m1 + m2 + · · · + mp = n. The Jordan matrix J is unique


up to the ordering of the blocks Ji , but the transforming matrix Z is not unique.
Denote by λ1 , . . . , λs the distinct eigenvalues of A and let ni be the order of the
largest Jordan block in which λi appears, which is called the index of λi .
We need the following terminology.

Definition 1.1. 1 The function f is said to be defined on the spectrum of A if the


values
f (j) (λi ), j = 0: ni − 1, i = 1: s
exist. These are called the values of the function f on the spectrum of A.

In most cases of practical interest f is given by a formula, such as f (t) = et .


However, the following definition of f (A) requires only the values of fPon the spectrum
s
of A; it does not require any other information about f . Indeed any i=1 ni arbitrary
numbers can be chosen and assigned as the values of f on the spectrum of A. It is
only when we need to make statements about global properties such as continuity
that we will need to assume more about f .

Definition 1.2 (matrix function via Jordan canonical form). Let f be defined on
the spectrum of A ∈ Cn×n and let A have the Jordan canonical form (1.2). Then

f (A) := Zf (J)Z −1 = Z diag(f (Jk ))Z −1 , (1.3)

where  
′ f (mk −1) )(λk )
 f (λk ) f (λk ) ...
(mk − 1)! 
 
 .. .. 
f (Jk ) := 
 f (λk ) . . .
 (1.4)
 .. 
 . ′
f (λk ) 
f (λk )
 1/2 1

A simple example illustrates the definition. For the Jordan block J = 0 1/2
and f (x) = x3 , (1.4) gives
   
f (1/2) f ′ (1/2) 1/8 3/4
f (J) = = ,
0 f (1/2) 0 1/8

which is easily verified to be J 3 .


To provide some insight into this definition we make several comments. First,
the definition yields an f (A) that can be shown to be independent of the particular
Jordan canonical form that is used; see Problem 1.1.
Second, note that if A is diagonalizable then the Jordan canonical form reduces
to an eigendecomposition A = ZDZ −1 , with D = diag(λi ) and the columns of Z
eigenvectors of A, and Definition 1.2 yields f (A) = Zf (D)Z −1 = Z diag(f (λi ))Z −1 .
Therefore for diagonalizable matrices f (A) has the same eigenvectors as A and its
eigenvalues are obtained by applying f to those of A.
1 This is the terminology used by Gantmacher [203, , Chap. 5] and Lancaster and Tismenetsky

[371, , Chap. 9]. Note that the values depend not just on the eigenvalues but also on the maximal
Jordan block sizes ni .
4 Theory of Matrix Functions

Finally, we explain how (1.4) can be obtained from Taylor series considerations.
In (1.2b) write Jk = λk I +Nk ∈ Cmk ×mk , where Nk is zero except for a superdiagonal
of 1s. Note that for mk = 3 we have
   
0 1 0 0 0 1
Nk =  0 0 1  , Nk2 =  0 0 0  , Nk3 = 0.
0 0 0 0 0 0
In general, powering Nk causes the superdiagonal of 1s to move a diagonal at a time
towards the top right-hand corner, until at the mk th power it disappears: Ekmk = 0;
so Nk is nilpotent. Assume that f has a convergent Taylor series expansion
f (j) (λk )(t − λk )j
f (t) = f (λk ) + f ′ (λk )(t − λk ) + · · · + + ···.
j!
On substituting Jk ∈ Cmk ×mk for t we obtain the finite series
f (mk −1) (λk )Nkmk −1
f (Jk ) = f (λk )I + f ′ (λk )Nk + · · · + , (1.5)
(mk − 1)!
since all powers of Nk from the mk th onwards are zero. This expression is easily seen
to agree with (1.4). An alternative derivation of (1.5) that does not rest on a Taylor
series is given in the next section.
Definition 1.2 requires the function f to take well-defined values on the spectrum
of A—including values associated
√ with derivatives, where appropriate. Thus in the
case of functions such as t and log t it is implicit that a single branch has been
chosen in (1.4). Moreover, if an eigenvalue occurs in more than one Jordan block
then the same choice of branch must be made in each block. If the latter requirement
is violated then a nonprimary matrix function is obtained, as discussed in Section 1.4.

1.2.2. Polynomial Interpolation


The second definition is less obvious than the first, yet it has an elegant derivation
and readily yields some useful properties. We first introduce some background on
polynomials at matrix arguments.
The minimal polynomial of A ∈ Cn×n is defined to be the unique monic poly-
nomial ψ of lowest degree such that ψ(A) = 0. The existence of ψ is easily proved;
see Problem 1.5. A key property is that the minimal polynomial divides any other
polynomial p for which p(A) = 0. Indeed, by polynomial long division any such p can
be written p = ψq + r, where the degree of the remainder r is less than that of ψ.
But 0 = p(A) = ψ(A)q(A) + r(A) = r(A), and this contradicts the minimality of the
degree of ψ unless r = 0. Hence r = 0 and ψ divides p.
By considering the Jordan canonical form it is not hard to see that
s
Y
ψ(t) = (t − λi )ni , (1.6)
i=1

where, as in the previous section, λ1 , . . . , λs are the distinct eigenvalues of A and ni is


the dimension of the largest Jordan block in which λi appears. It follows immediately
that ψ is zero on the spectrum of A (in the sense of Definition 1.1).
For any A ∈ Cn×n and any polynomial p(t), it is obvious that p(A) is defined
(by substituting A for t) and that p is defined on the spectrum of A. Our interest in
polynomials stems from the fact that the values of p on the spectrum of A determine
p(A).
1.2 Definitions of f (A) 5

Theorem 1.3. For polynomials p and q and A ∈ Cn×n , p(A) = q(A) if and only if
p and q take the same values on the spectrum of A.
Proof. Suppose that two polynomials p and q satisfy p(A) = q(A). Then d = p−q
is zero at A so is divisible by the minimal polynomial ψ. In other words, d takes only
the value zero on the spectrum of A, that is, p and q take the same values on the
spectrum of A.
Conversely, suppose p and q take the same values on the spectrum of A. Then
d = p − q is zero on the spectrum of A and so must be divisible by the minimum
polynomial ψ, in view of (1.6). Hence d = ψr for some polynomial r, and since
d(A) = ψ(A)r(A) = 0, it follows that p(A) = q(A).
Thus it is a property of polynomials that the matrix p(A) is completely determined
by the values of p on the spectrum of A. It is natural to generalize this property to
arbitrary functions and define f (A) in such a way that f (A) is completely determined
by the values of f on the spectrum of A.

Definition 1.4 (matrix function via Hermite interpolation). Let f be defined on


the spectrum of A ∈ Cn×n and let ψ be the minimal polynomial of A. Then
f (A) := p(A), where p is the polynomial of degree less than
s
X
ni = deg ψ
i=1

that satisfies the interpolation conditions

p(j) (λi ) = f (j) (λi ), j = 0: ni − 1, i = 1: s. (1.7)

There is a unique such p and it is known as the Hermite interpolating polynomial.



An example is useful for clarification. Consider f (t) = t and
 
2 2
A= .
1 3
The eigenvalues are 1 and 4, so s = 2 and n1 = n2 = 1. We take f (t) as the principal
branch t1/2 of the square root function and find that the required interpolant satisfying
p(1) = f (1) = 1 and p(4) = f (4) = 2 is
t−4 t−1 1
p(t) = f (1) + f (4) = (t + 2).
1−4 4−1 3
Hence  
1 1 4 2
f (A) = p(A) = (A + 2I) = .
3 3 1 5
It is easily checked that f (A)2 = A. Note that the formula A1/2 = (A + 2I)/3 holds
more generally for any diagonalizable n × n matrix A having eigenvalues 1 and/or 4
(and hence having a minimal polynomial that divides ψ(t) = (t−1)(t−4))—including
the identity matrix. We are not restricted to using the same branch of the square root
function at each eigenvalue. For example, with f (1) = 1 and f (4) = −2 we obtain
p(t) = 2 − t and  
0 −2
f (A) = .
−1 −1
6 Theory of Matrix Functions

We make several remarks on this definition.

Remark 1.5. If q is a polynomial that satisfies the interpolation conditions (1.7)


and some additional interpolation conditions (at the same or different λi ) then q and
the polynomial p of Definition 1.4 take the same values on the spectrum of A. Hence
by Theorem 1.3, q(A) = p(A) = f (A). Sometimes, in constructing a polynomial q
for which q(A) = f (A), it is convenient to impose more interpolation conditions than
necessary—typically if the eigenvalues of A are known but the Jordan form is not
(see the next remark, and Theorem 3.7, for example). Doing so yields a polynomial
of higher degree than necessary but does not affect the ability of the polynomial to
produce f (A).

Remark 1.6. The Hermite interpolating polynomial p is given explicitly by the


Lagrange–Hermite formula
 ! 
Xs nXi −1 Y
1 (j)
p(t) =  φi (λi )(t − λi )j (t − λj )nj  , (1.8)
i=1 j=0
j!
j6=i

Q
where φi (t) = f (t)/ j6=i (t − λj )nj . For a matrix with distinct eigenvalues (ni ≡ 1,
s = n) this formula reduces to the familiar Lagrange form
n
X Yn  
t − λj
p(t) = f (λi )ℓi (t), ℓi (t) = . (1.9)
i=1 j=1
λi − λj
j6=i

An elegant alternative to (1.8) is the Newton divided difference form

p(t) = f [x1 ] + f [x1 , x2 ](t − x1 ) + f [x1 , x2 , x3 ](t − x1 )(t − x2 ) + · · ·


+ f [x1 , x2 , . . . , xm ](t − x1 )(t − x2 ) . . . (t − xm−1 ), (1.10)

where m = deg ψ and the set {xi }m i=1 comprises the distinct eigenvalues λ1 , . . . , λs
with λi having multiplicity ni . Here the f [. . .] denote divided differences, which are
defined in Section B.16. Another polynomial q for which f (A) = q(A) is given by
(1.10) with m = n and {xi }ni=1 the set of all n eigenvalues of A:

q(t) = f [λ1 ] + f [λ1 , λ2 ](t − λ1 ) + f [λ1 , λ2 , λ3 ](t − λ1 )(t − λ2 ) + · · ·


+ f [λ1 , λ2 , . . . , λn ](t − λ1 )(t − λ2 ) . . . (t − λn−1 ). (1.11)

This polynomial is independent of the Jordan structure of A and is in general of


higher degree than p. However, the properties of divided differences ensure that q
and p take the same values on the spectrum of A, so q(A) = p(A) = f (A).

Remark 1.7. This definition explicitly makes f (A) a polynomial in A. It is impor-


tant to note, however, that the polynomial p depends on A, through the values of f on
the spectrum of A, so it is not the case that f (A) ≡ q(A) for some fixed polynomial
q independent of A.

Remark 1.8. If f is given by a power series, Definition 1.4 says that f (A) is never-
theless expressible as a polynomial in A of degree at most n−1. Another way to arrive
at this conclusion is as follows. The Cayley–Hamilton theorem says that any matrix
1.2 Definitions of f (A) 7

satisfies its own characteristic equation: q(A) = 0,2 where q(t) = det(tI − A) is the
characteristic polynomial. This theorem follows immediately from the fact that the
minimal polynomial ψ divides q (see Problem 1.18 for another proof). Hence the nth
power of A, and inductively all higher powers, are expressible as a linear combination
of I, A, . . . , An−1 . Thus any power series in A can be reduced to a polynomial in A
of degree at most n − 1. This polynomial is rarely of an elegant form or of practical
interest; exceptions are given in (1.16) and Problem 10.13.

Remark 1.9. It is natural to ask whether f (A) is real whenever A is real. By


considering real, diagonal A, it is clear that for this condition to hold it is necessary
that the scalar function f is real on the subset of the real line on which it is defined.
Since the nonreal eigenvalues of a real matrix occur in complex conjugate pairs λ, λ
it is reasonable also to assume that f (λ), f (λ) form a complex conjugate pair, and
likewise for higher derivatives. The interpolation conditions (1.7) can be written in
the form of a dual (confluent) Vandermonde system of equations whose solution is a
vector comprising the coefficients of r. Considering, for a moment, a 2 × 2 real matrix
with eigenvalues λ, λ (λ 6= λ) this system is, under the assumption on f above,
      
1 λ r0 f (λ) f (λ)
= = .
1 λ r1 f (λ) f (λ)
 1 1
Premultiplying by the matrix −i i /2 yields the system
    
1 Re λ r0 Re f (λ)
=
0 Im λ r1 Im f (λ)

with a real coefficient matrix and right-hand side. We conclude that r has real
coefficients and hence f (A) = p(A) is real when A is real. This argument extends to
real n × n matrices under the stated condition on f . As a particular example, we can
conclude that if A is real and nonsingular with no eigenvalues on the negative real
axis then A has a real square root and a real logarithm. For a full characterization
of the existence of real square roots and logarithms see Theorem 1.23. Equivalent
conditions to f (A) being real for real A when f is analytic are given in Theorem 1.18.

Remark 1.10. We can derive directly from Definition 1.4 the formula (1.4) for a
function of the Jordan block Jk in (1.2). It suffices to note that the interpolation
conditions are p(j) (λk ) = f (j) (λk ), j = 0: mk − 1, so that the required Hermite
interpolating polynomial is

f ′′ (λk )(t − λk )2 f (mk −1) (λk )(t − λk )mk −1


p(t) = f (λk ) + f ′ (λk )(t − λk ) + + ··· + ,
2! (mk − 1)!

and then to evaluate p(Jk ), making use of the properties of the powers of Nk noted
in the previous section (cf. (1.5)).

1.2.3. Cauchy Integral Theorem


Perhaps the most concise and elegant definition of a function of a matrix is a gener-
alization of the Cauchy integral theorem.
2 It is incorrect to try to prove the Cayley–Hamilton theorem by “q(A) = det(AI − A) = 0”.
8 Theory of Matrix Functions

Definition 1.11 (matrix function via Cauchy integral). For A ∈ Cn×n ,


Z
1
f (A) := f (z)(zI − A)−1 dz, (1.12)
2πi Γ

where f is analytic on and inside a closed contour Γ that encloses Λ(A).

The integrand contains the resolvent, (zI − A)−1 , which is defined on Γ since Γ
is disjoint from the spectrum of A.
This definition leads to short proofs of certain theoretical results and has the
advantage that it can be generalized to operators.

1.2.4. Equivalence of Definitions


Our three definitions are equivalent, modulo the requirement in the Cauchy integral
definition that f be analytic in a region of the complex plane containing the spectrum.

Theorem 1.12. Definition 1.2 (Jordan canonical form) and Definition 1.4 (Hermite
interpolation) are equivalent. If f is analytic then Definition 1.11 (Cauchy integral )
is equivalent to Definitions 1.2 and 1.4.

Proof. Definition 1.4 says that f (A) = p(A) for a Hermite interpolating poly-
nomial p satisfying (1.7). If A has the Jordan form (1.2) then f (A) = p(A) =
p(ZJZ −1 ) = Zp(J)Z −1 = Z diag(p(Jk ))Z −1 , just from elementary properties of ma-
trix polynomials. But since p(Jk ) is completely determined by the values of p on the
spectrum of Jk , and these values are a subset of the values of p on the spectrum of A,
it follows from Remark 1.5 and Remark 1.10 that p(Jk ) is precisely (1.4). Hence the
matrix f (A) obtained from Definition 1.4 agrees with that given by Definition 1.2.
For the equivalence of Definition 1.11 with the other two definitions, see Horn and
Johnson [296, , Thm. 6.2.28].
We will mainly use (for theoretical purposes) Definitions 1.2 and 1.4. The polyno-
mial interpolation definition, Definition 1.4, is well suited to proving basic properties
of matrix functions, such as those in Section 1.3, while the Jordan canonical form
definition, Definition 1.2, excels for solving matrix equations such as X 2 = A and
eX = A. For many purposes, such as the derivation of the formulae in the next
section, either of the definitions can be used.
In the rest of the book we will refer simply to “the definition of a matrix function”.

1.2.5. Example: Function of Identity Plus Rank-1 Matrix


To illustrate the theory, and the consistency of the different ways of defining f (A), it is
instructive to consider the cases where A is a rank-1 matrix and a rank-1 perturbation
of the identity matrix.
Consider, first, a rank-1 matrix A = uv ∗ . The interpolation definition provides
the easiest way to obtain f (A). We first need to determine the Jordan structure of
A. If v ∗ u 6= 0 then A has an eigenpair (v ∗ u, u) and 0 is a semisimple eigenvalue of
multiplicity n − 1. The interpolation conditions (1.7) are therefore simply

p(v ∗ u) = f (v ∗ u), p(0) = f (0),


1.2 Definitions of f (A) 9

and so
t − v∗ u t−0
p(t) = f (0) + ∗ f (v ∗ u).
0 − v∗ u v u−0
Hence
f (0) uv ∗
f (A) = p(A) = − ∗ uv ∗ + f (0)I + f (v ∗ u) ∗
 v u∗  v u
f (v u) − f (0)
= f (0)I + uv ∗ (1.13)
v∗ u − 0
= f (0)I + f [v ∗ u, 0] uv ∗ .

We have manipulated the expression into this form involving a divided difference
because it is suggestive of what happens when v ∗ u = 0. Indeed f [0, 0] = f ′ (0) and so
when v ∗ u = 0 we may expect that f (A) = f (0)I + f ′ (0)uv ∗ . To confirm this formula,
note that v ∗ u = 0 implies that the spectrum of A consists entirely of 0 and that
A2 = (v ∗ u)uv ∗ = 0. Hence, assuming A 6= 0, A must have one 2 × 2 Jordan block
corresponding to the eigenvalue 0, with the other n − 2 zero eigenvalues occurring in
1 × 1 Jordan blocks. The interpolation conditions (1.7) are therefore

p(0) = f (0), p′ (0) = f ′ (0),

and so p(t) = f (0) + tf ′ (0). Therefore p(A) = f (0)I + f ′ (0)uv ∗ , as anticipated. To


summarize, the formula

f (uv ∗ ) = f (0)I + f [v ∗ u, 0] uv ∗ (1.14)

is valid for all u and v. We could have obtained this formula directly by using the
divided difference form (1.10) of the Hermite interpolating polynomial r, but the
derivation above gives more insight.
We now show how the formula is obtained from Definition 1.2 when v ∗ u 6= 0 (for
the case v ∗ u = 0 see Problem 1.15). The Jordan canonical form can be written as
 ∗ ∗ 
v /(v u)
A = [ u X ] diag(v ∗ u, 0, . . . , 0) ,
Y

where X and Y are chosen so that AX = 0, [ u X ] is nonsingular, and


 ∗ ∗ 
v /(v u)
[u X ] = I. (1.15)
Y

Hence
 
v ∗ /(v ∗ u) uv ∗
f (A) = [ u X ] diag(f (v ∗ u), f (0), . . . , f (0)) = f (v ∗ u) ∗ + f (0)XY.
Y v u

But XY = I − uv ∗ /(v ∗ u), from (1.15), and hence (1.13) is recovered.


If f has a power series expansion then (1.14) can also be derived by direct substi-
tution into the power series, using Ak = (v ∗ u)k−1 uv ∗ .
The Cauchy integral definition (1.12) can also be used to derive (1.14) when f is
analytic, by using the Sherman–Morrison formula (B.11).
Even in the rank-1 case issues of nonexistence
√ are present. For f the square root,
(1.14) provides the two square roots uv ∗ / v ∗ u for v ∗ u 6= 0. But if v ∗ u = 0 the
10 Theory of Matrix Functions

formula breaks down because f ′ (0) is undefined. In this  case


 A has no square roots—
essentially because the Jordan form of A has a block 00 10 , which has no square roots.
Also note that if u and v are real, f (uv ∗ ) will be real only if f [v ∗ u, 0] is real.
Analysis very similar to that above provides a formula for a function of the identity
plus a rank-1 matrix that generalizes (1.14) (see Problem 1.16):

f (αI + uv ∗ ) = f (α)I + f [α + v ∗ u, α]uv ∗ . (1.16)

For a more general result involving a perturbation of arbitrary rank see Theorem 1.35.

1.2.6. Example: Function of Discrete Fourier Transform Matrix


Another interesting example is provided by the discrete Fourier transform (DFT)
matrix
1  n
Fn = 1/2 exp(−2πi(r − 1)(s − 1)/n) ∈ Cn×n . (1.17)
n r,s=1

Fn is a very special matrix: it is complex symmetric and unitary (and is a Vander-


monde matrix based on the roots of unity). Let us see how to evaluate f (Fn ).
The DFT has the special property that Fn4 = I, from which it follows that the
minimal polynomial of Fn is ψ(t) = t4 − 1 for n ≥ 4. The interpolating polynomial
in (1.7) therefore has degree 3 for all n ≥ 4 and can be expressed in Lagrange form
(1.9) as

1
p(t) = f (1) (t + 1) (t − i) (t + i) − f (−1) (t − 1) (t − i) (t + i)
4 
+ if (i) (t − 1) (t + 1) (t + i) − if (−i) (t − 1) (t + 1) (t − i) . (1.18)

Thus f (A) = p(A), and in fact this formula holds even for n = 1: 3, since incorpo-
rating extra interpolation conditions does not affect the ability of the interpolating
polynomial to yield f (A) (see Remark 1.5). This expression can be quickly evaluated
in O(n2 log n) operations because multiplication of a vector by Fn can be carried out
in O(n log n) operations using the fast Fourier transform (FFT).
Because Fn is unitary and hence normal, Fn is unitarily diagonalizable: Fn =
QDQ∗ for some unitary Q and diagonal D. (Indeed, any matrix with minimal polyno-
mial ψ(t) has distinct eigenvalues and so is diagonalizable.) Thus f (Fn ) = Qf (D)Q∗ .
However, this formula requires knowledge of Q and D and so is much more compli-
cated to use than (1.18).

1.3. Properties
The sign of a good definition is that it leads to the properties one expects or hopes
for, as well as some useful properties that are less obvious. We collect some general
properties that follow from the definition of f (A).

Theorem 1.13. Let A ∈ Cn×n and let f be defined on the spectrum of A. Then
(a) f (A) commutes with A;
(b) f (AT ) = f (A)T ;
(c) f (XAX −1 ) = Xf (A)X −1 ;
(d) the eigenvalues of f (A) are f (λi ), where the λi are the eigenvalues of A;
1.3 Properties 11

(e) if X commutes with A then X commutes with f (A);


(f) if A = (Aij ) is block triangular then F = f (A) is block triangular with the
same block structure as A, and Fii = f (Aii );
(g) if A = diag(A11 , A22 , . . . , Amm ) is block diagonal then

f (A) = diag f (A11 ), f (A22 ), . . . , f (Amm ) ;

(h) f (Im ⊗ A) = Im ⊗ f (A), where ⊗ is the Kronecker product;


(i) f (A ⊗ Im ) = f (A) ⊗ Im .

Proof. Definition 1.4 implies that f (A) is a polynomial in A, p(A) say. Then
f (A)A = p(A)A = Ap(A) = Af (A), which proves the first property. For (b) we have
f (A)T = p(A)T = p(AT ) = f (AT ), where the last equality follows from the fact that
the values of f on the spectrum of A are the same as the values of f on the spectrum of
AT . (c) and (d) follow immediately from Definition 1.2. (e) follows from (c) when X is
nonsingular; more generally it is obtained from Xf (A) = Xp(A) = p(A)X = f (A)X.
For (f), f (A) = p(A) is clearly block triangular and its ith diagonal block is p(Aii ).
Since p interpolates f on the spectrum of A it interpolates f on the spectrum of each
Aii , and hence p(Aii ) = f (Aii ). (g) is a special case of (f). (h) is a special case of
(g), since Im ⊗ A = diag(A, A, . . . , A). Finally, we have A ⊗ B = Π(B ⊗ A)Π T for a
permutation matrix Π, and so

f (A⊗Im ) = f (Π(Im ⊗A)Π T ) = Πf (Im ⊗A)Π T = Π(Im ⊗f (A))Π T = f (A)⊗Im .

Theorem 1.14 (equality of two matrix functions). With the notation of Section 1.2,
f (A) = g(A) if and only if

f (j) (λi ) = g (j) (λi ), j = 0: ni − 1, i = 1: s.

Equivalently, f (A) = 0 if and only if

f (j) (λi ) = 0, j = 0: ni − 1, i = 1: s.

Proof. This result is immediate from Definition 1.2 or Definition 1.4.


The next three results show how different functions interact in combination. It
is worth emphasizing why these results are nontrivial. It is not immediate from
any of the definitions of f (A) how to evaluate at A a composite function, such as
f (t) = e−t sin(t) or g(t) = t − (t1/2 )2 . Replacing “t” by “A” in these expressions
needs to be justified, as does the deduction g(A) = 0 from g(t) = 0. However, in
any polynomial (which may be an expression made up from other polynomials) the
“t → A” substitution is valid, and the proofs for general functions therefore work
by reducing to the polynomial case. The first result concerns a sum or product of
functions.

Theorem 1.15 (sum and product of functions). Let f and g be functions defined on
the spectrum of A ∈ Cn×n .
(a) If h(t) = f (t) + g(t) then h(A) = f (A) + g(A).
(b) If h(t) = f (t)g(t) then h(A) = f (A)g(A).
12 Theory of Matrix Functions

Proof. Part (a) is immediate from any of the definitions of h(A). For part
(b), let p and q interpolate f and g on the spectrum of A, so that p(A) = f (A)
and q(A) = g(A). By differentiating and using the product rule we find that the
functions h(t) and r(t) = p(t)q(t) have the same values on the spectrum of A. Hence
h(A) = r(A) = p(A)q(A) = f (A)g(A).
The next result generalizes the previous one and says that scalar functional re-
lationships of a polynomial nature are preserved by matrix functions. For example
sin2 (A) + cos2 (A) = I, (A1/p )p = A, and eiA = cos(A) + i sin(A). Of course, gener-
alizations of scalar identities that involve two or more noncommuting matrices may
fail; for example, eA+B , eA eB , and eB eA are in general all different (see Section 10.1).

Theorem 1.16 (polynomial functional identities). Let Q(u1 , . . . , ut ) be a polynomial


in u1 , . . . , ut and let f1 , . . . , ft be functions defined on the spectrum of A ∈ Cn×n .
If f (λ) = Q(f1 (λ), . . . , ft (λ)) takes zero values on the spectrum of A then f (A) =
Q(f1 (A), . . . , ft (A)) = 0.
Proof. Let the polynomials p1 , . . . , pt interpolate f1 , . . . , ft on the spectrum of A.
Then pi (A) = fi (A), i = 1: t. Let p(λ) = Q(p1 (λ), . . . , pt (λ)), and note that p(λ) is a
polynomial in λ. Since pi and fi take the same values on the spectrum of A, so do f
and p. But f takes zero values on the spectrum of A, by assumption, and hence so
does p. Therefore, by Theorem 1.14, f (A) = p(A) = 0.
The next result concerns a composite function in which neither of the constituents
need be a polynomial.

Theorem 1.17 (composite function). Let A ∈ Cn×n and let the distinct eigenvalues
of A be λ1 , . . . , λs with indices n1 , . . . , ns . Let h be defined on the spectrum of A (so
that the values h(j) (λi ), j = 0: ni − 1, i = 1: s exist) and let the values g (j) (h(λi )),
j = 0: ni − 1, i = 1: s exist. Then f (t) = g(h(t)) is defined on the spectrum of A and
f (A) = g(h(A)).

Proof. Let µk = h(λk ), k = 1: s. Since

f (λk ) = g(µk ), (1.19a)


′ ′ ′
f (λk ) = g (µk )h (λk ), (1.19b)
..
.
(nk −1)
f (λk ) = g (nk −1) (µk )h′ (λk )nk −1 + · · · + g ′ (µk )h(nk −1) (λk ), (1.19c)

and all the derivatives on the right-hand side exist, f is defined on the spectrum of A.
Let p(t) be any polynomial satisfying the interpolation conditions

p(j) (µi ) = g (j) (µi ), j = 0: ni − 1, i = 1: s. (1.20)

From Definition 1.2 it is clear that the indices of the eigenvalues µ1 , . . . , µs of h(A)
are at most n1 , . . . , ns , so the values on the right-hand side of (1.20) contain the
values of g on the spectrum of B = h(A); thus g(B) is defined and p(B) = g(B). It
now follows by (1.19) and (1.20) that the values of f (t) and p(h(t)) coincide on the
spectrum of A. Hence by applying Theorem 1.16 to Q(f (t), h(t)) = f (t) − p(h(t)) we
conclude that
f (A) = p(h(A)) = p(B) = g(B) = g(h(A)),
1.3 Properties 13

as required.
The assumptions in Theorem 1.17 on g for f (A) to exist are stronger than neces-
sary in certain cases where a Jordan block of Asplits
 under evaluation of h. Consider,
for example, g(t) = t1/3 , h(t) = t2 , and A = 00 10 . The required derivative g ′ (0) in
Theorem 1.17 does not exist, but f (A) = (A2 )1/3 = 0 nevertheless does exist. (A
full description of the Jordan canonical form of f (A) in terms of that of A is given in
Theorem 1.36.)
Theorem 1.17 implies that exp(log A) = A, provided that log is defined on the
spectrum of A. However, log(exp(A)) = A does not hold unless the spectrum of
A satisfies suitable restrictions, since the scalar relation log(et ) = t is likewise not
generally true in view of et = et+2kπi for any integer k; see Problem 1.39.
Although f (AT ) = f (A)T always holds (Theorem 1.13 (b)), the property f (A∗ ) =
f (A)∗ does not. The next result says essentially that for an analytic function f
defined on a suitable domain that includes a subset S of the real line, f (A∗ ) = f (A)∗
holds precisely when f maps S back into the real line. This latter condition also
characterizes when A real implies f (A) real (cf. the sufficient conditions given in
Remark 1.9).

Theorem 1.18 (Higham, Mackey, Mackey, and Tisseur). Let f be analytic on an open
subset Ω ⊆ C such that each connected component of Ω is closed under conjugation.
Consider the corresponding matrix function f on its natural domain in Cn×n , the set
D = { A ∈ Cn×n : Λ(A) ⊆ Ω }. Then the following are equivalent:
(a) f (A∗ ) = f (A)∗ for all A ∈ D.
(b) f (A) = f (A) for all A ∈ D.
(c) f (Rn×n ∩ D) ⊆ Rn×n .
(d) f (R ∩ Ω) ⊆ R.

Proof. The first two properties are obviously equivalent, in view of Theorem 1.13 (b).
Our strategy is therefore to show that (b) ⇒ (c) ⇒ (d) ⇒ (b).
(b) ⇒ (c): If A ∈ Rn×n ∩ D then

f (A) = f (A) (since A ∈ Rn×n )


= f (A) (given),

so f (A) ∈ Rn×n , as required.


(c) ⇒ (d): If λ ∈ R ∩ Ω then λI ∈ Rn×n ∩ D. So f (λI) ∈ Rn×n by (c), and hence,
since f (λI) = f (λ)I, f (λ) ∈ R.
The argument that (d) ⇒ (b) is more technical and involves complex analysis; see
Higham, Mackey, Mackey, and Tisseur [283, , Thm. 3.2].
Our next result shows that although the definition of f (A) utilizes only the values
of f on the spectrum of A (the values assumed by f elsewhere in C being arbitrary),
f (A) is a continuous function of A under suitable assumptions on f and the domain.

Theorem 1.19 (continuity). Let D be an open subset of R or C and let f be n − 1


times continuously differentiable on D. Then f (A) is a continuous matrix function
on the set of matrices A ∈ Cn×n with spectrum in D.

Proof. See Horn and Johnson [296, , Thm. 6.2.27 (1)], and Mathias [412,
, Lem. 1.1] for the conditions as stated here.
14 Theory of Matrix Functions

For continuity of f (A) on the set of normal matrices just the continuity of f is
sufficient [296, , Thm. 6.2.37].
Our final result shows that under mild conditions to check the veracity of a matrix
identity it suffices to check it for diagonalizable matrices.

Theorem 1.20. Let f satisfy the conditions of Theorem 1.19. Then f (A) = 0 for all
A ∈ Cn×n with spectrum in D if and only if f (A) = 0 for all diagonalizable A ∈ Cn×n
with spectrum in D.
Proof. See Horn and Johnson [296, , Thm. 6.2.27 (2)].
For an example of the use of Theorem 1.20 see the proof of Theorem 11.1. The-
orem 1.13 (f) says that block triangular structure is preserved by matrix functions.
An explicit formula can be given for an important instance of the block 2 × 2 case.

Theorem 1.21. Let f satisfy the conditions of Theorem 1.19 with D containing the
spectrum of n−1 1
 
n−1 B c
A= ∈ Cn×n .
1 0 λ
Then  
f (B) g(B)c
f (A) = , (1.21)
0 f (λ)
/ Λ(B) then g(B) = (B − λI)−1 (f (B) −
where g(z) = f [z, λ]. In particular, if λ ∈
f (λ)I).
Proof. We need only to demonstrate the formula for the (1,2) block F12 of f (A).
Equating (1,2) blocks in f (A)A = Af (A) (Theorem 1.13 (a)) yields BF12 + cf (λ) =
f (B)c + F12 λ, or (B − λI)F12 = (f (B) − f (λ)I)c. If λ ∈
/ Λ(B) the result is proved.
Otherwise, the result follows by a continuity argument: replace λ by λ(ǫ) = λ + ǫ, so
that λ(ǫ) ∈
/ Λ(B) for sufficiently small ǫ, let ǫ → 0, and use the continuity of divided
differences and of f (A).
For an expression for a function of a general block 2 × 2 block triangular matrix
see Theorem 4.12.

1.4. Nonprimary Matrix Functions


One of the main uses of matrix functions is for solving nonlinear matrix equations,
g(X) = A. Two particular cases are especially important. We will call any solution
of X 2 = A a square root of A and any solution of eX = A a logarithm of A. We
naturally turn to the square root and logarithm functions to solve the latter two
equations. But for certain matrices A some of the solutions of g(X) = A are not
obtainable as a primary matrix function of A, that is, they cannot be produced by
our (three equivalent) definitions of f (A) (with f = g −1 or otherwise). These X are
examples of nonprimary matrix functions. Informally, a nonprimary matrix function
is a “matrix equation solving function” that cannot be expressed as a primary matrix
function; we will not try to make this notion precise.
Suppose we wish to find square roots of
 
1 0
A= ,
0 1
1.4 Nonprimary Matrix Functions 15


that is, solve X 2 = A. Taking f (t) = t, the interpolation
√ conditions in Defini-
tions 1.4 are (with s = 1, n1 = 1) simply p(1) = 1. The interpolating polynomial
is therefore either p(t) = 1 or p(t) = −1, corresponding to the two square roots of
1, giving I and −I as square roots of A. Both of these square roots are, trivially,
polynomials in A. Turning to Definition 1.2, the matrix A is already in Jordan form
with two 1 × 1 Jordan blocks, and the definition provides the same two square roots.
However, if we ignore the prescription at the end of Section 1.2.1 about the choice of
branches then we can obtain two more square roots,
   
−1 0 1 0
, ,
0 1 0 −1
in which the two eigenvalues 1 have been sent to different square roots. Moreover,
since A = ZIZ −1 is a Jordan canonical form for any nonsingular Z, Definition 1.2
yields the square roots
   
−1 0 1 0
Z Z −1 , Z Z −1 , (1.22)
0 1 0 −1
and these formulae provide an infinity of square roots, because only for diagonal Z
are the matrices in (1.22) independent of Z. Indeed, one infinite family of square
roots of A comprises the Householder reflections
 
cos θ sin θ
H(θ) = , θ ∈ [0, 2π].
sin θ − cos θ
Definitions 1.2, 1.4, and 1.11 yield primary matrix functions. In most applications
it is primary matrix functions that are of interest, and virtually all the existing the-
ory and available methods are for such functions. Nonprimary matrix functions are
obtained from Definition 1.2 when two equal eigenvalues in different Jordan blocks
are mapped to different values of f ; in other words, different branches of f are taken
for different Jordan blocks with the same eigenvalue. The function obtained thereby
depends on the matrix Z in (1.3). This possibility arises precisely when the function is
multivalued and the matrix is derogatory, that is, the matrix has multiple eigenvalues
and an eigenvalue appears in more than one Jordan block.
Unlike primary matrix functions, nonprimary ones are not expressible as polyno-
mials in the matrix. However, a nonprimary function obtained from Definition 1.2,
using the prescription in the previous paragraph, nevertheless commutes with the ma-
trix. Such a function has the form X = Z diag(fk (Jk ))Z −1 , where A = Z diag(Jk )Z −1
is a Jordan canonical form and where the notation fk denotes that the branch of f
taken depends on k. Then XA = AX, because fk (Jk ) is a primary matrix function
and so commutes with Jk .
But note that not all nonprimary matrix functions are obtainable
  from the Jordan
canonical form prescription above. For example, A = 00 00 has the square root
 
X = 00 10 , and X is a Jordan block larger than the 1 × 1 Jordan blocks of A. This
example also illustrates that a nonprimary function can have the same spectrum as a
primary function, and so in general a nonprimary function cannot be identified from
its spectrum alone.
Nonprimary functions can be needed when, for a matrix A depending on a param-
eter t, a smooth curve of functions f (A(t)) needs to be computed and eigenvalues of
A(t) coalesce. Suppose we wish to compute square roots of
 
cos θ sin θ
G(θ) =
− sin θ cos θ
16 Theory of Matrix Functions

as θ varies from 0 to 2π. Since multiplication of a vector by G(θ) represents a rotation


through θ radians clockwise, G(θ/2) is the natural square root. However, for θ = π,
   
−1 0 0 1
G(π) = , G(π/2) = .
0 −1 −1 0

The only primary square roots of G(π) are ±iI, which are nonreal. While it is
nonprimary, G(π/2) is the square root we need in order to produce a smooth curve
of square roots.
An example of an application where nonprimary logarithms arise is the embed-
dability problems for Markov chains (see Section 2.3).
A primary matrix function with a nonprimary flavour is the matrix sign function
(see Chapter 5), which for a matrix A ∈ Cn×n is a (generally) nonprimary square
root of I that depends on A.
Unless otherwise stated, f (A) denotes a primary matrix function throughout this
book.

1.5. Existence of (Real) Matrix Square Roots and Logarithms


If A is nonsingular, or singular with a semisimple zero eigenvalue, then the square
root function is defined on the spectrum of A and so primary square roots exist. If A
is singular with a defective zero eigenvalue then while it has no primary square roots
it may have nonprimary ones. The existence of a square root of either type can be
neatly characterized in terms of null spaces of powers of A.

Theorem 1.22 (existence of matrix square root). A ∈ Cn×n has a square root if and
only if in the “ascent sequence” of integers d1 , d2 , . . . defined by

di = dim(null(Ai )) − dim(null(Ai−1 ))

no two terms are the same odd integer.

Proof. See Cross and Lancaster [122, ] or Horn and Johnson [296, , Cor.
6.4.13].
To illustrate, consider a Jordan block J ∈ Cm×m with eigenvalue zero. We have
dim(null(J 0 )) = 0, dim(null(J)) = 1, dim(null(J 2 )) = 2, . . . , dim(null(J m )) = m,
and so the ascent sequence comprises m 1s. Hence Jk does not have a square root
unless m = 1. However, the matrix
 
0 1 0
0 0 0 (1.23)
0 0 0

has ascent sequence 2, 1, 0, . . . and so does have a square root—for example, the matrix
 
0 0 1
0 0 0 (1.24)
0 1 0

(which is the 3 × 3 Jordan block with eigenvalue 0 with rows and columns 2 and 3
interchanged).
1.6 Classification of Matrix Square Roots and Logarithms 17

Another important existence question is “If A is real does there exist a real f (A),
either primary or nonprimary?” For most common functions the answer is clearly yes,
by considering a power series representation. For the square root and logarithm the
answer is not obvious; the next result completes the partial answer to this question
given in Remark 1.9 and Theorem 1.18.

Theorem 1.23 (existence of real square root and real logarithm).


(a) A ∈ Rn×n has a real square root if and only if it satisfies the condition of
Theorem 1.22 and A has an even number of Jordan blocks of each size for every
negative eigenvalue.
(b) The nonsingular matrix A ∈ Rn×n has a real logarithm if and only if A has
an even number of Jordan blocks of each size for every negative eigenvalue.
(c) If A ∈ Rn×n has any negative eigenvalues then no primary square root or
logarithm is real.

Proof. For the last part consider the real Schur decomposition, QT AQ = R (see
Section B.5), where Q ∈ Rn×n is orthogonal and R ∈ Rn×n is upper quasi-triangular.
Clearly, f (A) is real if and only if QT f (A)Q = f (R) is real, and a primary matrix
function f (R) is block upper triangular with diagonal blocks f (Rii ). If A has a
negative real eigenvalue then some Rii is 1 × 1 and negative, making f (Rii ) nonreal
for f the square root and logarithm.
The result of (b) is due to Culver [126, ], and the proof for (a) is similar; see
also Horn and Johnson [296, , Thms. 6.4.14, 6.4.15] and Nunemacher [451, ].

Theorem 1.23 implies that −In has a real, nonprimary square root and logarithm
for every even n. For some insight into part (a), note that if A has two Jordan blocks
J of the same size then its Jordan matrix has a principal submatrix of the form
 J 0   0 I 2
0J = J 0 .

1.6. Classification of Matrix Square Roots and Logarithms


The theory presented above provides a means for identifying some of the solutions
to nonlinear matrix equations such as X 2 = A, eX = A, and cos(X) = A, since in
each case X can be expressed as a function of A. However, more work is needed to
classify all the solutions. In particular, the possibility remains that there are solutions
X that have a spectrum of the form required for a primary matrix function but that
are not primary matrix functions according to our definition. This possibility can be
ruled out when the inverse of the function of interest has a nonzero derivative on the
spectrum of X.
We will concentrate on the matrix square root. Entirely analogous arguments
apply to the logarithm, which we briefly discuss, and the matrix pth root, which is
treated in Section 7.1. For f the square root function and λk 6= 0 we write
(j ) (j )
Lk k ≡ Lk k (λk ) = f (Jk (λk )),

where f (Jk (λk )) is given in (1.4) and where jk = 1 or 2 denotes the branch of f ; thus
(1) (2)
Lk = −Lk . Our first result characterizes all square roots.
18 Theory of Matrix Functions

Theorem 1.24 (Gantmacher). Let A ∈ Cn×n be nonsingular with the Jordan canon-
ical form (1.2). Then all solutions to X 2 = A are given by
(j ) (j )
X = ZU diag(L1 1 , L2 2 , . . . , L(jp)
p )U
−1 −1
Z , (1.25)

where U is an arbitrary nonsingular matrix that commutes with J.

Proof. Let X be any square root of A. Since A is nonsingular so is X, and hence


the derivative of the function x2 is nonzero at the eigenvalues of X. By Theorem 1.36,
given that A has the Jordan canonical form J = diag(J1 (λ1 ), J2 (λ2 ), . . . , Jp (λp )), X
must have the Jordan canonical form

JX = diag(J1 (µ1 ), J2 (µ2 ), . . . , Jp (µp )), (1.26)

where µ2k = λk , k = 1: p.
Now consider the matrix
(j ) (j )
L = diag(L1 1 , L2 2 , . . . , L(jp)
p ), (1.27)

(j )
where we choose the jk so that Lk k has eigenvalue µk for each k. Since L is a
square root of J, by the same argument as above L must have the Jordan canonical
form JX . Hence X = W LW −1 for some nonsingular W . From X 2 = A we have
W JW −1 = W L2 W −1 = ZJZ −1 , which can be rewritten as (Z −1 W )J = J(Z −1 W ).
Hence U = Z −1 W is an arbitrary matrix that commutes with J, which completes the
proof.
The structure of the matrix U in Theorem 1.24 is described in the next result.

Theorem 1.25 (commuting matrices). Let A ∈ Cn×n have the Jordan canonical
form (1.2). All solutions of AX = XA are given by X = ZW Z −1 , where W = (Wij )
with Wij ∈ Cmi ×mj (partitioned conformably with J in (1.2)) satisfies

0, λi 6= λj ,
Wij =
Tij , λi = λj ,

where Tij is an arbitrary upper trapezoidal Toeplitz matrix which, for mi < mj , has
the form Tij = [0, Uij ], where Uij is square.

Proof. See Lancaster and Tismenetsky [371, , Thm. 12.4.1].


Next we refine Theorem 1.24 to classify the square roots into primary and non-
primary square roots.

Theorem 1.26 (classification of square roots). Let the nonsingular matrix A ∈ Cn×n
have the Jordan canonical form (1.2) with p Jordan blocks, and let s ≤ p be the number
of distinct eigenvalues of A. Then A has precisely 2s square roots that are primary
functions of A, given by
(j ) (j )
Xj = Z diag(L1 1 , L2 2 , . . . , L(jp)
p )Z
−1
, j = 1: 2s ,

corresponding to all possible choices of j1 , . . . , jp , jk = 1 or 2, subject to the constraint


that ji = jk whenever λi = λk .
1.6 Classification of Matrix Square Roots and Logarithms 19

If s < p, A has nonprimary square roots. They form parametrized families


(j ) (j )
Xj (U ) = ZU diag(L1 1 , L2 2 , . . . , L(jp)
p )U
−1 −1
Z , j = 2s + 1: 2p ,

where jk = 1 or 2, U is an arbitrary nonsingular matrix that commutes with J, and


for each j there exist i and k, depending on j, such that λi = λk while ji 6= jk .

Proof. The proof consists of showing that for the square roots (1.25) for which
ji = jk whenever λi = λk ,
(j ) (j ) (j ) (j )
U diag(L1 1 , L2 2 , . . . , L(jp)
p )U
−1
= diag(L1 1 , L2 2 , . . . , L(jp)
p ),

that is, U commutes with the block diagonal matrix in the middle. This commutativ-
ity follows from the explicit form for U provided by Theorem 1.25 and the fact that
upper triangular Toeplitz matrices commute.
Theorem 1.26 shows that the square roots of a nonsingular matrix fall into two
classes. The first class comprises finitely many primary square roots, which are “iso-
lated”, being characterized by the fact that the sum of any two of their eigenvalues
is nonzero. The second class, which may be empty, comprises a finite number of pa-
rametrized families of matrices, each family containing infinitely many square roots
sharing the same spectrum.
Theorem 1.26 has two specific implications of note. First, if λk 6= 0 then the two
upper triangular square roots of Jk (λk ) given by (1.4) with f the square root function
are the only square roots of Jk (λk ). Second, if A is nonsingular and nonderogatory,
that is, none of the s distinct eigenvalues appears in more than one Jordan block,
then A has precisely 2s square roots, each of which is a primary function of A.
There is no analogue of Theorems 1.24 and 1.26 for singular A. Indeed the Jordan
block structure of a square root (when one exists) can be very different from that
of A. The search for square roots X of a singular matrix is aided by Theorem 1.36
below, which helps identify the possible Jordan forms of X; see Problem 1.29.
Analogous results, with analogous proofs, hold for the matrix logarithm.

Theorem 1.27 (Gantmacher). Let A ∈ Cn×n be nonsingular with the Jordan canon-
ical form (1.2). Then all solutions to eX = A are given by
(j ) (j )
X = ZU diag(L1 1 , L2 2 , . . . , L(jp)
p )U
−1 −1
Z ,

where
(j )
Lk k = log(Jk (λk )) + 2jk πiImk ; (1.28)
log(Jk (λk )) denotes (1.4) with the f the principal branch of the logarithm, defined by
Im(log(z)) ∈ (−π, π]; jk is an arbitrary integer; and U is an arbitrary nonsingular
matrix that commutes with J.

Theorem 1.28 (classification of logarithms). Let the nonsingular matrix A ∈ Cn×n


have the Jordan canonical form (1.2) with p Jordan blocks, and let s ≤ p be the number
of distinct eigenvalues of A. Then eX = A has a countable infinity of solutions that
are primary functions of A, given by
(j ) (j )
Xj = Z diag(L1 1 , L2 2 , . . . , L(jp)
p )Z
−1
,
20 Theory of Matrix Functions

(j )
where L1 1 is defined in (1.28), corresponding to all possible choices of the integers
j1 , . . . , jp , subject to the constraint that ji = jk whenever λi = λk .
If s < p then eX = A has nonprimary solutions. They form parametrized families

(j ) (j )
Xj (U ) = ZU diag(L1 1 , L2 2 , . . . , L(jp)
p )U
−1 −1
Z ,

where jk is an arbitrary integer, U is an arbitrary nonsingular matrix that commutes


with J, and for each j there exist i and k, depending on j, such that λi = λk while
ji 6= jk .

1.7. Principal Square Root and Logarithm


Among the square roots and logarithms of a matrix, the principal square root and
principal logarithm are distinguished by their usefulness in theory and in applications.
We denote by R− the closed negative real axis.

Theorem 1.29 (principal square root). Let A ∈ Cn×n have no eigenvalues on R− .


There is a unique square root X of A all of whose eigenvalues lie in the open right
half-plane, and it is a primary matrix function of A. We refer to X as the principal
square root of A and write X = A1/2 . If A is real then A1/2 is real.

Proof. Note first that a nonprimary square root of A, if one exists, must have
eigenvalues µi and µj with µi = −µj , and hence the eigenvalues cannot all lie in the
open right half-plane. Therefore only a primary square root can have spectrum in the
open right half-plane. Since A has no eigenvalues on R− , it is clear from Theorem 1.26
that there is precisely one primary square root of A whose eigenvalues all lie in the
open right half-plane. Hence the existence and uniqueness of A1/2 is established.
That A1/2 is real when A is real follows from Theorem 1.18 or Remark 1.9.

See Problem 1.27 for an extension of Theorem 1.29 that allows A to be singular.

Corollary 1.30. A Hermitian positive definite matrix A ∈ Cn×n has a unique Her-
mitian positive definite square root.

Proof. By Theorem 1.29 the only possible Hermitian positive definite square
root is A1/2 . That A1/2 is Hermitian positive definite follows from the expression
A1/2 = QD1/2 Q∗ , where A = QDQ∗ is a spectral decomposition (Q unitary, D
diagonal), with D having positive diagonal entries.

For a proof of the corollary from first principles see Problem 1.41.

Theorem 1.31 (principal logarithm). Let A ∈ Cn×n have no eigenvalues on R− .


There is a unique logarithm X of A all of whose eigenvalues lie in the strip { z :
−π < Im(z) < π }. We refer to X as the principal logarithm of A and write
X = log(A). If A is real then its principal logarithm is real.

Proof. The proof is entirely analogous to that of Theorem 1.29.


1.8 f (AB) and f (BA) 21

1.8. f (AB) and f (BA)


Although the matrices AB and BA are generally different, their Jordan structures
are closely related. We show in this section that for arbitrary functions f , f (AB) and
f (BA) also enjoy a close relationship—one that can be exploited both in theory and
computationally. Underlying all these relations is the fact that for any polynomial p,
and any A and B for which the products AB and BA are defined,

Ap(BA) = p(AB)A. (1.29)

This equality is trivial for monomials and follows immediately for general polynomials.
First we recap a result connecting the Jordan structures of AB and BA. We
denote by zi (X) the nonincreasing sequence of the sizes z1 , z2 , . . . , of the Jordan
blocks corresponding to the zero eigenvalues of the square matrix X.

Theorem 1.32 (Flanders). Let A ∈ Cm×n and B ∈ Cn×m . The nonzero eigenvalues
of AB are the same as those of BA and have the same Jordan structure. For the zero
eigenvalues (if any), |zi (AB) − zi (BA)| ≤ 1 for all i, where the shorter sequence
is appended with zeros as necessary, and any such set of inequalities is attained for
some A and B. If m 6= n then the larger (in dimension) of AB and BA has a zero
eigenvalue of geometric multiplicity at least |m − n|.

Proof. See Problem 1.43.

Theorem 1.33. Let A ∈ Cn×n and B ∈ Cm×m and let f be defined on the spectrum
of both A and B. Then there is a single polynomial p such that f (A) = p(A) and
f (B) = p(B).

Proof. Let p be the Hermite interpolating polynomial satisfying the union of


the interpolation conditions (1.7) for A with those for B. Let r be the Hermite
interpolating polynomial to f on the spectrum of A. Then p and r take the same
values on the spectrum of A, so f (A) := r(A) = p(A). By the same argument with A
and B interchanged, f (B) = p(B), as required.

Corollary 1.34. Let A ∈ Cm×n and B ∈ Cn×m and let f be defined on the spectra
of both AB and BA. Then
Af (BA) = f (AB)A. (1.30)

Proof. By Theorem 1.33 there is a single polynomial p such that f (AB) = p(AB)
and f (BA) = p(BA). Hence, using (1.29),

Af (BA) = Ap(BA) = p(AB)A = f (AB)A.

When A and B are square and A, say, is nonsingular, another proof of Corol-
lary 1.34 is as follows: AB = A(BA)A−1 so f (AB) = Af (BA)A−1 , or f (AB)A =
Af (BA).
As a special case of the corollary, when AB (and hence also BA) has no eigenvalues
on R− (which implies that A and B are square, in view of Theorem 1.32),

A(BA)1/2 = (AB)1/2 A.
22 Theory of Matrix Functions

In fact, this equality holds also when AB has a semisimple zero eigenvalue and the
definition of A1/2 is extended as in Problem 1.27.
Corollary 1.34 is useful for converting f (AB) into f (BA) within an expression, and
vice versa; see, for example, (2.26), the proof of Theorem 6.11, and (8.5). However,
when m > n, (1.30) cannot be directly solved to give an expression for f (AB) in
terms of f (BA), because (1.30) is an underdetermined system for f (AB). The next
result gives such an expression, and in more generality.

Theorem 1.35. Let A ∈ Cm×n and B ∈ Cn×m , with m ≥ n, and assume that BA
is nonsingular. Let f be defined on the spectrum of αIm + AB, and if m = n let f be
defined at α. Then

f (αIm + AB) = f (α)Im + A(BA)−1 f (αIn + BA) − f (α)In B. (1.31)
Proof. Note first that by Theorem 1.32, the given assumption on f implies that
f is defined on the spectrum of αIn + BA and at α.
Let g(t) = f [α + t, α] = t−1 (f (α + t) − f (α)), so that f (α + t) = f (α) + tg(t).
Then, using Corollary 1.34,
f (αIm + AB) = f (α)Im + ABg(AB)
= f (α)Im + Ag(BA)B

= f (α)Im + A(BA)−1 f (αIn + BA) − f (α)In B,
as required.
This result is of particular interest when m > n, for it converts the f (αIm + AB)
problem—a function evaluation of an m × m matrix—into the problem of evaluating
f and the inverse on n × n matrices. Some special cases of the result are as follows.
(a) With n = 1, we recover (1.16) (albeit with the restriction v ∗ u 6= 0).
(b) With f the inverse function and α = 1, (1.31) yields, after a little manipulation,
the formula (I + AB)−1 = I − A(I + BA)−1 B, which is often found in textbook
exercises. This formula in turn yields the Sherman–Morrison–Woodbury formula
(B.12) on writing A + U V ∗ = A(I + A−1 U · V ∗ ). Conversely, when f is analytic
we can obtain (1.31) by applying the Sherman–Morrison–Woodbury formula to the
Cauchy integral formula (1.12). However, Theorem 1.35 does not require analyticity.
As an application of Theorem 1.35, we now derive a formula for f (αIn +uv ∗ +xy ∗ ),
where u, v, x, y ∈ Cn , thereby extending (1.16) to the rank-2 case. Write
 ∗
v
uv ∗ + xy ∗ = [ u x ] ∗ ≡ AB.
y
Then  
v∗ u v∗ x
C := BA = ∈ C2×2 .
y∗ u y∗ x
Hence
 
∗ ∗ −1
 v∗
f (αIn + uv + xy ) = f (α)In + [ u x]C f (αI2 + C) − f (α)I2 . (1.32)
y∗

The evaluation of both C −1 and f (αI2 + C) can be done explicitly (see Problem 1.9
for the latter), so (1.32) gives a computable formula that can, for example, be used
for testing algorithms for the computation of matrix functions.
1.9 Miscellany 23

1.9. Miscellany
In this section we give a selection of miscellaneous results that either are needed
elsewhere in the book or are of independent interest.
The first result gives a complete description of the Jordan canonical form of f (A)
in terms of that of A. In particular, it shows that under the action of f a Jordan
block J(λ) splits into at least two smaller Jordan blocks if f ′ (λ) = 0.

Theorem 1.36 (Jordan structure of f (A)). Let A ∈ Cn×n with eigenvalues λk , and
let f be defined on the spectrum of A.
(a) If f ′ (λk ) 6= 0 then for every Jordan block J(λk ) in A there is a Jordan block
of the same size in f (A) associated with f (λk ).
(b) Let f ′ (λk ) = f ′′ (λk ) = · · · = f (ℓ−1) (λk ) = 0 but f (ℓ) (λk ) 6= 0, where ℓ ≥ 2,
and consider a Jordan block J(λk ) of size r in A.
(i ) If ℓ ≥ r, J(λk ) splits into r 1 × 1 Jordan blocks associated with f (λk ) in
f (A).
(ii ) If ℓ ≤ r − 1, J(λk ) splits into the following Jordan blocks associated with
f (λk ) in f (A):
• ℓ − q Jordan blocks of size p,
• q Jordan blocks of size p + 1,
where r = ℓp + q with 0 ≤ q ≤ ℓ − 1, p > 0.

Proof. We prove just the first part. From Definition 1.2 it is clear that f either
preserves the size of a Jordan block Jk (λk ) ∈ Cmk ×mk of A—that is, f (Jk (λk )) has
Jordan form Jk (f (λk )) ∈ Cmk ×mk —or splits Jk (λk ) into two or more smaller blocks,
each with eigenvalue f (λk ). When f ′ (λk ) 6= 0, (1.4) shows that f (Jk (λk ))−f (λk )I has
rank mk − 1, which implies that f does not split the block Jk (λk ). When f ′ (λk ) = 0,
it is clear from (1.4) that f (Jk (λk )) − f (λk )I has rank at most mk − 2, which implies
that f (Jk (λk )) has at least two Jordan blocks. For proofs of the precise splitting
details, see Horn and Johnson [296, , Thm. 6.2.25] or Lancaster and Tismenetsky
[371, , Thm. 9.4.7].
To illustrate the result, consider the matrix
 
0 1 0 0
0 0 1 0
A= ,
0 0 0 1
0 0 0 0

which is in Jordan form with one Jordan block of size 4. Let


 
0 0 0 1
0 0 0 0
f (A) = A3 =  .
0 0 0 0
0 0 0 0

Clearly f (A) has Jordan form comprising two 1 × 1 blocks and one 2 × 2 block. We
have f ′ (0) = f ′′ (0) = 0 and f ′′′ (0) 6= 0. Applying Theorem 1.36 (b) with ℓ = 3,
r = 4, p = 1, q = 1, the theorem correctly predicts ℓ − q = 2 Jordan blocks of size
24 Theory of Matrix Functions

1 and q = 1 Jordan block of size 2. For an example of a Jordan block splitting with
f (X) = X 2 , see the matrices (1.23) and (1.24).
Theorem 1.36 is useful when trying to solve nonlinear matrix equations, because
once the Jordan form of f (A) is known it narrows down the possible Jordan forms of
A; see, e.g., Problems 1.30 and 1.51.
We noted in Section 1.4 that a nonprimary function of a derogatory A may com-
mute with A but is not a polynomial in A. The next result shows that all matrices
that commute with A are polynomials in A precisely when A is nonderogatory—that
is, when no eigenvalue appears in more than one Jordan block in the Jordan canonical
form of A.

Theorem 1.37. Every matrix that commutes with A ∈ Cn×n is a polynomial in A if


and only if A is nonderogatory.
Proof. This result is a consequence of Theorem 1.25. See Lancaster and Tis-
menetsky [371, , Prop. 12.4.1] for the details.
While commuting with A is not sufficient to be a polynomial in A, commuting
with every matrix that commutes with A is sufficient.

Theorem 1.38. B ∈ Cn×n commutes with every matrix that commutes with A ∈
Cn×n if and only if B is a polynomial in A.
Proof. See Horn and Johnson [296, , Thm. 4.4.19].
The following result is useful for finding solutions of a nonlinear matrix equation
of the form f (X) = A.

Theorem 1.39. Consider the equation f (X) = A ∈ Cn×n .


(a) If A is upper triangular and nonderogatory then any solution X is upper tri-
angular.
(b) If A is a single Jordan block J(λ) then any solution X is upper triangular
with constant diagonal elements xii ≡ ξ, where f (ξ) = λ.
(c) If the equation with A = θI has a solution X that is not a multiple of I then
there are infinitely many solutions to the equation.
Proof.
(a) The nonderogatory matrix A = f (X) commutes with X so, by Theorem 1.37, X
is a polynomial in A, which means that X is upper triangular.
(b) This follows from the proof of (a) on noting that a polynomial in J(λ) has con-
stant diagonal.
(c) Since f (X) = θI, for any nonsingular Z we have θI = Z −1 f (X)Z = f (Z −1 XZ),
so Z −1 XZ is a solution. The result now follows from the fact that any matrix other
than a scalar multiple of the identity shares its Jordan canonical form with infinitely
many other matrices.
The next result shows that a family of pairwise commuting matrices can be simul-
taneously unitarily triangularized.

Theorem 1.40. If A1 , A2 , . . . , Ak ∈ Cn×n satisfy Ai Aj = Aj Ai for all i and j then


there exists a unitary U ∈ Cn×n such that U ∗ Ai U is upper triangular for all i.
1.9 Miscellany 25

Proof. See Horn and Johnson [295, , Thm. 2.3.3].


We denote by λi (A) the ith eigenvalue of A in some given ordering.

Corollary 1.41. Suppose A, B ∈ Cn×n and AB = BA. Then for some ordering of
the eigenvalues of A, B, and AB we have λi (AopB) = λi (A)opλi (B), where op = +,
−, or ∗.
Proof. By Theorem 1.40 there exists a unitary U such that U ∗ AU = TA and
U BU = TB are both upper triangular. Thus U ∗ (A op B)U = TA op TB is upper

triangular with diagonal elements (TA )ii op (TB )ii , as required.


This corollary will be used in Section 11.1. Note that for any A and B we have
trace(A+B) = trace(A)+trace(B) and det(AB) = det(A) det(B), but the conclusion
of the corollary for commuting A and B is much stronger.
Related to Theorem 1.40 and Corollary 1.41 are the following characterizations of
A and B for which “λi (p(A, B)) = p(λi (A), λi (B))”.

Theorem 1.42 (McCoy). For A, B ∈ Cn×n the following conditions are equiva-
lent.
(a) There is an ordering of the eigenvalues such that λi (p(A, B)) = p(λi (A), λi (B))
for all polynomials of two variables p(x, y).
(b) There exists a unitary U ∈ Cn×n such that U ∗ AU and U ∗ BU are upper
triangular.
(c) p(A, B)(AB − BA) is nilpotent for all polynomials p(x, y) of two variables.

Theorem 1.43. A ∈ Cn×n is unitary if and only if A = eiH for some Hermitian H.
In this representation H can be taken to be Hermitian positive definite.
Proof. The Schur decomposition of A has the form A = QDQ∗ with Q unitary
and D = diag(exp(iθj )) = exp(iΘ), where Θ = diag(θj ) ∈ Rn×n . Hence A =
Q exp(iΘ)Q∗ = exp(iQΘQ∗ ) = exp(iH), where H = H ∗ . Without loss of generality
we can take θj > 0, whence H is positive definite.

Theorem 1.44. A ∈ Cn×n has the form A = eS with S real and skew-symmetric if
and only if A is real orthogonal with det(A) = 1.
Proof. “⇒”: IfP S is real and skew-symmetric then A is real, ATA = e−S eS = I,
and det(eS ) = exp( λi (S)) = exp(0) = 1, since the eigenvalues of S are either zero
or occur in pure imaginary complex conjugate pairs.
“⇐”: If A is real orthogonal then it has the real Schur decomposition A =QDQT
aj bj
with Q orthogonal and D = diag(Dii ), where each Dii is 1, −1, or of the form −b j aj

with a2j + b2j = 1. Since det(A) = 1, there is an even number of −1s, and so we can
 aj bj 
include the −1 blocks among the −b j aj
blocks. It is easy to show that
     
aj bj cos θj sin θj 0 θj
≡ = exp =: exp(Θj ). (1.33)
−bj aj − sin θj cos θj −θj 0

We now construct a skew-symmetric K such that D = eK : K has the same block


structure as D, kii = 0 if dii = 1, and the other blocks have the form Θj in (1.33).
T
Hence A = QeK QT = eQKQ = eS , where S is real and skew-symmetric.
26 Theory of Matrix Functions

Theorem 1.45. For A ∈ Cn×n , det(eA ) = exp(trace(A)).


Proof. We have
n
Y n
Y 
det(eA ) = λi (eA ) = eλi (A) = eλ1 (A)+···+λn (A) = exp trace(A) .
i=1 i=1

Note that another way of expressing Theorem 1.45 is that for any logarithm of a
nonsingular X, det(X) = exp(trace(log(X))).

1.10. A Brief History of Matrix Functions


Sylvester (1814–1897) [465, ] coined the term “matrix” in 1850 [553, ]. Cay-
ley (1821–1895) [121, ], in his A Memoir on the Theory of Matrices [99, ],
was the first to investigate the algebraic properties of matrices regarded as objects
of study in their own right (in contrast with earlier work on bilinear and quadratic
forms). Matrix theory was subsequently developed by Cayley, Sylvester, Frobenius,
Kronecker, Weierstrass, and others; for details, see [253, ], [254, ], [255, ],
[463, ].
The study of functions of matrices began in Cayley’s 1858 memoir, which treated
the square roots of 2 × 2 and 3 × 3 matrices, and he later revisited these cases in [100,
]. Laguerre [367, ], and later Peano [467, ], defined the exponential of
a matrix via its power series. The interpolating polynomial definition of f (A) was
stated by Sylvester [557, ] for n × n A with distinct eigenvalues λi , in the form
n
X Y A − λj I
f (A) = f (λi ) .
i=1
λi − λj
j6=i

Buchheim gave a derivation of the formula [84, ] and then generalized it to mul-
tiple eigenvalues using Hermite interpolation [85, ].
Weyr [614, ] defined f (A) using a power series for f and showed that the
series converges if the eigenvalues of A lie within the radius of convergence of the
series. Hensel [258, ] obtained necessary and sufficient conditions for convergence
when one or more eigenvalues lies on the circle of convergence (see Theorem 4.7).
Metzler [424, ] defined the transcendental functions eA , log(A), sin(A), and
arcsin(A), all via power series.
The Cauchy integral representation was anticipated by Frobenius [195, ], who
states that if f is analytic then f (A) is the sum of the residues of (zI − A)−1 f (z) at
the eigenvalues of A. Poincaré [473, ] uses the Cauchy integral representation,
and this way of defining f (A) was proposed in a letter from Cartan to Giorgi, circa
1928 [216, ].
The Jordan canonical form definition is due to Giorgi [216, ]; Cipolla [109,
] extended it to produce nonprimary matrix functions.
Probably the first book (actually a booklet) to be written on matrix functions is
that of Schwerdtfeger [513, ]. With the same notation as in Definitions 1.2 and
1.4 he defines
Xs nXi −1
f (j) (λi )
f (A) = Ai (A − λi I)j ,
i=1 j=0
j!

where the Ai are the Frobenius covariants: Ai = Z diag(gi (Jk ))Z −1 , where gi (Jk ) = I
if λi is an eigenvalue of Jk and gi (Jk ) = 0 otherwise, where A = Z diag(Jk )Z −1 is the
1.11 Notes and References 27

Jordan canonical form. This is just a rewritten form of the expression for f (A) given
by Definition 1.2 or by the Lagrange–Hermite formula (1.8). It can be restated as
s nX
X i −1

f (A) = f (j) (λi )Zij ,


i=1 j=0

where the Zij depend on A but not on f . For more details on these formulae see Horn
and Johnson [296, , pp. 401–404, 438] and Lancaster and Tismenetsky [371, ,
Sec. 9.5].
The equivalence of all the above definitions of f (A) (modulo their different levels
of generality) was first shown by Rinehart [493, ] (see the quote at the end of the
chapter).
One of the earliest uses of matrices in practical applications was by Frazer, Duncan,
and Collar of the Aerodynamics Department of the National Physical Laboratory
(NPL), England, who were developing matrix methods for analyzing flutter (unwanted
vibrations) in aircraft. Their book Elementary Matrices and Some Applications to
Dynamics and Differential Equations [193, ] emphasizes the important role of
the matrix exponential in solving differential equations and was “the first to employ
matrices as an engineering tool” [71, ], and indeed “the first book to treat matrices
as a branch of applied mathematics” [112, ].
Early books with substantial material on matrix functions are Turnbull and Aitken
[579, , Sec. 6.6–6.8]; Wedderburn [611, , Chap. 8], which has a useful bibliog-
raphy arranged by year, covering 1853–1933; MacDuffee [399, , Chap. IX], which
gives a concise summary of early work with meticulous attribution of results; Ferrar
[184, , Chap. 5]; and Hamburger and Grimshaw [245, ]. Papers with useful
historical summaries include Afriat [5, ] and Heuvers and Moak [259, ].
Interest in computing matrix functions grew rather slowly following the advent of
the digital computer. As the histogram on page 379 indicates, the literature expanded
rapidly starting in the 1970s, and interest in the theory and computation of matrix
functions shows no signs of abating, spurred by the growing number of applications.
A landmark paper is Moler and Van Loan’s “Nineteen Dubious Ways to Compute
the Exponential of a Matrix” [437, ], [438, ], which masterfully organizes
and assesses the many different ways of approaching the eA problem. In particular,
it explains why many of the methods that have been (and continue to be) published
are unsuitable for finite precision computation.
The “problem solving environments” MATLAB, Maple, and Mathematica have
been invaluable for practitioners using matrix functions and numerical analysts de-
veloping algorithms for computing them. The original 1978 version of MATLAB
included the capability to evaluate the exponential, the logarithm, and several other
matrix functions. The availability of matrix functions in MATLAB and it competitors
has undoubtedly encouraged the use of succinct, matrix function-based solutions to
problems in science and engineering.

1.11. Notes and References


The theory of functions of a matrix is treated in a number of books, of which sev-
eral are of particular note. The most encyclopedic treatment is given by Horn and
Johnson [296, , Chap. 6], who devote a chapter of 179 pages to the subject.
A more concise but very elegant exposition emphasizing the interpolation definition
28 Theory of Matrix Functions

is given by Lancaster and Tismenetsky [371, , Chap. 9]. A classic reference is
Gantmacher [203, , Chap. 5]. Golub and Van Loan [224, , Chap. 11] briefly
treat the theory before turning to computational matters. Linear algebra and matrix
analysis textbooks with a significant component on f (A) include Cullen [125, 1972],
Pullman [481, ], and Meyer [426, ].
For more details on the Jordan canonical form see Horn and Johnson [295, ,
Chap. 3] and Lancaster and Tismenetsky [371, , Chap. 6].
Almost every textbook on numerical analysis contains a treatment of polynomial
interpolation for distinct nodes, including the Lagrange form (1.9) and the Newton
divided difference form (1.10). Textbook treatments of Hermite interpolation are
usually restricted to once-repeated nodes; for the general case see, for example, Horn
and Johnson [296, , Sec. 6.1.14] and Stoer and Bulirsch [542, , Sec. 2.1.5].
For the theory of functions of operators (sometimes called the holomorphic func-
tional calculus), see Davies [133, ], Dunford and Schwartz [172, ], [171, ],
and Kato [337, ].
Functions of the DFT matrix, and in particular fractional powers, are considered
by Dickinson and Steiglitz [151, ], who obtain a formula equivalent to (1.18).
Much has been written about fractional transforms, mainly in the engineering litera-
ture; for the fractional discrete cosine transform, for example, see Cariolaro, Erseghe,
and Kraniauskas [96, ].
Theorems 1.15–1.17 can be found in Lancaster and Tismenetsky [371, , Sec. 9.7].
Theorem 1.18 is from Higham, Mackey, Mackey, and Tisseur [283, , Thm. 3.2].
The sufficient condition of Remark 1.9 and the equivalence (c) ≡ (d) in Theorem 1.18
can be found in Richter [491, ].
Different characterizations of the reality of f (A) for real A can be found in Evard
and Uhlig [179, , Sec. 4] and Horn and Piepmeyer [298, ].
The terminology “primary matrix function” has been popularized through its use
by Horn and Johnson [296, , Chap. 6], but the term was used much earlier by
Rinehart [495, ] and Cullen [125, 1972].
A number of early papers investigate square roots and pth roots of (singular)
matrices, including Taber [561, ], Metzler [424, ], Frobenius [195, ],
Kreis [363, ], Baker [40, ], and Richter [491, ], and Wedderburn’s book
also treats the topic [611, , Secs. 8.04–8.06].
Theorem 1.24 is a special case of a result of Gantmacher for pth roots [203, ,
Sec. 8.6]. Theorem 1.26 is from Higham [268, ]. Theorem 1.27 is from [203, ,
Sec. 8.8].
Theorem 1.32 is proved by Flanders [188, ]. Alternative proofs are given by
Thompson [566, ] and Horn and Merino [297, , Sec. 6]; see also Johnson and
Schreiner [321, ].
We derived Theorem 1.35 as a generalization of (1.16) while writing this book;
our original proof is given in Problem 1.45. Harris [249, , Lem. 2] gives the result
for α = 0 and f a holomorphic function, with the same method of proof that we have
given. The special case of Theorem 1.35 with f the exponential and α = 0 is given
by Celledoni and Iserles [102, ].
Formulae for a rational function of a general matrix plus a rank-1 perturbation,
r(C + uv ∗ ), are derived by Bernstein and Van Loan [61, ]. These are more
complicated and less explicit than (1.31), though not directly comparable with it since
C need not be a multiple of the identity. The formulae involve the coefficients of r and
so cannot be conveniently applied to an arbitrary function f by using “f (A) = p(A)
Problems 29

for some polynomial p.”


Theorem 1.42 is due to McCoy [415, ]. See also Drazin, Dungey, and Gru-
enberg [164, ] for a more elementary proof and the discussions of Taussky [564,
], [565, ]. A complete treatment of simultaneous triangularization is given
in the book by Radjavi and Rosenthal [483, ].

Problems
The only way to learn mathematics is to do mathematics.
— PAUL R. HALMOS, A Hilbert Space Problem Book (1982)

1.1. Show that the value of f (A) given by Definition 1.2 is independent of the par-
ticular Jordan canonical form that is used.
1.2. Let Jk be the Jordan block (1.2b). Show that
 
f (mk −1) (−λk )
 f (−λk ) −f ′ (−λk ) ... (−1)mk −1
 (mk − 1)!  
 .. .. 
f (−Jk ) =  f (−λk ) . . . (1.34)
 
 .. 
 . ′
−f (−λk ) 
f (−λk )

1.3. (Cullen [125, , Thm. 8.9]) Define f (A) by the Jordan canonical form defi-
nition. Use Theorem 1.38 and the property f (XAX −1 ) = Xf (A)X −1 to show that
f (A) is a polynomial in A.
1.4. (a) Let A ∈ Cn×n have an eigenvalue λ and corresponding eigenvector x. Show
that (f (λ), x) is a corresponding eigenpair for f (A).
(b) Suppose A has constant row sums α, that is, Ae = αe, where e = [1, 1, . . . , 1]T .
Show that f (A) has row sums f (α). Deduce the corresponding result for column sums.
1.5. Show that the minimal polynomial ψ of A ∈ Cn×n exists, is unique, and has
degree at most n.
1.6. (Turnbull and Aitken [579, , p. 75]) Show that if A ∈ Cn×n has minimal
polynomial ψ(A) = A2 − A − I then (I − 31 A)−1 = 35 (A + 2I).
1.7. (Pullman [481, , p. 56]) The matrix
 
−2 2 −2 4
 −1 2 −1 1 
A= 
0 0 1 0
−2 1 −1 4

has minimal polynomial ψ(t) = (t − 1)2 (t − 2). Find cos(πA).


1.8. Find the characteristic polynomial and the minimal polynomial of the nonzero
rank-1 matrix uv ∗ ∈ Cn×n .
1.9. Use (1.11) to give an explicit formula for f (A) for A ∈ C2×2 requiring knowledge
only of the eigenvalues of A.
Other documents randomly have
different content
»O, dort gibt's genug für dich zu thun; wie du mich unterrichtet
und gebessert hast, so wirst du auch meine Brüder sanft erziehen.«
»Mein guter Freitag! Du weißt selbst nicht, was du sprichst. Zu
einem solchen Werke fehlt es mir an Kraft und Ausdauer.«
»O, du kommst doch mit, Robin?«
»Nein, nein, Freitag! Geh du ohne mich; ich werde hier bleiben
und wiederum so leben wie vor deiner Ankunft.«
Die treue Seele war tief gerührt, Thränen standen ihm in den
Augen. Dann griff er an seinen Gürtel, holte das Beil hervor und
überreichte es mir.
»Was soll ich damit, Freitag?«
»Mich totmachen, Herr!«
»Aber was fällt dir ein?«
»Ja, schlage lieber Freitag damit tot, als daß du ihn fortjagst; er
kann nicht ohne dich leben.«
Diese Wendung der Unterhaltung nahm den letzten Zweifel über
Freitags Anhänglichkeit aus meinem Herzen, und in mir selbst regte
sich von neuem die alte Begierde, eine weitere Seereise zu
unternehmen und nach dem großen Festlande zu steuern, auf
welchem nach Freitags Bericht die weißen bärtigen Gesichter –
Portugiesen oder Spanier – zu treffen sein mußten. Eines Tages
führte ich Freitag zu jenem Boote an der Bai, das ich seit mehreren
Jahren nicht in Gebrauch genommen, sondern im Wasser versenkt
hatte, damit es mich den Wilden nicht verraten sollte. Wir schöpften
das Wasser aus dem Kanoe und setzten uns dann selbst hinein.
Dabei zeigte Freitag in der Lenkung des Bootes eine Geschicklichkeit
und Sicherheit, die mich in Erstaunen setzte. Nach einer Weile sagte
ich zu ihm: »Nun, Freitag, wie wäre es, wenn wir jetzt in diesem
Boote nach deinem Vaterlande segelten?« Er schien über meine
Frage verwundert, denn er fand das Boot viel zu klein, um darin eine
so weite Reise zurückzulegen. Hierauf sagte ich ihm, daß ich wohl
noch ein größeres Fahrzeug hätte, und daß wir es am nächsten Tage
aufsuchen wollten. Ich führte ihn denn auch, wie versprochen, zu
dem Orte, wo die Barke lag, die ich nicht hatte ins Wasser bringen
können; da ich mich indes länger als 20 Jahre nicht weiter um sie
gekümmert hatte, seit ich sie gebaut, so war sie von der Sonne
ausgetrocknet und gesprungen, daß sie sich in einer ganz kläglichen
Verfassung befand. Freitag aber sagte, daß ein Fahrzeug von dieser
Größe, da man genug Eß- und Trinkvorräte darin unterbringen
könne, ganz tauglich zu einer Seereise sei, und diese Versicherung
kam meinen Plänen entgegen.
Zusammenstoß mit den Kannibalen.
Zwölftes Kapitel.
Eine Zeit großer Ereignisse.
Bau eines neuen größeren Bootes. – Probefahrten. – Neuer Kannibalenbesuch. –
Der Kampf mit den Wilden. – Der Spanier und Freitags Vater. – Verpflegung der
Befreiten. – Bestattung der Gefallenen. – Geschichte des Spaniers. –
Zukunftspläne.
Da ich unaufhörlich an die siebzehn weißen Männer dachte,
welche nach Freitags Behauptung bei seinen Landsleuten wohnen
sollten, so wuchs in mir das Verlangen, dieselben aufzusuchen. Ich
machte mich daher unverzüglich ans Werk, um mit Freitags Hilfe ein
neues Boot zu bauen. Alsbald hatte Freitag, der in der Wahl des
Holzes besser Bescheid wußte als ich, einen Baum gefunden, wie wir
ihn bedurften. Er wollte sich nun anschicken, das Innere des
Stammes, nach Art seiner Landsleute, mittels Feuers auszuhöhlen.
Aber ich lehrte ihn, wie man denselben Zweck durch Handwerkszeug
erreichen könne, und er zeigte sich auch bald als ein brauchbarer
Schiffszimmermann. Nach Verlauf eines Monats war endlich ein
Fahrzeug von gefälliger Form zustande gebracht; denn wir hatten
auch die Außenseiten sorgfältig mit den Äxten bearbeitet. Noch lag
ein schweres Stück Arbeit vor uns; denn um die Barke mit Walzen
und Hebebäumen bis an das Meer zu schaffen, gebrauchten wir zwei
Wochen. Als sie dann endlich flott geworden, betrachtete ich sie mit
einem Gefühle von Genugthuung, denn ihre Größe hätte hingereicht,
20 Mann an Bord aufzunehmen. Auch Freitag empfand lebhafte
Freude, und er lenkte das Fahrzeug trotz dessen Größe mit
ungemeiner Geschicklichkeit.
»Nun, Freitag, was meinst du wohl, können wir uns mit dieser
Barke bis an die Küste deiner Heimat wagen?«
»O gewiß!« entgegnete Freitag; »wir werden darin sehr gut
fahren, selbst wenn großer Wind weht.«
Aber ich hatte noch einen andern Plan gefaßt. So wie es war,
genügte mir unser Boot noch nicht; ich wollte es auch noch mit
einem Mast, einem Segel und einem Steuer versehen. Ein Mast war
nicht schwer zu erlangen; ich fand einen jungen, schlanken Baum
ganz in der Nähe, wie zu meinem Vorhaben geschaffen. Während
Freitag denselben fällte und den Stamm nach meiner Anleitung
behieb, übernahm ich selbst die Herstellung der Segel. Unter
meinem Vorrat alter Segelstücke fanden sich noch einige ziemlich
gut erhaltene Stücke, und ich nähte ein dreieckiges oder lateinisches
Segel daraus zusammen. Auch brachte ich für den Fall, daß der Wind
umsetzte, ein kleines Focksegel und ein Besansegel an; besonders
aber ließ ich es mir angelegen sein, ein Steuerruder an dem hinteren
Teile der Barke herzurichten.
Als unsre Takelage beendigt war, bestiegen wir das Boot und
segelten in der Bai umher. Freitag war zwar ein guter Ruderer, aber
er hatte noch keinen Begriff von der Handhabung eines Steuers und
dem Gebrauche eines Segels. Er schaute mir daher voll
Bewunderung zu, wie ich das Fahrzeug nach meinem Willen vor- und
rückwärts lenkte.
Freitag erhält Unterricht im Schiffbau.

Ich hatte jetzt das 27. Jahr meiner »Verbannung« auf meiner Insel
angetreten. Nie unterließ ich es, den Jahrestag meines Schiffbruchs
und meiner Ankunft auf der Insel in inbrünstigen Gebeten zu Gott zu
begehen. Seine Güte hatte mich bisher so wunderbar behütet, und
nun erfüllte mich die beglückende Hoffnung, wieder in die
Gesellschaft der Menschen zurückzukehren. Auch während der
letzten Zeit setzte ich meine Tagesarbeiten fort. Ich grub, pflanzte,
ergänzte meine Einzäunungen, sammelte Korn, Reis, Baumfrüchte
und Trauben ein; ich besorgte meine Ziegenherden, buk Brot und
Kuchen, verfertigte Kleider, Körbe und Töpfe. – Unterdessen war die
Regenzeit herangenaht, und ich mußte Bedacht darauf nehmen,
unser Boot sicher unterzubringen. Ich schaffte es daher so weit auf
den Strand, als die steigende Flut es erlaubte, und gebot Freitag,
daneben ein Becken zu graben, tief genug, um das Boot beständig
flott zu erhalten. Als die Flut dann zurückwich, führten wir einen
starken Damm auf, der das Becken verschloß und dem Eindringen
des Meeres vorbeugte. Um aber unser Fahrzeug gegen den Regen
zu schützen, bedeckten wir es mit einem Dach und erwarteten so
den Monat November oder Dezember, um die ersehnte Fahrt
anzutreten.
Mit Beginn der schönen Jahreszeit beeilten wir uns, die nötigen
Zurüstungen zur Reise zu treffen. Denn ich gedachte, vielleicht
schon in acht bis zwölf Tagen das Wasserbecken zu öffnen und das
Boot auslaufen zu lassen. Eines Morgens hatte ich Freitag nach dem
Meere hinabgeschickt, um eine Schildkröte zu fangen, weil wir
sowohl das Fleisch als auch die Eier dieses Tieres sehr wohl zu
schätzen wußten. Aber schon nach wenigen Minuten kam er eiligst
wieder zurück und übersprang den ersten Festungszaun.
»O Herr, Herr, o Jammer!«
»Was gibt's denn, was hast du?«
»Dort unten, dort unten! Eins, zwei, drei Kähne!« Freitag war so
erschrocken, daß er am ganzen Körper zitterte; er hatte sich
eingebildet, daß die Wilden nichts Geringeres beabsichtigten, als ihn
einzufangen, in Stücke zu zerhauen und aufzuessen. Ich suchte ihn
zu beruhigen, so gut ich konnte, und ihm begreiflich zu machen, daß
ich ja ganz in der nämlichen Gefahr schwebe wie er.
»Freitag«, sagte ich, »wir müssen mit ihnen um unser Leben
kämpfen; bist du bereit dazu?«
– »Jawohl, ich schieße auf sie; aber ihre Zahl ist groß.«
»Was thut das, Freitag? Unsre Gewehre werden einen Teil von
ihnen niederstrecken, und das Feuer und der Knall wird die andern
in die Flucht schlagen. Wenn ich dich aber mit meinem Leben
verteidige, willst du mir auch treulich zur Seite stehen und alles
thun, was ich dir sage?«
»Ja, Herr, ich will sterben, wenn du mir zu sterben befiehlst.«
Hierauf holte ich eine Flasche Rum, um Freitag in seiner mutigen
Stimmung zu erhalten; dann gebot ich ihm, die beiden gewöhnlichen
Jagdgewehre herbeizubringen, und ich selbst lud sie mit tüchtigen
Posten.
Hiernach stieg ich mit meinem Fernrohr auf die Warte, um zu
sehen, was an der Küste vorging. Da entdeckte ich nun, daß 21
Wilde in drei Kanoes gelandet waren, und zwar an der Südostküste,
was mich um so mehr wunder nahm, als ich noch nie an dieser
Stelle das geringste Anzeichen einer Landung der Kannibalen
bemerkt hatte. Der Ort, wo sie ausgestiegen waren, schien sehr
flach, der Strand niedrig; etwa 100 Schritte davon begann der Saum
eines dichten Gebüsches, welches sich ziemlich weit bis in die
Felsengruppen der inneren Insel hineinzog. Es deuchte mich, als ob
sie drei Gefangene bei sich hätten und auch diesmal aus keinem
andern Grunde an meine Insel gekommen wären, als wieder eines
ihrer Siegesfestmahle abzuhalten.
Zunächst lud ich nun vier Musketen mit sieben Kugeln, sowie
meine beiden Pistolen mit zwei Kugeln. Den Degen steckte ich in den
Gürtel und befahl Freitag, sein Beil, ein Pistol, zwei Musketen und
eine Flinte nebst Vorrat von Pulver und Blei zu ergreifen; ich selbst
aber nahm das andre Pistol und die übrigen Schießgewehre.
Außerdem steckten wir einige Brotkuchen und getrocknete Rosinen
zu uns, sowie ein Fläschchen Rum zur Stärkung unsrer
Lebensgeister. So gerüstet rückten wir aus. Auf einem Umweg von
ungefähr einer Viertelmeile bogen wir nach dem Rande des Gehölzes
ein, um hier, ungesehen von den Wilden, bis an die Bucht zu
gelangen und sie in Schußlinie vor uns zu haben.
Unter Beobachtung größter Vorsicht gelangten wir an das Ende
des Gehölzes und somit in die Nähe der Feinde, von denen mich nur
noch eine einzige Baumgruppe trennte. Ich befahl Freitag, auf einen
Baum zu steigen, um zu sehen, was die Wilden vornähmen. Er
kletterte sehr bald wieder herab und berichtete, er habe die Feinde
ganz deutlich gesehen; sie säßen rings um ein Feuer und verzehrten
das Fleisch eines ihrer Gefangenen; ein andrer liege dicht daneben
an Händen und Füßen gebunden und werde wahrscheinlich
demnächst an die Reihe des Verspeisens kommen. »Aber«, fügte
Freitag bedeutungsvoll hinzu, »es ist keiner von unserm Stamme,
sondern einer von den weißen bärtigen Männern, die sich in unserm
Vaterlande angesiedelt haben.« Dieser Bericht versetzte mich in Zorn
und Wut. Ich stieg nun mit meinem Fernglas ebenfalls auf einen
Baum und erkannte deutlich an Gesicht und Bekleidung in dem
gebundenen Manne einen Europäer.
Ein kleines Gebüsch zog sich von der Waldspitze noch ungefähr
100 Schritte nach links gegen den Strand hin, und ich konnte, durch
dasselbe gedeckt, den Wilden mich noch mehr nähern. Am Ende des
Buschwerks gelangte ich auf einen kleinen Sandhügel oder eine
Düne, von wo aus ich die jetzt nur noch in einer Entfernung von 80
Schritt lagernden Wilden aufs genaueste beobachten konnte. Es war
kein Augenblick mehr zu verlieren, denn eben bemerkte ich, wie sich
zwei der Kannibalen anschickten, des Europäers Hände und Füße
von den Fesseln zu befreien, um ihn dann am Feuer zu schlachten.
Ich sah mich nach Freitag um.
»Jetzt«, sagte ich zu ihm, »thue, wie ich dir sagen werde.«
»Ja, Herr! Befiehl!«
»So ahme genau das nach, was du mich thun siehst, und fehle
nicht!«
Mit diesen Worten legte ich eines der Jagdgewehre und eine der
Musketen auf den Boden. Freitag that dasselbe. Dann zielte ich auf
die beiden mit ihrem Schlachtopfer beschäftigten Wilden und gebot
Freitag, unter den übrigen Haufen zu feuern.
»Bist du fertig, Freitag?« – Freitag nickte zustimmend.
»Nun – dann Feuer!«
Zwei donnerähnliche Schüsse hallten hinaus auf Land und Meer. –

Befreiung eines Gefangenen.


Als sich der Pulverdampf verzogen hatte, sah ich, was wir
ausgerichtet hatten. Durch meinen Schuß war der eine getötet, der
andre verwundet worden; Freitag dagegen hatte sogar zwei erlegt
und drei verwundet. Der Schrecken aber, der durch den Knall unsrer
Gewehre unter die Wilden fuhr, ist nicht zu beschreiben. Die
Verwundeten jammerten und wälzten sich am Boden, die andern
sprangen entsetzt auf und suchten zu entfliehen. In der gräßlichen
Verwirrung liefen sie jedoch nur hin und her; denn sie wußten nicht,
von welcher Seite ihnen das Verderben drohte. Freitag verwendete
kein Auge von mir, um zu sehen, was ich weiter thun würde. Nach
der ersten Salve legte ich mein Gewehr auf den Boden und ergriff
die Flinte; Freitag that dasselbe. »Hahn gespannt. Angelegt. Feuer!«
Wiederum rollte der Donner unsrer Gewehre über die Häupter der
Wilden hinweg. Diesmal stürzten, da unsre Flinten nur mit grobem
Schrot geladen waren, bloß zwei Männer zu Boden, aber es waren
ihrer so viele verwundet, daß die meisten, mit Blut bedeckt und vor
Schmerz heulend, wie im Wahnsinn durcheinander liefen. Bald
stürzten noch drei von ihnen zu Boden, obgleich sie nicht tot waren.
»Jetzt, Freitag, mir nach!« sagte ich, nachdem ich die letzte,
Freitag aber die dritte Muskete aufgenommen hatte. Mit lautem
Geschrei stürzten wir aus dem Gebüsche, gerade auf die Wilden los.
Der eine von den beiden, welche den Gefangenen losbinden wollten,
lag tot, während der andre, verwundet, in einen Kahn gesprungen
war, wohin ihm noch vier seiner Gefährten folgten.
Sogleich gebot ich Freitag, auf die Flüchtlinge zu feuern; er
verstand mich sehr gut, lief ungefähr 40 Schritte weit, um die
Flüchtigen aufs Korn zu nehmen, und schoß los. Er hatte seine
Sache gut gemacht; denn sofort stürzten alle fünf nieder, so daß ich
schon glaubte, er hätte sie sämtlich getötet; indessen sprangen zwei
von ihnen wieder auf, die andern blieben regungslos liegen,
entweder schwer verwundet oder getötet.
Während dies geschah, war ich zu dem Gefangenen geeilt und
schnitt mit einem Messer die Bande entzwei, welche ihn an Händen
und Füßen gefesselt hielten; dann half ich ihm aufstehen und fragte
auf portugiesisch, wer er sei. Er antwortete mir in lateinischer
Sprache: »Christianus«, war aber so entkräftet, daß er weder
stehen, noch ein weiteres Wort sprechen konnte. Ich reichte ihm
mein Rumfläschchen, aus dem er einen kräftigen Schluck nahm, der
ihn sichtbar stärkte. Außerdem gab ich ihm auch ein Stück Brot, und
er aß es mit der größten Hast. Währenddem fragte ich noch, aus
welchem Lande er stamme, und erhielt zur Antwort: »Spanien«.
Nachdem er sich ein wenig erholt hatte, gab er mir durch allerlei
Zeichen zu verstehen, wie dankbar er mir sei für die Rettung aus der
Hand der Kannibalen. Ich aber sprach zu ihm auf Spanisch, so gut es
eben gehen wollte: »Sennor, später wollen wir uns weiter
aussprechen, jetzt müssen wir kämpfen. Wenn Ihr noch irgend Kraft
habt, so nehmt diese Pistole und diesen Degen und nun Gott
befohlen!«
Kaum fühlte der Spanier die Waffen in seiner Hand, als er neu
beseelt von Mut und Kraft erschien. Wie ein Wahnsinniger hieb er
auf seine Peiniger ein und streckte im Nu zwei oder drei derselben
zu Boden. Die Wilden waren durch die Wirkung unsrer Feuerwaffen
und den ungestümen Überfall so überrascht, daß die meisten von
ihnen wie gelähmt niederstürzten und ebensowenig zu fliehen als
unserm Angriffe zu widerstehen vermochten.
Ich hielt mein Gewehr schußfertig, ohne jedoch abzuschießen, um
nicht ganz verteidigungslos zu sein, da ich dem Spanier Degen und
Pistole gegeben hatte. Dann rief ich Freitag herbei und gebot ihm,
die abgeschossenen Gewehre, die wir zurückgelassen hatten,
herbeizuholen, was mit unglaublicher Schnelligkeit geschah. Wir
luden sogleich unsre Gewehre; ich übergab Freitag eine Muskete
und sagte ihm, er solle weitere Waffen herbeischaffen, wenn man
deren bedürfe. Unterdessen fand ein fürchterlicher Kampf zwischen
dem Spanier und einem Wilden statt, der mit einem eisenharten
hölzernen Schwerte auf ihn einhieb. Allein jener, ebenso kühn und
tapfer, widerstand trotz seiner Schwäche lange Zeit den Angriffen
des Indianers, ja er hatte ihm sogar zwei Wunden am Kopfe
beigebracht. Der Wilde jedoch, ein Mensch von hohem Wuchse,
hatte jetzt seinen Gegner gepackt, zu Boden geworfen und suchte
ihm nun den Degen zu entwinden. Der Spanier ließ die Waffe fahren,
riß die Pistole aus dem Gürtel und jagte seinem Feinde eine Kugel
durch die Brust, die ihn sofort tötete.
Freitag blieb seinerseits auch nicht unthätig: er verfolgte die
Flüchtlinge, ohne eine andre Waffe als sein Beil, und machte denen,
die er im Laufe einholte oder die verwundet auf der Erde
umherlagen, den Garaus. Der Spanier bat mich jetzt um ein Gewehr,
und ich überließ ihm gern eine meiner beiden Jagdflinten. Er
verfolgte damit zwei Wilde und verwundete sie beide; da er sie aber
nicht einzuholen vermochte, so entkamen sie nach dem Walde. Hier
aber trafen sie auf Freitag, der sogleich den einen von ihnen
niederstreckte; der andre, wiewohl verwundet, lief nach dem
Strande, warf sich ins Meer und schwamm dem Kanoe nach, in
welchem sich ein Toter und ein Verwundeter befanden, während drei
noch Lebende das Weite zu gewinnen suchten. Es waren 17 Wilde
teils getötet, teils so schwer verwundet worden, daß sie an ihren
Wunden sterben mußten; nur vier waren in ihrem Kahne
entkommen, einer derselben aber dem Anscheine nach auch schwer
blessiert.
Die in dem Kanoe Flüchtenden ruderten mit aller Anstrengung, um
aus dem Bereiche unsrer Kugeln zu kommen, und obgleich Freitag
noch zwei- oder dreimal nach ihnen feuerte, so schien doch keiner
getroffen zu sein. Freitag zeigte sich so kampfbegierig, daß er eins
ihrer Boote nehmen wollte, um die Wilden zu verfolgen, und in der
That schien mir dieser Gedanke beachtenswert. Denn gelang es
auch nur einem zu entrinnen, der die Nachricht von der Niederlage
zu seinem Stamm brachte, so konnte ich mich sicherlich auf einen
baldigen Besuch von Hunderten gefaßt machen, die uns durch ihre
Überzahl erdrückt hätten. Ich eilte also mit Freitag nach dem
Strande hinab und sprang in eine Barke. Aber wie erstaunte ich, als
ich hier noch einen an Händen und Füßen gefesselten Wilden
erblickte, der vor Angst halb tot war!
Sogleich zerschnitt ich seine Fesseln und suchte den armen
Menschen emporzurichten; allein er konnte weder stehen noch
sprechen, sondern stöhnte nur auf eine ganz erbärmliche Weise, weil
er wahrscheinlich glaubte, er solle nun getötet werden. Ich gab
Freitag mein Rumfläschchen, um den Armen durch einen Schluck zu
stärken, und trug ihm zugleich auf, dem Wilden seine Befreiung zu
verkündigen. Der Trunk und noch mehr die frohe Botschaft belebten
den Armen so, daß er sich in der Barke aufrecht zu setzen
vermochte. Als ihm aber Freitag aufmerksamer ins Gesicht sah,
wurde dieser wie umgewandelt. Er umarmte den Geretteten, küßte
ihn und drückte ihn stürmisch an die Brust; dann lachte er, jauchzte
vor Freuden, sprang, tanzte, sang, gebärdete sich wie ein
Unsinniger, weinte und rang die Hände. Lange währte es, ehe auch
nur ein einziges vernünftiges Wort aus ihm herauszubringen war:
endlich, als er wieder ein wenig zu sich selbst kam, sagte er zu mir,
der Gerettete sei sein Vater.
Es läßt sich nicht mit Worten das Entzücken des guten Freitag
beim Anblick seines Vaters und dessen unerwarteter Errettung
schildern; zwanzigmal sprang er aus dem Kahne und wieder hinein;
dann setzte er sich an die Seite seines Vaters und öffnete sein Kleid,
um den Kopf desselben an seine Brust zu drücken und ihn zu
erwärmen; dann nahm er wieder seine Arme, seine Beine, welche
durch das harte Zuschnüren der Bande steif und geschwollen waren,
und rieb sie mit seinen Händen. Ich gab ihm nun etwas Rum, um die
abgestorbenen Glieder des alten Mannes zu waschen, was
demselben augenscheinlich sehr wohl that.
Freitag war so sehr mit seinem Vater beschäftigt, daß ich es nicht
über mich gewinnen konnte, ihn von demselben abzurufen. Erst als
ich glaubte, er habe seiner kindlichen Freude vollkommen Genüge
gethan, rief ich ihn, und er sprang mit freudestrahlendem Gesicht
auf mich los.
»Hast du deinem Vater schon Brot zu essen gegeben, Freitag? Er
wird wohl tüchtigen Hunger haben.«
»Nein, ach nein, Herr!« erwiderte fast weinend der arme Bursche;
»o, ich schlechter Hund habe selbst alles gegessen, alles!«
»Nun, Freitag, beruhige dich! Da ist ein Stück Kuchen, das ich
gerade noch in meiner Tasche finde; hier hast du auch noch Rosinen
und einen Schluck Rum, damit stärke deinen Vater!«
Freitag gehorchte mit einem Blicke des Dankes und reichte das
Dargebotene dem Alten. Dann sprang er mit einem Satze aus dem
Kahne und lief wie ein gehetztes Wild davon, so daß er im Nu aus
unsern Augen verschwunden war. Ich schrie, ich lief ihm nach – er
hörte nicht; nachdem etwa eine Viertelstunde verflossen war, sah ich
ihn wiederkommen, aber nicht so eilig, als er davongelaufen war,
weil er etwas in den Händen trug. Er hatte nämlich in dieser kurzen
Zeit den Weg nach der Burg zurückgelegt, um noch mehr Brot und
einen Krug frischen Wassers hierher zu bringen. Sein Vater, der bald
vor Durst verschmachtete, wurde durch den kühlen Trunk mehr
erquickt, als all mein Rum vermocht hätte.
Nachdem der Alte getrunken hatte, fragte ich Freitag, ob noch
etwas Wasser übrig sei, und auf seine Bejahung trug ich ihm auf,
dieses sowie ein Brot dem Spanier zu bringen, der dessen
ebensosehr bedurfte und auf einem Rasenhügel im Schatten eines
Baumes ausruhte.
Als Freitag zurückgekommen, schlug er die Augen zu mir empor
und blickte mich mit dem Ausdrucke größter Dankbarkeit an. Gern
hätte sich der Spanier erhoben und wäre zu uns gekommen, allein er
war so erschöpft und seine Glieder durch die harten Bande so
angeschwollen, daß er sich nicht auf den Beinen zu halten
vermochte. Ich befahl daher Freitag, ihm Hände und Füße mit Rum
einzureiben. Dabei drehte letzterer alle Augenblicke den Kopf herum,
um nach seinem Vater zu sehen. Als er ihn einmal nicht in seiner
vorigen Stellung sah, ließ er ohne weiteres vom Einreiben ab, sprang
auf und schoß wie ein Pfeil nach dem Boote, in welchem sich sein
Vater niedergelegt hatte, um seinen müden Gliedern Ruhe zu
gönnen. Erst als er völlig zufrieden gestellt sein durfte, kehrte
Freitag eiligst zurück und vollendete die ihm aufgetragene
Hilfeleistung.
Alles dies hatte uns von der Verfolgung der Wilden abgezogen,
und ihre Barke selbst war uns bereits aus dem Gesicht, als wir
wieder an sie dachten. Die Verhinderung unsrer anfänglichen Absicht
war jedoch ein großes Glück für uns. Denn zwei Stunden später
erhob sich ein heftiger Wind, der den übrigen Teil des Tages und die
ganze Nacht hindurch anhielt. Wie übel hätte es uns in unsrer
leichten Barke ergehen können!
Dem Spanier machte ich den Vorschlag, sich auf Freitag zu stützen
und bis zu einem der Kähne sich weiter zu helfen, um ihn dann nach
unsrer Wohnung zu schaffen, wo ich besser für seine Pflege und
Bequemlichkeit sorgen könnte. Allein er fühlte sich so schwach, daß
er nicht mehr stehen konnte. Ohne weitere Umstände nahm daher
Freitag mit kräftiger Hand den Fremden auf seinen Rücken, trug ihn
nach dem Kahne, setzte ihn an der Seite seines Vaters nieder, stieß
das Boot vom Ufer und ruderte dasselbe, ungeachtet des sich
erhebenden Windes, die Küste entlang, schneller als ich gehen
konnte. Darauf eilte er zurück. Als er an mir vorbei lief, fragte ich
ihn: »Wo rennst du so hurtig hin?« – »Andern Kahn holen!« lautete
lakonisch seine Antwort, und schnell wie der Wind war er davon. Als
ich bei der Bucht anlangte, war auch Freitag fast gleichzeitig mit
dem nachgeholten Boote daselbst eingetroffen.
Soweit war alles gut gegangen. Da aber weder Freitags Vater noch
der Spanier zu gehen im stande war, so befanden wir uns in nicht
geringer Verlegenheit, wie wir dieselben bis zur Burg und besonders
über die Wallmauer bringen sollten. Wir hatten indes keine Zeit,
noch lange zu überlegen. Das geeignetste Transportmittel schien mir
unter den vorliegenden Umständen eine Tragbahre zu sein. Sofort
machte ich mich denn auch, indem ich die beiden unsrer Obhut
anvertrauten Männer am Ufer ruhig niedersitzen ließ, mit Freitag ans
Werk, und nach einem Stündchen hatten wir mit zwei Stangen und
Flechtwerk eine Tragbahre hergerichtet, wie sie unsern Zwecken
notdürftig entsprechen konnte.
So trugen wir denn den Spanier und Freitags Vater und gelangten
bis an die äußere Umfassungsmauer unsrer Burg. Hier aber entstand
wiederum die Frage: Wie werden wir die beiden Entkräfteten über
den Wall hinwegbringen? Es blieb denn nichts andres übrig, als
zwischen der ersten Umhegung und dem von mir angepflanzten
Gebüsch ein Zelt zu errichten. Freitag ging mit seiner gewohnten
Geschicklichkeit ans Werk, und nach zwei Stunden hatten wir eine
leidlich hübsche Hütte zustande gebracht, bedeckt mit alten Segeln
und Baumzweigen. Im inneren Raume derselben stellten wir einen
Tisch hin nebst einer Bank und ein paar roh gezimmerten Stühlen,
sodann zwei Lagerstätten von gutem Reisstroh nebst je zwei
wollenen Decken: eine, um darauf zu liegen, die andre, um sich
damit zuzudecken.
Sobald alles unter Dach und Fach gebracht war, erschien es wohl
natürlich, daß ich nun auch an mich und Freitag dachte. Ich befahl
letzterem, eine junge Ziege zu schlachten und sie in Stücke zu
zerschneiden. Mit einigen derselben, die ich Freitag kochen ließ,
bereitete ich eine kräftige Suppe und ein vortreffliches
Fleischgericht. Dann wartete ich in dem neu aufgeschlagenen Zelte
auf und hieß meine Gäste guten Mutes sein und tapfer zulangen.
Nach aufgehobener Mahlzeit trug ich Freitag auf, eine Barke
herbeizuschaffen und unsre Waffen zu holen, die wir im Drange der
verwichenen Stunden auf dem Schlachtfelde gelassen hatten.
Nächstdem gab ich ihm den Auftrag, seinen Vater über die Wilden
auszufragen, und ob er glaube, daß sie einen Rachezug gegen uns
unternehmen würden. Freitags Vater meinte, die Flüchtlinge hätten
in ihrem leichten Fahrzeuge dem Sturme, der sich bald nach ihrer
Abfahrt erhob, um so weniger widerstehen können, als er sie bereits
auf dem ersten Viertel ihres Seewegs überrascht hätte. Wenn aber
das Fahrzeug auch nicht umgeschlagen wäre und seine Insassen in
den Wellen begraben hätte, so würden diese doch nach Süden zu
unvermeidlich an Küsten geschleudert worden sein, wo sie als
Kriegsgefangene dem Tode preisgegeben wären. Sollten sie dennoch
in ihre Heimat kommen, so würden sie ihren Landsleuten eher ab-
als zureden, diese Insel jemals wieder zu betreten. Er habe nämlich
vernommen, wie sie sich gleich nach unsern ersten Gewehrsalven
ängstlich und zitternd einander zuriefen: die beiden Wesen (nämlich
ich und Freitag) seien keine Menschen, sondern böse Geister, die
vom Himmel auf die Erde herabgestiegen wären, um sie zu
vernichten; denn Menschen, wie sie immer auch seien, könnten
nicht Blitze und Donner machen, auch nicht Feuer und Tod in die
Ferne schicken. Gewiß käme ihnen dieses Eiland wie ein
verzaubertes Land vor, dessen geisterhafte Bewohner alles
vernichteten, was sich in ihre Nähe wagte.
Der alte Mann mochte wohl nicht unrecht haben. Dennoch blieb
ich auf der Hut; da wir aber jetzt unser vier waren, so konnten wir
es getrost mit einer Rotte von 50, ja 100 Mann aufnehmen.
Nachdem wir uns noch über mancherlei unterhalten hatten,
überließ ich Freitags Vater und den Spanier der benötigten Ruhe,
denn sie waren immer noch matt und schwach. Auch wir beiden
andern zogen uns nach dem Wohnhause zurück und suchten
gleichfalls unser Lager auf. Trotz meiner Müdigkeit wollte mich der
Schlaf nicht überkommen; die jüngsten Ereignisse tauchten wieder
so lebhaft in meiner Seele auf, daß ich den ganzen Kampf gleichsam
von neuem durchlebte.
Die Einwohnerzahl meiner Insel war nun um das Vierfache
gestiegen, und ich war naturgemäß der unumschränkte Monarch
über diese Insulaner. So klein aber die Zahl auch war, eine große
Verschiedenheit zeigte die Bevölkerung hinsichtlich der Abstammung
und der Religion. Freitags Vater war Karibe, Heide und
Menschenfresser, der Sohn Spaniens war Katholik, und ich nebst
Freitag huldigten der Lehre des Protestantismus. Aber diese
Verschiedenheit sollte kein Stein des Anstoßes werden, kein
Gewissenszwang beirrte in meinem Staate die Gemüter.
Als wir uns am andern Morgen erhoben hatten, gebot ich Freitag,
die getöteten Wilden, deren verwesende Leichname die Luft zu
verpesten drohten, in die Erde zu verscharren. Zugleich sollte Freitag
auch die eklen Überreste der Kannibalenmahlzeit entfernen, damit
sie nicht unser Auge ferner beleidigten. Er entledigte sich meines
Befehls mit gewohnter Bereitwilligkeit.
Dann machten wir gemeinsam die Runde um die Burg und ihre
Umgebungen und gingen nach der Höhle und den Ziegenparks. Ich
wollte nämlich sowohl mich selbst von dem Stande der Dinge
unterrichten, als auch meine neuen Gefährten mit meinen
wirtschaftlichen Erfolgen bekannt machen. Freitag hatte als
Dolmetsch hierbei vollauf zu thun; denn sein Vater war über die
vielen neuen Dinge, die er bei uns sah, ganz erstaunt, und ich ließ
ihm ihren Zweck und Gebrauch so deutlich wie möglich
auseinandersetzen. Aber auch der Spanier war nicht wenig
überrascht von den zweckmäßigen Einrichtungen, die ich im Laufe so
vieler Jahre getroffen und allmählich mehr und mehr verbessert
hatte.
Nachdem meine neuen Hausgenossen sich endlich von ihren
Schmerzen an Händen und Füßen befreit fühlten, boten sie mir
bereitwillig ihre Kräfte zur Verrichtung der ländlichen und vielen
andern Arbeiten an. Freitag ließ ich meist in Gesellschaft seines
Vaters arbeiten, während sich der Spanier in meiner nächsten Nähe
zu halten pflegte. Da fehlte es denn nicht an hunderterlei Fragen
und Mitteilungen, an Plänen und Aussichten für die Zukunft, an
Erörterungen hinsichtlich der Mittel, nach dem Festland
hinüberzukommen, wo ich, wie Freitags Vater versichert hatte, um
seinetwillen gastfreundliche Aufnahme finden würde.
Der Spanier unterrichtete mich zuvörderst von seinem und seiner
Genossen Schicksal. »Ich heiße«, erzählte er, »Don Juan Caballos
und stamme aus Valladolid in Spanien. Wir waren auf einem
Fahrzeuge abgesegelt, das vom Rio de la Plata nach der Havanna
gehen und dort Pelzwaren und Silber gegen europäische Waren
umtauschen sollte. Es erhob sich ein heftiger Sturm, und in der
Nacht darauf wurden wir so heftig gegen ein Felsenriff geschmettert,
daß wir, im ganzen elf Spanier und fünf Portugiesen, uns beeilen
mußten, in die Schaluppe zu kommen. Sturm und Wellen
preisgegeben, halbtot vor Hunger und Durst, Angst und Gefahr,
wurden wir nach der karibischen Küste verschlagen und schwebten
in der peinlichsten Furcht, von den Wilden geschlachtet zu werden.
Allein die Kannibalen waren menschlicher, als wir glaubten: sie
nahmen uns ohne Feindseligkeit auf und ließen uns in Frieden unter
sich leben. Da wir uns indes an ihre schlechten Lebensmittel und
namentlich an ihr Nationalfestessen, aus Menschenfleisch
bestehend, nicht gewöhnen konnten, so nagten wir fast beständig
am Hungertuche. Zwar besaßen wir einige Feuergewehre und Säbel;
aber wir hatten bereits in den ersten Tagen nach unsrer Landung
den Vorrat an Pulver und Blei verbraucht und waren deshalb fast
lediglich auf den Unterhalt durch die Wilden angewiesen. Was
Wunder, wenn der Gedanke einer Flucht aus diesem Lande sich in
uns allen bis zum glühendsten Wunsche steigerte? Dies, Freund
Robinson, ist die Lage meiner Genossen unter den Kannibalen.«
»Das ist in der That traurig, Don Juan«, erwiderte ich dem
Spanier. »Aber mir geht ein Gedanke durch den Kopf: würden wohl
Eure Gefährten einen Vorschlag zu ihrer Rettung von mir
annehmen?«
»O sicherlich mit dem innigsten Dankgefühl, Sennor; denn in ihrer
jetzigen verzweifelten Lage haben sie keine Hoffnung, sich selbst
jemals befreien zu können!«
»Mein Vorschlag wäre demnach folgender: sie sämtlich nach
unsrer Insel herüberzuholen und durch gemeinschaftliche Arbeit ein
Fahrzeug zu bauen, das groß genug sein würde, um uns alle samt
den nötigen Lebensmitteln aufzunehmen und nach Brasilien oder
nach einer spanischen Kolonie zu bringen. Freilich würde ich es aber
bitter zu bereuen haben, das Werkzeug ihrer Rettung geworden zu
sein, wenn sie gegen mich, als einen Engländer, die
obschwebenden Feindseligkeiten der spanischen und britischen
Nation geltend machen würden.«
»O Sennor«, entgegnete der Spanier, »meine Genossen haben
den Kelch der bittersten Leiden zu lange gekostet, als daß sie nicht
schon den bloßen Gedanken verabscheuen sollten, demjenigen ein
Unrecht zuzufügen, dem sie für die Rettung aus Not und
Verbannung verpflichtet wären.«
»Und doch, Don Caballos, ist gerade die Dankbarkeit keine
gewöhnliche Tugend unter den Menschen. Denn nur zu oft richten
dieselben ihre Handlungen nicht nach den Pflichten ein, welche
ihnen durch empfangene Wohlthaten auferlegt werden, sondern
nach ihrem eignen persönlichen Vorteil, dem sie alle übrigen
Rücksichten nachsetzen.«
»Wohl, Sennor, aufzwingen läßt sich Vertrauen nicht. Aber wenn
Ihr gestattet, so laßt mich mit Freitags Vater wieder zurückfahren,
meine Landsleute von Eurem Plane in Kenntnis setzen, mit ihnen
einen Vertrag abschließen, den sie mit einem heiligen Eide
beschwören sollen. Diesen Vertrag werde ich unterzeichnet hierher
zurückbringen. Ich selbst aber will mich, ehe ich abreise, durch
einen Eid verbindlich machen, Euch treu und gehorsam zu bleiben,
solange ich lebe, und meine Genossen eben dazu anzuhalten; Euch
selbst will ich für den Fall, daß letztere sich widerspenstig oder
untreu bezeigen sollten, auf das kräftigste beistehen und Eure
Person bis auf den letzten Blutstropfen verteidigen.«
Auf solche Versicherungen hin glaubte ich die Rettung der Spanier
und Portugiesen wagen zu dürfen und ordnete an, daß Caballos mit
dem alten Wilden abgesandt werden solle. Als aber bereits alles zur
Abreise vorbereitet war, erhob der Spanier selbst eine Schwierigkeit,
in welcher sich seine Klugheit und Aufrichtigkeit bekundeten, so daß
ich gern seinen Rat annahm und die Befreiung seiner Gefährten
noch um sechs Monate hinaus verschob.

Zurüstung des Bootes zur Abfahrt.

Er musterte nämlich meine Vorräte an Reis und Gerste und begriff


sofort, daß dieselben allerdings für mich und Freitag mehr als
hinreichend waren, daß jedoch jetzt, wo wir unser vier von diesem
Haushalt zehren mußten, die weiseste Sparsamkeit von nöten sein
würde. Wie aber sollte es vollends dann werden, wenn auch noch
die 16 Europäer auf unser Kornmagazin angewiesen waren? Dabei
riet mir der Spanier, ich möchte ihn sowie die beiden Indianer so viel
Land beackern und besäen lassen, als dies ohne zu erhebliche
Verringerung der Vorräte geschehen könne, und dann die nächste
Ernte abwarten. Würde diese ungünstig ausfallen, so könnte leicht
die Hungersnot Unzufriedenheit und Zwistigkeiten herbeiführen;
seine Gefährten könnten dann wohl meinen, nur aus einem Unglück
in das andre gefallen zu sein.
»Wißt Ihr doch selbst, Sennor«, fügte er hinzu, »wie auch die
Kinder Israel anfänglich über ihre Errettung aus Ägyptenland
frohlockten, dann aber, als es ihnen in der Wüste an Brot gebrach,
sich gegen ihren Führer auflehnten.«
Der Rat des Spaniers schien mir so wohl überdacht und
beachtenswert, daß ich ihm ohne Zögern folgte. Wir machten uns
daher alle vier, so gut es mit unsern hölzernen Werkzeugen gehen
wollte, an die Arbeit, gruben ein ziemlich großes Stück Land um, und
bereits nach Verlauf eines Monats, wo die Saatzeit eintrat, hatten wir
so viel Ackerland zubereitet, daß wir 22 Scheffel Gerste und 16
Krüge Reis säen konnten; es blieb aber für uns bis zur nächsten
Erntezeit noch genug Gerste zu unsrer täglichen Nahrung übrig. Da
wir jetzt zahlreich genug waren, um die Wilden nicht mehr fürchten
zu müssen, so gingen wir frei und unbesorgt auf der ganzen Insel
umher, um alles Notwendige zu unsrer Befreiung, die unsre Gemüter
ausschließlich beschäftigte, instandzusetzen. Als die Jahreszeit
gekommen war, Trauben zu pflücken und zu trocknen, ließ ich eine
solche Menge derselben aufhängen, daß wir 60 bis 80 Fässer hätten
füllen können, wenn wir in Alicante gewesen wären, wo die besten
Rosinen gemacht werden. Diese Früchte und das Brot bildeten den
Kern unsrer Mahlzeiten. Außerdem aber flochten wir fleißig Körbe,
die uns zur Aufbewahrung unsrer Vorräte unentbehrlich waren.
Zugleich nahm ich auch darauf Bedacht, unsre Herde zahmer
Ziegen zu vermehren. Zu diesem Zwecke ging ich abwechselnd mit
dem Spanier auf die Jagd, wohin uns Freitag begleitete. Indem wir
die alten Ziegen schossen, die Jungen aber einfingen, brachten wir
an 20 junge Ziegen zusammen, die ich dann mit den übrigen aufzog.
Auch bezeichnete ich mehrere Bäume, die ich zur Erbauung eines
größeren Fahrzeuges geeignet hielt, und ließ sie durch Freitag und
seinen Vater fällen, während ich dem Spanier die Überwachung und
Leitung dieser Arbeiten anvertraute. Ich zeigte ihnen, mit welcher
Geduld und Ausdauer ich große Bäume zu Booten verarbeitet hatte,
und wies sie gleichfalls dazu an. Sie schnitten ein Dutzend guter
Bretter von 60 cm Breite, 5-11 m Länge und 5-10 cm Dicke – eine
Arbeit, die manchen schweren Schweißtropfen kostete.
Inzwischen war die Zeit der Ernte gekommen, und wir arbeiteten
mit Lust am Einsammeln. War sie auch nicht allzu ergiebig, denn ich
hatte früher schon reichere Ernten gehabt, so entsprach sie doch
unsern Erwartungen. Wir erhielten über 220 Scheffel Gerste und in
demselben Verhältnisse Reis. Das bildete einen Vorrat, der uns alle,
mit Einschluß der Gefährten des Spaniers, bis zur nächsten Ernte
nicht nur hinlänglich ernährt, sondern auch noch bequem zur
Verproviantierung eines Fahrzeuges gereicht hätte, um zu dem von
Europäern bewohnten Festlande von Amerika zu gelangen. Nachdem
wir unsre Vorräte untergebracht hatten, fand ich es für angemessen,
das Feld noch einmal zu bearbeiten und zu besäen, weil wir wegen
des Schiffbaues, aus Mangel an Werkzeugen, uns noch eine
geraume Zeit hier aufhalten mußten.
Nachdem alles bestens geordnet war, setzten wir unser Boot in
Bereitschaft, in welchem Caballos mit dem alten Indianer absegeln
sollte, um mit den Spaniern und Portugiesen zu unterhandeln. Um
mich aber für jeden Fall sicher zu stellen, setzte ich dem Spanier am
Tage vor ihrer Abfahrt einen in portugiesischer Sprache abgefaßten
schriftlichen Befehl auf, der folgendermaßen lautete:
»Es wird keiner mitgebracht, der nicht in Gegenwart von Freitags
Vater und des Don Juan Caballos auf das Evangelium schwört, mich,
Robinson Crusoe, als seinen obersten Befehlshaber
anzuerkennen, mir treu und gehorsam zur Seite zu stehen, mir
wissentlich nie Schaden oder Böses zuzufügen, mich gegen jeden
Welcome to Our Bookstore - The Ultimate Destination for Book Lovers
Are you passionate about books and eager to explore new worlds of
knowledge? At our website, we offer a vast collection of books that
cater to every interest and age group. From classic literature to
specialized publications, self-help books, and children’s stories, we
have it all! Each book is a gateway to new adventures, helping you
expand your knowledge and nourish your soul
Experience Convenient and Enjoyable Book Shopping Our website is more
than just an online bookstore—it’s a bridge connecting readers to the
timeless values of culture and wisdom. With a sleek and user-friendly
interface and a smart search system, you can find your favorite books
quickly and easily. Enjoy special promotions, fast home delivery, and
a seamless shopping experience that saves you time and enhances your
love for reading.
Let us accompany you on the journey of exploring knowledge and
personal growth!

ebookgate.com

You might also like