线性代数的本质

写在前面:

这学期我们开了一门线性代数的课程,买了一本《线性代数及其应用》读了一半,有收获,但是感觉还是迷迷糊糊的。

看了3Blue1Brown视频,对线性代数有了更加直观的认识,从对原先对计算的直观认识,转换对空间变换的认识。

我看的是up婆婆町UP主汉语配音-【线性代数的本质】版本。

内容若有错误,敬请斧正!

1.什么是向量

有以下不同观点:

  • 物理:空间中的箭头
  • 计算机:有序的数字列表
  • 数学:任何东西只要相加相乘符合向量的定义

我们在几何上,把向量拆分为起点(原点)和坐标,如$ \begin{pmatrix}-3\\1 \end{pmatrix}$ 或$ \begin{pmatrix}2\\1\\3 \end{pmatrix}$

在这里我们给出向量的几种运算:

  • 向量加法:平移,首尾相接
  • 向量数乘:拉长(缩放)

2.张成的空间与基

我们通常使用\(\vec i\) \(\vec j\) \(\vec k\) 表示\(x,y,z\)方向上的单位向量。

如 $ \begin{pmatrix}3\\-2 \end{pmatrix}=3\vec i-2\vec j$

对于向量的数字描述,依赖于我们所使用的基底

什么是线性?linear

“张成”表示通过线性组合产生所有可能结果。对两个向量进行数乘和加法可张成:

  • 一个面
  • 一条线(共线)
  • 一个定点(两个都为“0向量”)

同理 对于两个三位向量 我们能张成一个平面。

若新加一个三维向量:

  • 若在该平面内,张成空间仍为平面
  • 若不在,张成整个三维空间。

一组向量中至少有一个是多余的,没有对张成空间做成贡献或者说 其中一个向量能被其他向量的线性组合所表示 称为线性相关

如果每一个向量都新增了新的维度 则称为线性无关

或者说 当且仅当 \(a=b=c=0\) 时,\(a\vec v+b\vec w+c\vec u =\vec 0\) 成立,则称向量组\(\{\vec a,\vec b,\vec c\}\)是线性无关的。

3.矩阵与线性变换

线性变换是一个接受向量并输出向量的函数,满足:

  • 直线在变化后依然是直线
  • 原点位置不动

即保持网格平行并等距分布的变换。

要描述二维线性变换,只需说明单位向量的变化:

如我们要将\(\vec v = -1\vec i+2\vec j\) 做线性变换

那么 \(\vec v_{Transformed}=-1\vec i_{Transformed}+2\vec j_{Transformed}\) 意味着我们只需要知道基向量的变化,我们就能推导出任意向量的变化。

假设经过线性变换后,基向量的变化情况如下:\(\vec {\imath} \rightarrow \begin{bmatrix} 1 \\\\ -2 \end{bmatrix} \quad\quad \vec {\jmath} \rightarrow \begin{bmatrix} 3 \\\\ 0 \end{bmatrix}\)

那么某一向量经过线性变换如下\(\begin{bmatrix} x \\\\ y \end{bmatrix} \rightarrow x \begin{bmatrix} 1 \\\\ -2 \end{bmatrix} + y \begin{bmatrix} 3 \\\\ 0 \end{bmatrix} = \begin{bmatrix} {1}x + {3}y \\\\ {-2}x + {0}y \end{bmatrix}\)

如此,我们能规定许多线性变化,如:

逆时针旋转90°:\(\begin{bmatrix} 0 &-1\\\\1&0 \end{bmatrix}\)

剪切:\(\begin{bmatrix} 1&1\\\\0&1 \end{bmatrix}\)

总而言之,矩阵,我们可以理解成为空间上的一种变换

4.矩阵乘法与线性变换的复合联系

矩阵乘法=线性变换的组合。

而矩阵相乘,就是将变换应用于某个向量。

如果我们要先旋转90°再执行剪切,那么这就是一个复合的线性变换。

先将向量旋转再剪切:[剪切矩阵]([旋转矩阵] [向量]) 和执行复合矩阵:([剪切矩阵] [旋转矩阵])[向量] 二者是等价的。

所以两个矩阵相乘具有几何意义,也就是两个线性变换相继作用,需要从右向左读。

所以对于矩阵乘法的结合律 $A(BC)=(AC)C $的等价,我们有了一个更加直观的认识。

5.行列式

二维中:

  • 行列式的值=面积变化的比例

  • 正负:空间的定向(反转)

三维中:

  • 行列式的值=体积缩放的比例

  • 正负:符合右手定则为正,否则为负

所以我们对\(det(\begin{bmatrix} a&0\\\\0&b \end{bmatrix})=ab\) 能有更加深刻的理解,相当于原先\(\begin{bmatrix} 1&0\\\\0&1 \end{bmatrix}\) 面积为1的单位面积,长扩大为\(a\)倍,宽扩大为\(b\)倍,所以面积扩大为 \(ab\) 倍。

如果是一个上下三角,则会变成一个平行四边形,我们使用 底×高 面积同样也是\(ab\)

image-20250719215424330

通过这图,我们能清晰的知道二维行列式的\(ad-bc\)是怎么得出来的。

当行列式结果为0,我们知道,此时面积(体积)被压缩为0面积(0体积),此时是一个高维转向低维的变换,此时这个矩阵的列必然线性相关。

\(det(M_1M_2)=det(M_1)det(M_2)\)我们能有一个更加深刻的理解。

单位面积(体积)通过\(M_1M_2\)复合变换 变换后的面积 和分别执行\(M_1M_2\)线性变换 变换后的面积是相等的,如此,我们能清晰的了解这一公式。

6.逆矩阵,列空间,秩与零空间

矩阵的作用:求特定方程组 这些未知量只进行加和 只有常数项 没有幂次 我们能转化为一个线性方程组。

image-20250719220257463

我们可以看成 我们在寻找一个向量 \(\vec x\) 在经过线性变换 \(A\) 后,与向量 \(\vec v\) 重叠。

在二维中,\(A\)的变化分为两种

  • 保持空间为二维 \(det(A)= C(C \ne0)\)
  • 将空间挤压到更低维度 \(det(A)= 0\)

逆矩阵

如果保持空间为二维(不降维度)我们能通过一个逆变换(函数) 让 \(\vec v\) 变换为 \(\vec x\)

\(A\vec x =\vec v \Rightarrow \vec x = A^{-1}\vec v\)

\(A^{-1}\)\(A\)的逆(变换)可以理解为反函数

为什么当\(det(A)=0\)\(A^{-1}\)不存在?

我们就要回归到反函数存在的定义:

可逆的充分必要条件是该函数为双射,即同时为单射和满射。

也就是一一对应,如果出现多对一,反函数则会出现一对多,即一个函数值对映多个结果,这便不是映射。

\(det(A)=0\)时,空间从高维空间像低维空间压缩,一个低维向量对于许多高维向量。

也就是出现多对一,即不是单射,反函数会将一个变量对应多个输出,这不符合函数映射的定义。

\(A^{-1}A=E\) (恒等变换) 部分教材写作 \(I\)

当变换的结果为1维 我们称这个变换的秩为1。

当变换的结果为2维 我们称这个变换的秩为2。

秩为变换后的维数。

所有可能的输出向量 \(A\vec v\) 构成的集合 都被成为矩阵的”列空间“,所谓列空间,就是矩阵的列所张成的空间。

所以更加精确的秩的定义是列的维数!

秩达到最大(秩与列数相等) => 满秩

  • 满秩:只有原点落在原点上
  • 非满秩:一条线/一个面 经过变换后落在原点

零空间

变换后落在原点的向量的集合,我们称为矩阵的”零空间“或”核“

附注:

非方阵问题(不同维度空间之间的线性变换)

也是 输入 → 输出 的一个过程 同样也有变换后基向量 这一表示方法。

\(3\times 2\) 的矩阵,就是把二维空间映射到三维,而这个矩阵的两列,分别代表\(\vec i ,\vec j\) 变换后的坐标,

\(2\times3\) 的矩阵,也就是将三维空间压缩到二维空间的变换。

而在这种变换下,线性变换的含义即为:

一条直线上一系列等距分布的点,在经过映射(变换)后,依旧等距分布。

7.点积与对偶性

  • 标准观点:求点积就是将相应坐标配对,求每一对的成绩,并把结果相加。

  • 几何解释:求一个向量对另外一个向量的投影,然后长度相乘 ( \(a\cdot b = |a||b|\cos \theta\) )。

为什么和投影有关?问题来自对偶性

在高维空间中,执行线性变换,要压缩到一维空间(数轴)。这和我们向量点积很相似。

\(1\times2\) 矩阵和 \(2\)维向量之间 有着微妙的关系 ,将向量放倒,就能得到与之相对应的矩阵。

我们考虑一个二维单位向量\(\vec u\) ,我们需要把二维的向量投影到这一条直线上,这个投影矩阵为\(\begin{bmatrix}\vec i_{Transform} &\vec j_{Transform}\end{bmatrix}\)

我们发现,\(\vec i_{Transform}\) 的值就是\(\vec i\)\(\vec u\)投影的值,而这个值和 \(\vec u\)\(\vec i\) 投影的值相等,\(\vec i_{Transform}\)也就是\(\vec u\)的横坐标。\(j_{Transform}\)同理。

image-20250720123104803

所以这个投影矩阵相当于\(\begin{bmatrix} u_{x} &u_{y}\end{bmatrix}\) ,也就是\(\vec u\)的向量。

所以一个向量与这个矩阵相乘和与这个单位向量点积,他们的结果是一样的。

所以一个向量与单位向量的点积,能解读为,将这个向量投影到单位向量所得到的投影的长度。

而对于非单位向量,我们能通过数乘来进行转化。

所以我们可以把点积的向量,看作是一种线性变换的物质载体。

8.1叉积的标准介绍

以二维空间为例 \(|\vec v \times \vec w|= 平行四边形的面积\)

\(\vec v\)\(\vec w\) 的右侧,则\(\vec v \times \vec w\) 为正,

\(\vec v\)\(\vec w\) 的左侧,则\(\vec v \times \vec w\) 为负。

所以顺序对叉积有影响

image-20250720123709821

按序求两个基向量的叉积,结果为正,可以按这点来记忆。

image-20250720123958763

\(\vec v \times \vec w = det([\vec v \space \vec w ])\)

为什么能这样写?我们可以这样理解,\(\vec i\) 经过线性变换后变成了\(\vec v\) ,同理\(\vec j\) 经过线性变换后变成了\(\vec w\)

所以$ det([\vec v \space \vec w ])$ 就是经过这个变换后,原先面积为\(1\times1\)单位面积的变换比例,也就是这个平行四边形的面积。

而由于经过了反转,所以面积变成为负值。

写成行也行,转置不影响行列式的值

三维空间:

通过两个三维向量形成一个新的三维向量,

这个新的三维向量长度也是平行四边形的面积,

方向垂直于这个平行四边形(右手定则)。

\(\begin{bmatrix} v_1 \\\\ v_2 \\\\ v_3 \end{bmatrix} \times \begin{bmatrix} w_1 \\\\ w_2 \\\\ w_3 \end{bmatrix} = \det\left( \begin{bmatrix} \hat{\imath} & v_1 & w_1 \\\\ \hat{\jmath} & v_2 & w_2 \\\\ \hat{k} & v_3 & w_3 \end{bmatrix} \right)\)

在同济高数教材中,我们会如下写

\(\begin{bmatrix} v_1 \\\\ v_2 \\\\ v_3 \end{bmatrix} \times \begin{bmatrix} w_1 \\\\ w_2 \\\\ w_3 \end{bmatrix} = \det\left( \begin{bmatrix} \hat{\imath} & \hat{\jmath} & \hat{k} \\\\ v_1 & v_2 & v_3 \\\\ w_1 & w_2 & w_3 \end{bmatrix} \right)\)

两种方法没有差异,转置不影响行列式的值

在计算的时候,我们要注意,这个代数余子式要有正负号

要是不想考虑这一点,可以用那个重复写,然后计算的方法可以看这个视频期末冲刺上大分 (一高数)

image-20250720132146242

8.2 以线性变换的眼光看叉积

\(\vec v \times \vec w =\vec p\)

\(\vec p\)的性质

  • 长度等\(\vec v\)\(\vec w\)所确定的平行四边形面积
  • 方向与\(\vec v\)\(\vec w\)垂直
  • 满足右手定则
image-20250720144818023

对如输入的函数x,y,z我们能确定一个平行六面体,并得到体积

\(f(x,y,z)\)是线性的,我们将行列式展开,得到\(C_1x+C_2y+C_3z\) 故相距各点,扩大倍数后,相距比例保持一致,原点不动,所以是线性的

这个常数是\(\vec v\)\(\vec w\)的线性组合

image-20250720145408770

所以这个与\(\vec p\)点积, 相当这个函数,通过接受(x,y,z)并得出这个平行六面体的体积。

根据点积的定义,这个点积的大小就等于我们把(x,y,z)投影到\(\vec p\) 然后和其的模长相乘,

所以投影到p的长度,我们可以理解为这个平行六面体的高,对应\(\vec v\)\(\vec w\)这个平行四边形的底,

所以\(\vec p\) 是一个向量,是\(\vec v\)\(\vec w\)所成平行四边形的高,所以与\(\vec v\)\(\vec w\)垂直,且模长和这个平行四边形底的面积相同。

9.基变换

坐标可以看成是缩放基向量的标量

不同的基底表示同一个向量的语言(坐标)不同

用矩阵向量的乘法可用于线性变换,来切换不同的基底。

比如说我们要用\(\begin{bmatrix} 0 \\\\1 \end{bmatrix}\)\(\begin{bmatrix} -1 \\\\0 \end{bmatrix}\)作为基向量表示\(\begin{bmatrix} x \\\\y \end{bmatrix}\)

在这个基下, \(\begin{bmatrix} x \\\\y \end{bmatrix}\) 的表示方法为\(x\cdot\begin{bmatrix} 0 \\\\1 \end{bmatrix}+y\cdot \begin{bmatrix} -1 \\\\0 \end{bmatrix}\)

也就相当于\(\begin{bmatrix} 0 &-1\\\\1&0 \end{bmatrix}\cdot \begin{bmatrix} x \\\\y \end{bmatrix}\)

这里的\(\begin{bmatrix} 0 &-1\\\\1&0 \end{bmatrix}\)是相当于在我们的基底的环境下,需要转换的基底的表示方法。

假设A是我们基底下,他人基底的表示方法

$A\cdot $他的向量(原本以x轴正方向,y轴正方向的x,y向量)=我的向量(新基底的向量)

\(\Rightarrow A^{-1}\cdot A\cdot\) 他的向量=$A^{-1}\cdot $我的向量

$\Rightarrow $ 他的向量=$A^{-1}\cdot $我的向量

这里的他的,我的表示不同基底的表示,但是本质是同一个向量

\(A^{-1}\cdot M\cdot A\) 表示一种数学上的转移作用,中间矩阵代表一种你所见到的变换,而两侧的矩阵代表视觉的转移。

10.特征向量与特征值

特征向量

对于一个特定的矩阵\(A\)(线性变换)

  • 特征向量:被拉伸/压缩方向不变的向量
  • 特征值:特征向量在 拉伸/压缩 的比例

计算思想 \(A\vec v=\lambda\vec v\)

\(A\):线性变换

\(\vec v\):特征向量

\(\lambda\):特征值

原式:\(\Rightarrow (A-\lambda I)\vec v=\vec 0\)

相当空间压缩,秩不为满时才存在特征向量与\((A-\lambda I)\)相乘为\(\vec 0\)

我们只需要求 \(det(A-\lambda I)=0\) 计算出 \(\lambda\),带回方程$ (A-\lambda I)\vec v=\vec 0$然后算出特征向量。

特征基(以特征向量为基)

对角矩阵:除了对角元意外其他元素都为零的矩阵,这个矩阵有利于计算幂次。

当我们使用特征向量作为基向量,我们就能让线性变换的矩阵变换为对角矩阵(对角化)。

通过这样我们可以降低高阶幂计算的复杂度。

需要注意的是,不是所有的变换都能找到特征基。

11.抽象空间向量

向量到底是什么?

向量是什么并不重要,只要对象几何有合理的相加,相乘,都是向量。线性代数具有普适性。

只要满足向量加法和数乘的规则,即能使用线性代数。向量可以是任何东西!

写在后面:

在这里再次感谢up婆婆町3Blue1Brown的辛勤付出

ps:笔者写这篇文章时正值罗小黑2电影上映,我的评价是:值得一看

作为国产动画,制作水平上流,打戏精彩,剧情完整。 诚然罗小黑这个系列遭受到许多争议,但是就这一部电影来说,无疑是精彩的,建议观看!