# 消除冗余

我们认识到，不对视频进行压缩是不行的；一个单独的一小时长的视频，分辨率为 720p 和 30fps 时将需要 278GB^*。仅仅使用无损数据压缩算法——如 DEFLATE（被 PKZIP, Gzip, 和 PNG 使用）——也无法充分减少视频所需的带宽，我们需要找到其它压缩视频的方法。

1280 x 720 x 24 x 30 x 3600 （宽，高，每像素比特数，fps 和秒数）

为此，我们可以利用视觉特性：和区分颜色相比，我们区分亮度要更加敏锐。时间上的重复：一段视频包含很多只有一点小小改变的图像。图像内的重复：每一帧也包含很多颜色相同或相似的区域。

# 视觉特性

# 颜色，亮度和我们的眼睛

我们的眼睛对亮度比对颜色更敏感 (opens new window)，你可以看看下面的图片自己测试。

luminance vs color

如果你看不出左图的方块 A 和方块 B 的颜色是相同的，那么好，是我们的大脑玩了一个小把戏，这让我们更多的去注意光与暗，而不是颜色。右边这里有一个使用同样颜色的连接器，那么我们（的大脑）就能轻易分辨出事实，它们是同样的颜色。

# 简单解释我们的眼睛工作的原理

眼睛是一个复杂的器官 (opens new window)，有许多部分组成，但我们最感兴趣的是视锥细胞和视杆细胞。眼睛有大约 1.2 亿个视杆细胞和 6 百万个视锥细胞 (opens new window)。

简单来说，让我们把颜色和亮度放在眼睛的功能部位上。视杆细胞 (opens new window)主要负责亮度，而视锥细胞 (opens new window)负责颜色，有三种类型的视锥，每个都有不同的颜料，叫做：S-视锥（蓝色），M-视锥（绿色）和 L-视锥（红色） (opens new window)。

既然我们的视杆细胞（亮度）比视锥细胞多很多，一个合理的推断是相比颜色，我们有更好的能力去区分黑暗和光亮。

eyes composition

一旦我们知道我们对亮度（图像中的亮度）更敏感，我们就可以利用它。

# 颜色模型 RGB 和 YUV

我们最开始学习的彩色图像的原理使用的是 RGB 模型，但也有其他模型。有一种模型将亮度（光亮）和色度（颜色）分离开，它被称为 YCbCr^*。

有很多种模型做同样的分离。

这个颜色模型使用 Y 来表示亮度，还有两种颜色通道：Cb（蓝色色度）和 Cr（红色色度）。YCbCr 可以由 RGB 转换得来，也可以转换回 RGB。使用这个模型我们可以创建拥有完整色彩的图像，如下图。

ycbcr 例子

# YCbCr 和 RGB 之间的转换

有人可能会问，在 不使用绿色(色度) 的情况下，我们如何表现出所有的色彩？

为了回答这个问题，我们将介绍从 RGB 到 YCbCr 的转换。我们将使用 ITU-R 小组 (opens new window)*建议的标准 BT.601 (opens new window) 中的系数。

第一步是计算亮度，我们将使用 ITU 建议的常量，并替换 RGB 值。

Y = 0.299R + 0.587G + 0.114B

一旦我们有了亮度后，我们就可以拆分颜色（蓝色色度和红色色度）：

Cb = 0.564(B - Y)
Cr = 0.713(R - Y)

并且我们也可以使用 YCbCr 转换回来，甚至得到绿色。

R = Y + 1.402Cr
B = Y + 1.772Cb
G = Y - 0.344Cb - 0.714Cr

组织和标准在数字视频领域中很常见，它们通常定义什么是标准，例如，什么是 4K？我们应该使用什么帧率？分辨率？颜色模型？ (opens new window)

通常，显示屏（监视器，电视机，屏幕等等）仅使用 RGB 模型，并以不同的方式来组织，看看下面这些放大效果：

pixel geometry

# 色度子采样

一旦我们能从图像中分离出亮度和色度，我们就可以利用人类视觉系统对亮度比色度更敏感的特点，选择性地剔除信息。色度子采样是一种编码图像时，使色度分辨率低于亮度的技术。

ycbcr 子采样分辨率

我们应该减少多少色度分辨率呢？已经有一些模式定义了如何处理分辨率和合并（最终的颜色 = Y + Cb + Cr）。

这些模式称为子采样系统，并被表示为 3 部分的比率 - a:x:y，其定义了色度平面的分辨率，与亮度平面上的、分辨率为 a x 2 的小块之间的关系。

a 是水平采样参考 (通常是 4)，
x 是第一行的色度样本数（相对于 a 的水平分辨率），
y 是第二行的色度样本数。

存在的一个例外是 4:1:0，其在每个亮度平面分辨率为 4 x 4 的块内提供一个色度样本。

现代编解码器中使用的常用方案是： 4:4:4 (没有子采样), 4:2:2, 4:1:1, 4:2:0, 4:1:0 and 3:1:1。

YCbCr 4:2:0 合并

这是使用 YCbCr 4:2:0 合并的一个图像的一块，注意我们每像素只花费 12bit。

YCbCr 4:2:0 合并

下图是同一张图片使用几种主要的色度子采样技术进行编码，第一行图像是最终的 YCbCr，而最后一行图像展示了色度的分辨率。这么小的损失确实是一个伟大的胜利。

色度子采样例子

前面我们计算过我们需要 278GB 去存储一个一小时长，分辨率在 720p 和 30fps 的视频文件。如果我们使用 YCbCr 4:2:0 我们能减少一半的大小（139GB）^*，但仍然不够理想。

我们通过将宽、高、颜色深度和 fps 相乘得出这个值。前面我们需要 24 bit，现在我们只需要 12 bit。

# 自己动手：检查 YCbCr 直方图

你可以使用 ffmpeg 检查 YCbCr 直方图 (opens new window)。这个场景有更多的蓝色贡献，由直方图 (opens new window)显示。

./s/ffmpeg \
-i /files/v/small_bunny_1080p_30fps.mp4  \
-vf "split=2[a][b],[b]histogram,format=yuv420p[hh],[a][hh]overlay" \
/files/v/small_bunny_yuv_histogram.mp4

# 颜色, 亮度, 视频亮度, 伽马视频回顾

观看这段精彩的视频，它解释什么是亮度并了解视频亮度、伽马和颜色。

# 自己动手: 检查 YCbCr 强度

你可以使用FFmpeg's oscilloscope 滤镜 (opens new window)可视化给定视频行的 Y 强度.

ffplay -f lavfi \
-i 'testsrc2=size=1280x720:rate=30000/1001,format=yuv420p' \
-vf oscilloscope=x=0.5:y=200/720:s=1:c=1

y 颜色示波器

# 帧类型 I/P/B

现在我们进一步消除时间冗余，但在这之前让我们来确定一些基本术语。假设我们一段 30fps 的影片，这是最开始的 4 帧。

球 1 球 2 球 3 球 4

我们可以在帧内看到很多重复内容，如蓝色背景，从 0 帧到第 3 帧它都没有变化。为了解决这个问题，我们可以将它们抽象地分类为三种类型的帧。

# I 帧（帧内，关键帧）

I 帧（可参考，关键帧，帧内编码）是一个自足的帧。它不依靠任何东西来渲染，I 帧与静态图片相似。第一帧通常是 I 帧，但我们将看到 I 帧被定期插入其它类型的帧之间。

球 1

# P 帧（预测）

P 帧利用了一个事实：当前的画面几乎总能使用之前的一帧进行渲染。例如，在第二帧，唯一的改变是球向前移动了。仅仅使用（第二帧）对前一帧的引用和差值，我们就能重建前一帧。

球 1 <- 球 2

# 自己动手：具有单个 I 帧的视频

既然 P 帧使用较少的数据，为什么我们不能用单个 I 帧和其余的 P 帧 (opens new window)来编码整个视频？

Generates a video with a single I frame and the rest are P frames.

./s/ffmpeg \
-i /files/v/small_bunny_1080p_30fps.mp4 \
-c:v libx264 -x264-params keyint=30:min-keyint=30:no-scenecut=1 \
-c:a copy \
/files/v/small_bunny_1080p_30fps_h264_keyframe_each_one_second.mp4

编码完这个视频之后，开始观看它，并快进到视频的末尾部分，你会注意到它需要花一些时间才真正跳转到这部分。这是因为 P 帧需要一个引用帧（比如 I 帧）才能渲染。

你可以做的另一个快速试验，是使用单个 I 帧编码视频，然后再次编码且每 2 秒插入一个 I 帧 (opens new window)，并比较成品的大小。

# B 帧（双向预测）

如何引用前面和后面的帧去做更好的压缩？！简单地说 B 帧就是这么做的。

球 1 <- 球 2 -> 球 3

# 自己动手：使用 B 帧比较视频

你可以生成两个版本，一个使用 B 帧，另一个全部不使用 B 帧 (opens new window)，然后查看文件的大小以及画质。

Generates a video with 0 B-frames.

./s/ffmpeg \
-i /files/v/small_bunny_1080p_30fps.mp4 \
-c:v libx264 -x264-params keyint=30:min-keyint=30:no-scenecut=1:bframes=0 \
-c:a copy \
/files/v/small_bunny_1080p_30fps_zero_b_frames.mp4

# 小结

这些帧类型用于提供更好的压缩率，我们将在下一章看到这是如何发生的。现在，我们可以想到 I 帧是昂贵的，P 帧是便宜的，最便宜的是 B 帧。

帧类型例子

# 时间冗余（帧间预测）

让我们探究去除时间上的重复，去除这一类冗余的技术就是帧间预测。

我们将尝试花费较少的数据量去编码在时间上连续的 0 号帧和 1 号帧。

原始帧

我们可以做个减法，我们简单地用 0 号帧减去 1 号帧，得到残差，这样我们就只需要对残差进行编码。

残差帧

但我们有一个更好的方法来节省数据量。首先，我们将0 号帧 视为一个个分块的集合，然后我们将尝试将 帧 1 和 帧 0 上的块相匹配。我们可以将这看作是运动预测。

# 维基百科—块运动补偿

“运动补偿是一种描述相邻帧（相邻在这里表示在编码关系上相邻，在播放顺序上两帧未必相邻）差别的方法，具体来说是描述前面一帧（相邻在这里表示在编码关系上的前面，在播放顺序上未必在当前帧前面）的每个小块怎样移动到当前帧中的某个位置去。”

![原始帧运动预测](Generates a video with a single I frame and the rest are P frames./i/original_frames_motion_estimation.png "原始帧运动预测")

我们预计那个球会从 x=0, y=25 移动到 x=6, y=26，x 和 y 的值就是运动向量。进一步节省数据量的方法是，只编码这两者运动向量的差。所以，最终运动向量就是 x=6 (6-0), y=1 (26-25)。

实际情况下，这个球会被切成 n 个分区，但处理过程是相同的。

帧上的物体以三维方式移动，当球移动到背景时会变小。当我们尝试寻找匹配的块，找不到完美匹配的块是正常的。这是一张运动预测与实际值相叠加的图片。

运动预测

但我们能看到当我们使用运动预测时，编码的数据量少于使用简单的残差帧技术。

运动预测 vs 残差

# 自己动手：查看运动向量

我们可以使用 ffmpeg 生成包含帧间预测（运动向量）的视频 (opens new window)。

# It generates a video with motion vector over the video.
./s/ffmpeg \
-flags2 +export_mvs \
-i /files/v/small_bunny_1080p_30fps.mp4 \
-vf codecview=mv=pf+bf+bb \
/files/v/small_bunny_1080p_30fps_vis_mv.mp4

# 空间冗余（帧内预测）

如果我们分析一个视频里的每一帧，我们会看到有许多区域是相互关联的。

空间内重复

让我们举一个例子。这个场景大部分由蓝色和白色组成。

smw 背景

这是一个 I 帧，我们不能使用前面的帧来预测，但我们仍然可以压缩它。我们将编码我们选择的那块红色区域。如果我们看看它的周围，我们可以估计它周围颜色的变化。

smw 背景块

我们预测:帧中的颜色在垂直方向上保持一致，这意味着未知像素的颜色与临近的像素相同。

smw 背景预测

我们的预测会出错，所以我们需要先利用这项技术（帧内预测），然后减去实际值，算出残差，得出的矩阵比原始数据更容易压缩。

smw 残差

# 自己动手：查看帧内预测

你可以使用 ffmpeg 生成包含宏块及预测的视频 (opens new window)。

# It generates a video with macro blocks debug over the video. Please refer to
./s/ffmpeg \
-debug vis_mb_type \
-i /files/v/small_bunny_1080p_30fps.mp4 \
/files/v/small_bunny_1080p_30fps_vis_mb.mp4

请查看 ffmpeg 文档以了解每个块颜色的含义 (opens new window)。