chill/chill_notes

Fork 0

Files

FNS Service fac26286a4 Update from Sync Service

2026-04-21 11:01:01 +08:00

12 KiB

Executable File

Raw Blame History

视频流传输技术演讲稿

演讲信息

时长：约 45-60 分钟
受众：技术团队同事（需了解视频传输基本概念）
目标：让听众理解视频从拍摄到播放的完整技术链路

演讲流程 & 每页讲稿

【第1页】开场（2分钟）

口述：

大家好，今天想和大家分享视频流传输技术。

大家在刷抖音、看电视视频会议、用B站看视频的时候，有没有想过——从你点击"播放"到画面出现，这中间到底发生了什么？

今天我会用 45 分钟左右，带大家走一遍视频传输的完整技术链路。从最基础的像素、帧率，到编码、CDN、播放器，每个环节都讲清楚。

注意：

开场要引起兴趣，可以问听众"你们有没有遇到过视频卡顿的问题？"
不用讲太深，先建立整体框架

【第2页】先问一个问题（1分钟）

口述：

先问大家一个问题：视频播放的技术本质是什么？

用户的操作很简单——点播放，等画面。但背后这套系统要经历 6 个环节：采集→编码→封装→传输→解码→渲染。任何一个环节出问题，视频就会出现卡顿、延迟或画质损失。

注意：

不要逐字念，直接说出来即可
停顿一下，让听众思考

【第3页】视频基础——帧率 & 分辨率（5分钟）

口述：

先从最基础的开始——视频是怎么构成的。

帧率（Frame Rate）：视频由一帧帧画面组成，每秒多少帧叫帧率。

24fps 是电影标准，人眼觉得流畅

60fps 是运动赛事、游戏的标准

120fps 以上是人眼感知的极限

帧率低会有"跳跃感"，就是看电影时觉得动作不连贯。

分辨率（Resolution）：每帧画面有多少像素。

1080p = 200万像素

4K = 830万像素

8K = 3300万像素

分辨率越高，像素越多，数据量越大。

这里有个关键数字要记住：1080p@60fps 的原始 RGB 数据是 373 MB/s，4K@60fps 是 1.5 GB/s。你的网速根本不够。

互动建议：

可以问大家："你们家宽带多少 Mbps？" 然后对比一下。

【第4页】色彩空间（4分钟）

口述：

接下来讲一个很容易忽略但很重要的概念——色彩空间。

大家知道屏幕显示用的是 RGB（红+绿+蓝），这是加法混色。

但视频压缩用的是 YUV：Y是亮度，U和V是色度。

为什么？因为人眼对亮度敏感，对色度不敏感。

所以色度可以降采样——4:2:0 意味着色度分辨率只有亮度的 1/4，数据量直接砍半，但肉眼看起来差不多。

这是整个视频压缩的理论基础之一。

注意：

如果听众不熟悉"YUV"这个概念，可以类比：就像JPEG压缩时降低颜色分辨率一样
重点讲"人眼特性"这个思想，不是死记 4:2:0 这个数字

【第5页】为什么要编码（3分钟）

口述：

好，现在大家理解数据有多大了。原始视频根本传不了。

解决办法是编码压缩。

H.264 编码后：1080p@60fps 从 373MB/s 压缩到约 8Mbps，压缩了 47倍。 H.265 继续省 50%。 AV1 是最新标准，比 H.265 再省 30%，而且免专利费。

这就是为什么视频网站能生存——没有编码，就没有视频流媒体。

背景补充：

关于专利许可的小八卦：H.265 的专利授权费很高，所以 Google 推 VP9，Apple 主推 HLS+AAC 绑定的路线。AV1 是各大公司（包括 Google、Amazon、Netflix、Apple、Intel 等）联合成立 AOM 联盟推动的，就是为了打破专利垄断。

【第6页】编码原理（5分钟）

口述：

编码的核心就三件事：空间冗余、时间冗余、感知冗余。

空间冗余：一帧内部，相邻像素颜色差不多，用 DCT 变换把像素转频域，丢弃人眼不敏感的高频信息。

时间冗余：相邻帧之间，背景基本不变。编码器只记录"物体移动了多远"，而不是整个画面。

I帧/P帧/B帧：I帧是完整画面（数据量最大），P帧只存和前一帧的差异，B帧利用前后帧信息压缩（压缩率最高但解码最慢）。

GOP（图片组）就是 I-P-B 帧的排列组合。GOP 越长压缩率越高，但随机访问越差。直播用短 GOP（1-2秒），点播用长 GOP（10-30秒）。

注意：

这一页信息量大，可以放慢语速
如果有人问"什么是 DCT"，简单说："就像傅里叶变换，把空间信号变成频率成分"

【第7页】容器格式（3分钟）

口述：

编码后得到的是裸码流（H.264 原始字节）。要传输和播放，还需要容器来打包。

打个比方：视频流、音频流、字幕流是三样东西，容器就是把它们装在一起的行李箱。

常见容器：

MP4：最通用，所有平台都支持

MKV：开源，支持几乎所有格式，适合发烧友

FLV：Adobe Flash 时代的产物，RTMP 直播用过很多，正在被淘汰

WebM：Google 推的，VP9/AV1+Opus，网页嵌入首选

关键点：MP4 里可以是 H.264 也可以是 AV1，容器只负责打包，不管用什么编码。

注意：

避免讲太多容器格式细节，点到为止
强调"容器≠编码"这个误区

【第8页】传输协议（8分钟）

口述：

这是今天的重点之一。

视频传输协议主流有三个：RTMP、HLS、WebRTC。

RTMP：基于 TCP，推流用得最多。延迟 1-3 秒。缺点是依赖单一 TCP 连接，CDN 支持在淘汰。但由于延迟相对低，直播推流还在用。

HLS：Apple 2010 年推出的，基于 HTTP。原理是把视频切成 6-10 秒的小分片，生成 .m3u8 播放列表，播放器按顺序下载边下边播。全球最广泛使用，Netflix、YouTube、HBO 都在用。

DASH：比 HLS 更灵活的设计，manifest 是 XML（.mpd），不绑定 TS 容器，分片可以更细（2秒），延迟更低。Netflix 同时支持 HLS 和 DASH。

WebRTC：浏览器原生支持，延迟 <1 秒。核心技术是 UDP 传输 + ICE NAT 穿透 + DTLS 加密。视频会议、直播连麦用得最多。

互动建议：

问听众："你们公司直播用的是什么协议？"

【第9页】CDN（5分钟）

口述：

视频传输到用户端，靠的是 CDN（内容分发网络）。

架构很简单：全球分布的边缘节点，存着视频分片的缓存。用户从最近的节点拿数据，而不是都回源站。

CDN 的价值：物理距离近 → 延迟低 → 加载快 → 卡顿少。

直播 CDN 还有一个特殊能力：推流就近接入——你用 OBS 推流到最近的节点，CDN 自动同步到其他节点，用户从各自最近的节点拉流。

主流 CDN：Cloudflare（全球覆盖）、阿里云 CDN（中国境内最优）。

注意：

可以用"快递仓库"做类比：CDN 就像在全国各地建仓库，用户从最近的仓库拿货
这是保障大规模并发观看能力的关键

【第10页】播放器（5分钟）

口述：

最后是用户端的播放器，它做什么？

播放器其实就是一个处理流水线：解封装 → 解码 → 渲染。

解封装：读取 MP4/HLS/DASH，把视频流、音频流分开。

解码：H.264/H.265/AV1 → YUV 像素数据。这一步优先用硬件解码（GPU/DSP），省电且高效。

MSE（Media Source Extensions）：HTML5 的 video 标签本来不支持流式播放。MSE 让 JavaScript 可以"边下载边喂数据"给 video 元素，Chrome/Firefox 也能播放 HLS。

所以现在看直播已经不需要 Flash 了。

注意：

如果听众不熟悉浏览器技术，简单说："MSE 让网页变成真正的流媒体播放器"
可以顺带提一句 Flash 的兴亡史

【第11页】ABR 自适应码率（5分钟）

口述：

最后讲一个 Netflix/YouTube 都在用的核心技术——ABR（自适应码率）。

原理很朴素：客户端检测当前网速，动态切换不同码率的播放列表。

WiFi 畅通 → 自动切到 4K HDR

4G 降速 → 自动切到 1080p

信号差 → 继续降到 720p

用户完全无感知，但这就是 Netflix 能在各种网络条件下"丝滑"播放的秘密。

最新的方向是用机器学习做 ABR——Netflix 用强化学习训练模型，预测最优码率，比传统算法更稳定。

注意：

这一页可以联系实际："你们有没有注意到地铁里看视频会自动变模糊？这就是 ABR 在工作"
不用讲太多 ML 算法细节

【第12页】实战架构（3分钟）

口述：

简单过一遍完整的直播系统架构。

推流端：OBS（免费开源）或手机 SDK → 编码 RTMP → 流媒体服务器（SRS）→ 协议转换（HLS/DASH）→ CDN 分发 → 用户拉流播放。

FFmpeg 是音视频处理的瑞士军刀，能做转码、推流、截图、缩放，几乎涵盖所有音视频处理需求。

搭建直播平台的最小组合：SRS + CDN。

【Q&A】常见问题（5分钟）

Q：为什么直播延迟降不下来？

A：编码缓冲（需要足够的缓冲防止卡顿）、GOP 长度（HLS 分片 6-10 秒）、CDN 缓存策略，都会增加延迟。想要 <1 秒，只能用 WebRTC 或低延迟 HLS（LL-HLS）。

Q：H.265 比 H.264 省 50%，为什么没有完全替代？

A：专利授权费高，终端设备兼容性差（老设备不一定支持）。AV1 有望逐步替代。

Q：CDN 缓存视频，实时直播怎么做到？

A：直播 CDN 用"伪直播"或"切片轮询"机制，边缘节点缓存最近几个分片，而不是整段视频。

Q：5G 时代视频传输会有什么变化？

A：5G 低延迟特性和大带宽，让云游戏、实时云渲染成为可能。延迟从 30ms→5ms 量级。

演讲注意事项

演讲前

✅ 确认演示电脑能播放 PPT（Office/WPS/Google Slides 均可）
✅ 准备一个视频链接（YouTube/B站）用于现场演示 ABR 切换
✅ 预演时间控制，每页讲稿的分钟数只是参考，按现场互动调整

演讲中

⚠️ 不要念稿！每个知识点的定义要"用自己的话"说出来
⚠️ 多用类比："就像快递仓库"、"就像搭积木"
⚠️ 重点页面（编码原理、传输协议）多停留，多问"有没有人遇到过这种情况"
⚠️ 如果有人提问，不要回答超出 PPT 范围的问题，可以说"这个问题我们线下讨论"

观众特征

技术团队同事，有基本 CS 背景
对视频技术接触少，但用过抖音/B站/视频会议
更容易对"实际解决问题"感兴趣，而不是"学术定义"

时间分配建议

内容	时间
开场 + 提问	5 min
视频基础 + 色彩空间	9 min
编码原理	8 min
容器格式	3 min
传输协议（重点）	10 min
CDN	5 min
播放器 + ABR	8 min
实战架构	3 min
Q&A	5-10 min
合计	45-60 min

背景补充知识（备用）

视频编码演进时间线

2003：H.264/AVC 诞生（至今最广泛使用）
2013：H.265/HEVC 和 VP9 同时出现
2018：AV1 发布（免专利费，Alliance for Open Media）
2020：VVC/H.266 标准化，但尚未普及

关键术语表

术语	含义
GOP	Group of Pictures，I/P/B帧的排列组合
ABR	Adaptive Bitrate Streaming，自适应码率
MSE	Media Source Extensions，浏览器流媒体API
TS	Transport Stream，HLS 使用的分片格式
NAT	Network Address Translation，NAT穿透
ICE	Interactive Connectivity Establishment，协商P2P连接
CDN	Content Delivery Network，内容分发网络

本演讲稿配合《视频流传输技术全景指南 v2》PPT 使用

12 KiB Executable File Raw Blame History Unescape Escape

视频流传输技术演讲稿

演讲信息

演讲流程 & 每页讲稿

【第1页】开场（2分钟）

【第2页】先问一个问题（1分钟）

【第3页】视频基础——帧率 & 分辨率（5分钟）

【第4页】色彩空间（4分钟）

【第5页】为什么要编码（3分钟）

【第6页】编码原理（5分钟）

【第7页】容器格式（3分钟）

【第8页】传输协议（8分钟）

【第9页】CDN（5分钟）

【第10页】播放器（5分钟）

【第11页】ABR 自适应码率（5分钟）

【第12页】实战架构（3分钟）

【Q&A】常见问题（5分钟）

演讲注意事项

演讲前

演讲中

观众特征

时间分配建议

背景补充知识（备用）

视频编码演进时间线

关键术语表

12 KiB

Executable File

Raw Blame History