第 3 章 · 音频基础:让声音也变小

VOD 流媒体技术全解 · 第 3 / 12 章

本章你会理解:声音怎么变成数字、采样率/位深是什么、声道/立体声/5.1 的含义、AAC 为什么是流媒体首选。

预计阅读时间:12 分钟

3.1声音怎么变成数字

声音本质是空气的振动,是一条连续变化的波形:

音量
 ▲
 │    ╱╲        ╱╲
 │   ╱  ╲      ╱  ╲
 │  ╱    ╲    ╱    ╲
 └──────────────────► 时间

电脑只能存数字,不能存连续波形。所以要做两件事:

1. 采样(Sampling):每隔一小段时间,测一次波形的高度

2. 量化(Quantization):把测到的高度数字化

音量
 ▲
 │  ●   ●                     ●    采样点
 │     ●  ●  ●
 │           ●  ●
 │              ●  ●   ●
 └──────────────────────► 时间
     ↑ ↑ ↑ 每秒采样 N 次,N 就是"采样率"

3.2采样率(Sample Rate)

单位:Hz(赫兹,每秒多少次)

常见采样率:

采样率 场景
8 kHz电话语音
16 kHz语音识别、VoIP(Zoom/Teams)
22.05 kHz老游戏、AM 收音机
44.1 kHzCD 唱片、音乐首选
48 kHz视频领域默认(电影、流媒体、广播)
96 kHz高保真录音
192 kHz专业录音室

💡 奈奎斯特定理:要还原频率 F 的信号,采样率至少要 2F。人耳能听到的频率上限大约 20 kHz,所以 44.1/48 kHz 刚好够(还留有一点余量)。

📌 VOD 音频统一用 48 kHz。如果你有 44.1 kHz 的源,转码时用 -ar 48000 重采样。

3.3位深(Bit Depth)

每个采样点用几个 bit 存它的"高度":

位深 能表达的响度级数 场景
8 bit256 级老游戏、电话
16 bit65,536 级CD、消费流媒体
24 bit约 1700 万级专业录音
32 bit 浮点天文数字音频制作内部格式

大多数视频里音频都是 16-bit 48 kHz。

3.4声道(Channel)

声道 = 有几条独立的声音轨。

声道 英文 配置 用途
1.0Mono单声道电话、老电视
2.0Stereo左 + 右音乐、大部分视频
5.15.1 surround前左+中+前右+后左+后右+低音(.1 指低频炮)电影院、家庭影院
7.17.1 surround5.1 + 两个侧向顶级家庭影院
7.1.4Atmos 等7.1 + 4 个天空声道杜比全景声

布局

家庭影院 5.1 布局(俯视):

         前左(FL)──中置(C)──前右(FR)
              │    观众    │
              │    ┃       │
         侧左(SL)──┻━━━━──侧右(SR)
                   低音炮(LFE)

3.5音频码率:多少 kbps 够用?

音频码率也是每秒 bit 数。视频码率是几 Mbps,音频码率是几十到几百 kbps,只占视频码率的 5-10%

码率 听感 场景
32 kbps能听清语音、音乐破破的极低带宽
64 kbps语音清晰、音乐勉强低码率场景
96 kbps音乐尚可广播、YouTube 默认
128 kbps音乐好听流媒体默认
192 kbps高保真高质量音乐
256 kbps发烧级Apple Music
320 kbpsMP3 最大音乐爱好者
无损 FLAC透明发烧 HiFi

📌 VOD 视频配音频:立体声 128 kbps AAC 是绝大多数场景的正确答案。

3.6主流音频编码

AAC(Advanced Audio Coding):流媒体首选

由谁:MPEG(同 H.264 的组织)

年份:1997

兼容性所有视频平台、浏览器、手机都支持

变体

- AAC-LC(Low Complexity):最常用,HLS/DASH 默认

- HE-AAC(High Efficiency):低码率下更好(64 kbps 以下)

- HE-AAC v2:HE-AAC + 参数化立体声,48 kbps 下依然不错

📌 绝大多数 VOD 项目,音频用 AAC-LC、48 kHz、立体声、128 kbps,就完事了。

MP3:退出历史舞台

• 经典但效率低于 AAC

• 2017 年原始专利到期

• 新项目没理由再用 MP3

Opus:Web 新贵

开源、免版税

• 从 6 kbps(语音)到 510 kbps(音乐)都表现优秀

WebRTC 默认、Discord 使用

• 但 HLS/DASH 兼容性不如 AAC,iOS/Safari 支持有限

Dolby 系列:电影院味儿

编码 用途
AC-3(Dolby Digital)5.1 声道、蓝光、老 HDTV
E-AC-3 / DD+(Dolby Digital Plus)5.1 / 7.1,流媒体电影
Dolby Atmos(基于 E-AC-3 + JOC 或 AC-4)全景声,顶级平台

💡 Dolby Atmos 在 Netflix、Disney+、Apple TV+ 是高价值订阅的标志

FLAC / ALAC:无损

无损压缩,只能减小 50%-70%,但完全还原原始 PCM。用于:

• Apple Music 无损档

• 音乐发烧友

• 视频领域基本不用(码率太大)

3.7多语言音轨:一个视频带多种语言

一个视频文件里可以装多条音轨

MP4 file
├── video track   (H.264)
├── audio track 1 (AAC, English)
├── audio track 2 (AAC, Chinese)
├── audio track 3 (AAC, Japanese)
└── subtitle track (WebVTT)

流媒体协议(HLS/DASH)支持独立分发音轨,播放器可以只下载用户选中的语言。

对应的 HLS manifest 配置大致如下:

#EXT-X-MEDIA:TYPE=AUDIO,GROUP-ID="audio",LANGUAGE="en",NAME="English",DEFAULT=YES,URI="audio/en/index.m3u8"
#EXT-X-MEDIA:TYPE=AUDIO,GROUP-ID="audio",LANGUAGE="zh",NAME="中文",URI="audio/zh/index.m3u8"

详见第 5 章:流媒体协议。

3.8响度标准化(Loudness Normalization)

你一定遇到过:切到广告音量突然变大。这是因为不同内容的"响度"差别很大。

响度标准化是按感知响度(不是峰值音量)统一各内容的响度水平。

常用标准

标准 目标响度 用途
EBU R128-23 LUFS欧洲广电
ATSC A/85-24 LUFS北美广电
Apple Music / Spotify-14 LUFS流媒体音乐
YouTube-14 LUFS默认
短视频/移动端-16 ~ -14 LUFS手机小喇叭上下限

LUFS(Loudness Units Full Scale)是国际标准的感知响度单位。

🛠️ ffmpeg 做响度标准化

# 把音频规范到 -14 LUFS
ffmpeg -i input.mp4 -af loudnorm=I=-14:TP=-1.5:LRA=11 -c:v copy output.mp4

3.9动手:查看和转码音频

🛠️ 动手试一试

查看一个视频里有几条音轨

ffprobe -v error -show_streams -select_streams a input.mp4

典型输出:

codec_name=aac
sample_rate=48000
channels=2
channel_layout=stereo
bit_rate=128000

把多种音频统一转成 AAC 48 kHz 128 kbps 立体声

ffmpeg -i input.mov \
  -c:a aac -b:a 128k -ar 48000 -ac 2 \
  -c:v copy \
  output.mp4

参数解释:

-c:a aac:音频编码 AAC

-b:a 128k:码率 128 kbps

-ar 48000:采样率 48 kHz

-ac 2:声道数 2(立体声)

-c:v copy:视频不动、直接复制(节省时间)

✦ 本章要点回顾

1. 声音数字化需要采样率(时间轴密度)和位深(幅度精度)。

2. VOD 默认采样率 48 kHz、位深 16-bit

3. 消费流媒体默认声道立体声(2.0),电影级用 5.1 / Atmos

4. AAC-LC 128 kbps 是 VOD 项目的默认音频设置。

5. 一个视频文件可以带多条音轨(多语言)。

6. 响度标准化(EBU R128 / -14 LUFS)能避免"切广告就变吵"。

← 上一章 目录 下一章 →

© 2026 Zmead · VOD 流媒体技术全解