本研究由Dongchao Yang(香港中文大学)、Songxiang Liu(独立研究者)、Haohan Guo(香港中文大学)等13位作者共同完成,发表在Proceedings of the 42nd International Conference on Machine Learning (PMLR 267, 2025),文档编号为2025。
领域与背景
音频语言模型(Audio Language Modeling)的快速发展受大型语言模型(LLMs)成功启发,但其核心挑战在于如何高效地将连续音频信号转换为离散令牌(Token),以便语言模型处理。传统音频编解码器(如EnCodec、SoundStream)虽能生成高质量音频,但存在两大问题:
1. 比特率较高:需大量令牌序列编码音频,影响计算效率;
2. 语义信息不足:未显式建模跨帧上下文信息,限制语言模型对音频语义的理解。
研究目标
团队提出ALMTokenizer,一种低比特率且语义丰富的音频Tokenizer,旨在:
- 低比特率压缩:减少令牌序列长度以提升效率;
- 增强语义信息:通过新型编码策略优化语言模型的生成与理解能力;
- 适配自回归建模:优化潜在空间以支持序列生成任务。
ALMTokenizer基于查询式压缩策略(Query-based Compression),通过可学习的查询令牌(Query Tokens)捕获跨帧全局信息,取代传统逐帧编码方式。整体架构包括(图2右半部分):
- Patchify模块:将音频信号分割为帧序列;
- Transformer编码器:与查询令牌交互,建模上下文信息;
- 残差向量量化(RVQ):量化特征时融入语义先验(Wav2Vec2和BEATs的聚类中心);
- Transformer解码器:从量化令牌重建音频。
创新技术:
1. 查询式压缩:动态调整窗口大小控制压缩率,实现比特率灵活调控;
2. 掩码自编码器(MAE)损失:随机掩蔽部分音频帧,迫使模型学习全局语义;
3. 自回归(AR)预测损失:缓解RVQ高层令牌拟合困难问题;
4. 两阶段训练:先训练自编码器捕获语义,再微调编解码器优化重建。
数据集:
- 训练数据:4,500小时混合音频(语音:LibriTTS、MLS;声音:AudioSet;音乐:百万歌曲数据集);
- 评测数据:VCTK(语音)、AudioCaps(声音)、MusicCaps(音乐)。
基线模型:包括EnCodec、DAC、WavTokenizer等,对比比特率(0.4–1.5 kbps)与语义任务表现。
评估指标:
- 重建性能:DNS-MOS、PESQ、STOI、ViSQOL;
- 语义信息:ASR(语音识别)、ESC-50(声音分类)、Medley-Solos-DB(音乐分类);
- 生成任务:文本转语音(TTS)、音频描述生成(BLEU、CIDEr)。
核心贡献:
1. 方法论创新:首次将查询式压缩与语义先验结合,实现低比特率与高语义表达的平衡;
2. 应用价值:为TTS、语音对话系统(如Moshi)等任务提供高效Tokenizer;
3. 理论意义:证明编解码器的语义增强可提升自回归模型性能。
局限性:
- 极低比特率(<0.4 kbps)下非语音音频重建仍具挑战;
- 需进一步探索更大模型规模的影响(附录C.3)。
团队提倡开发检测模型以防范生成音频的滥用,体现了伦理考量(Impact Statement)。