基于离散音频标记的高保真语音增强:DAC-SE1框架研究
作者及机构
本研究的核心团队来自瑞士苏黎世联邦理工学院(ETH Zurich),主要作者包括Luca A. Lanzendörfer、Frédéric Berdoz、Antonis Asonitis和Roger Wattenhofer。研究成果以论文形式发布于2025年10月的预印本平台arXiv(编号arXiv:2510.02187v1),并公开了代码与模型权重(GitHub仓库:eth-disco/dac-se1)。
学术背景
研究领域与动机
语音增强(Speech Enhancement, SE)是音频信号处理的核心任务,旨在从含噪声或失真的语音中恢复清晰信号。传统方法依赖时域模型(如Conv-TasNet、Demucs)或基于条件架构的模型,但这些方案存在两大局限:
1. 低采样率限制:多数模型仅支持16 kHz以下采样率,难以满足高保真(44.1⁄48 kHz)需求;
2. 流程复杂性:多阶段流水线设计(如辅助编码器、噪声估计模块)增加了系统复杂度,阻碍模型扩展性。
近年来,基于自回归Transformer的语言模型(Language Model, LM)在文本转语音(TTS)和音频合成中展现出强大的语义建模能力。然而,其在SE领域的应用仍受限于低分辨率输入和复杂架构。本研究提出DAC-SE1,首次将高分辨率离散音频标记(Discrete Audio Tokens)与纯LM框架结合,探索通过数据与算力规模扩展(Scaling Laws)实现高质量SE的可能性。
理论基础
- 离散音频表示:采用神经音频编解码器DAC(Discrete Audio Codec)将44.1 kHz音频压缩为9层残差向量量化(RVQ)标记,每层包含1024个码本,帧率86 Hz。
- 语言模型适配:通过扁平化多码本结构(Flattened Token Sequence),将高分辨率音频转换为单一时间序列标记,利用LLaMA架构的自回归建模能力预测纯净语音标记。
研究流程与方法
1. 模型架构设计
- 核心框架:基于1B参数的LLaMA模型(24层Transformer,隐藏层1536维),采用旋转位置编码(RoPE)支持长序列建模(最大8192标记)。
- 输入输出:直接处理扁平化的DAC标记序列(9码本×86 Hz=774标记/秒),输出为去噪后的DAC标记,经解码器重构为44.1 kHz音频。
- 创新点:摒弃传统SE模型的语义编码器(如HuBERT),仅依赖DAC的压缩表示,简化流程并提升保真度。
2. 训练策略
- 多任务数据合成:使用HiFiTTS-2数据集(2000小时44.1 kHz语音),叠加六类失真:
- 噪声(SNR -5~25 dB,Musan/DEMAND数据集)
- 混响(RIRs脉冲响应卷积)
- 降采样(2~16 kHz重采样)
- 丢包(50~200 ms片段置零)
- 两阶段训练:
- 阶段一:混合失真联合训练,平衡各任务损失;
- 阶段二:按失真类型分任务微调,优化特定场景性能。
- 硬件配置:200块H200 GPU训练12小时,数据量超50亿标记。
3. 评估方法
- 客观指标:DNSMOS(OVRL/SIG/BAK)、P.808、PESQ、PLCMOS、SpeechBERTScore、WER(Whisper-large识别)。
- 主观评估:MUSHRA听力测试(26名参与者,12次/人,含隐藏参考与低锚点)。
- 对比基线:LLaSE-G1(多阶段LM-SE)、VoiceFixer(神经声码器修复)。
主要结果
1. HiFiTTS-2测试集表现
- 客观指标:DAC-SE1在OVRL(2.95 vs 2.90⁄2.92)、SIG(3.33 vs 3.24⁄3.21)显著优于基线,背景抑制(BAK 3.70)略逊于VoiceFixer(3.90),但综合质量最佳。
- 主观评分:MUSHRA得分58.3,远超LLaSE-G1(44.1)和VoiceFixer(34.5),接近纯净语音(94.5)。
2. 基准挑战赛验证
- ICASSP 2022 PLC挑战赛:PLCMOS达4.34(最优),超越BS-PLCNet(4.29)和LLaSE-G1多任务版(4.30)。
- ICASSP 2023 DNS挑战赛:PDNSMOS总分3.63,与TEA-PSE 3.0(3.65)相当,但计算效率更高。
关键发现:
- 高分辨率优势:44.1 kHz输入能保留高频细节(图1对数梅尔谱对比),避免低码率下的频谱失真。
- 单阶段有效性:仅通过LM规模扩展(1B参数+长序列支持)即可实现多任务SE,无需领域特定调整。
结论与价值
科学意义
- 方法论突破:验证了纯LM框架在高保真SE中的可行性,为统一音频生成与增强模型提供新范式。
- 规模效应验证:证明数据与算力扩展可替代传统SE的领域定制设计,推动通用音频模型发展。
应用价值
- 工业部署:开源模型支持实时44.1 kHz语音修复,适用于通信、助听设备等高保真场景。
- 研究基础:扁平化DAC标记的处理策略为后续音频LM设计提供参考。
研究亮点
1. 首例高分辨率LM-SE框架:直接建模44.1 kHz DAC标记,突破16 kHz限制。
2. 极简架构:单阶段训练,无辅助模块,依赖标准LM优化流程。
3. 多任务泛化性:同一模型支持噪声抑制、带宽扩展、丢包补偿等任务。
4. 可复现性:完整公开代码、训练管道及模型权重,推动社区发展。
局限与展望
- 计算成本较高(1B参数),未来可探索轻量化版本;
- 未涉及多语言数据验证,扩展性待进一步研究。