《方法生态与进化》(Methods in Ecology and Evolution)期刊于2025年发表了一项开创性研究,题为《使用生成对抗网络的动物声学识别、去噪和源分离》。这项研究由中国科学技术大学王梅、法国INRAE的Kevin F. A. Darras、中科院合肥物质科学研究院薛仁杰及刘方林领衔的跨学科团队完成,论文以开放获取形式发布,遵循CC-BY-NC许可协议。
研究聚焦于生态声学(Bioacoustics)领域的核心挑战:如何从复杂自然声景中精准分离目标生物声源。被动声学监测技术虽能获取海量声学数据,但传统卷积神经网络(CNN)在物种分类中存在明显局限——难以量化声学空间特征,且易受背景噪声干扰。研究团队创新性地引入生成对抗网络(GAN)技术框架,旨在解决三大关键问题:
1. 声源分离:从混合声景中提取特定物种或群落的声学信号
2. 精细化量化:实现时-频-振幅三维度的声学特征解析
3. 方法论突破:建立首个基于频谱图到频谱图翻译的生态声学分析范式
研究采用多阶段实验设计,核心流程如下:
采用改进的Pix2Pix框架,包含两大核心组件:
- 生成器:U-Net结构编码器-解码器,通过跳跃连接保留时频细节
- 判别器:PatchGAN设计,专注局部频谱结构判别
- 训练参数:
- 学习率0.0002,批量大小1
- 对抗损失与L1损失比率1:100
- 在NVIDIA GeForce GTX 4060 GPU上训练200轮次
通过重建的纯净频谱图,首次量化了:
- 频率生态位分化:东方角鸮频带最窄(0.7-1.5 kHz),哈特叶柳莺最宽(1.9-9.8 kHz)
- 时间占用差异:丛林夜鹰活动时长占比最高,阿尔斯特姆柳莺最短
- 群落结构:昆虫占据最大声学空间(42.7%),人类声源频段最低( kHz)
该研究建立了生态声学分析的新范式:
1. 方法论创新:首次将图像翻译技术应用于声景解析,突破传统分类模型局限
2. 保护生物学应用:为生物多样性自动监测提供高分辨率工具,特别适用于濒危物种(如东方角鸮)的声学普查
3. 群落生态学价值:通过声学空间占用量化,揭示种间竞争与生态位分配机制
作者指出当前模型在重叠声源处理(如鸟鸣与蝉噪同时段)存在局限,建议未来结合伪彩色技术改进。研究团队正开发自动化标注工具以降低人工成本,并计划将模型扩展至两栖类与哺乳动物声学监测。这项技术为构建全球声景监测网络奠定了算法基础。