分享自:

斯坦福地震数据集(STEAD): 面向 AI 的全球地震信号数据集

期刊:IEEE AccessDOI:10.1109/access.2019.2947848

这篇文档属于类型a,是一篇关于地震学机器学习数据集构建的原创性研究。以下为详细学术报告:


一、作者与发表信息
本研究由S. Mostafa MousaviYixiao ShengWeiqiang ZhuGregory C. Beroza(斯坦福大学地球物理系)合作完成,发表于2019年10月的期刊IEEE Access(DOI: 10.1109/ACCESS.2019.2947848)。研究受斯坦福诱发与触发地震中心(SCITS)和美国空军研究实验室(AFRL)资助。


二、学术背景
科学领域:研究属于地震学与人工智能交叉领域,聚焦于地震信号处理与机器学习模型的训练需求。
研究动机
1. 数据瓶颈:尽管地震学是数据密集型学科,但高质量标记数据集(labeled data)的缺乏阻碍了监督式机器学习模型的开发。现有标签(如震相到达时间)可靠性参差不齐,且缺乏统一基准(benchmark)。
2. 技术潜力:机器学习(尤其是深度学习)在地震检测、震相拾取等任务中已展现优势,但模型性能依赖于大规模、高精度标注数据。

目标:构建首个全球性、高质量的地震与非地震信号数据集STEAD(Stanford Earthquake Dataset),包含局部地震波形(local earthquakes)和地震噪声(seismic noise),为地震学AI研究提供标准化基准。


三、研究流程与方法
研究分为四个核心步骤:

1. 数据收集与元数据构建

  • 数据来源:整合10个国际权威机构数据,包括国际地震中心(ISC)、美国地质调查局(NEIC)、IRIS数据中心等,覆盖1984—2018年地震事件。
  • 元数据处理
    • 提取地震参数(震源位置、深度、震级)、台站信息(经纬度、仪器类型)及人工标注的P/S波到时(phase arrival times)。
    • 构建关系型数据库,包含450,000次地震的1200万条震相到时记录。

2. 波形数据获取与预处理

  • 波形来源:从IRIS数据中心请求1分钟长度的三分量地震波形(垂直、南北、东西向),共150万条。
    • 时间窗设计:以P波到时为基准,窗口起始于P波前5—10秒,确保包含完整P/S波。
  • 预处理
    • 去趋势(detrending)、去均值、重采样至100 Hz。
    • 信号质量评估:计算信噪比(SNR,公式:$SNR = 10 \log_{10}(|s|_2^2 / |n|_2^2)$),其中$s$为S波后振幅,$n$为P波前噪声。结果显示多数波形SNR为10—40 dB(图17)。

3. 质量控制与错误修正

  • AI辅助校验
    • 使用深度学习模型PhaseNet(自动震相拾取算法)校验人工与自动到时标签,替换错误标注。
    • 利用CRED(基于深度学习的检测模型)识别无效数据(如无地震信号或包含未编目地震的波形),剔除8%问题数据。
  • 人工抽检:随机检查11.6万条波形,确认剩余错误率%。

4. 噪声数据构建

  • 来源:从地震事件间期随机抽取1分钟噪声段。
  • 去信号处理:结合小波域统计方法(如同步压缩变换)去除隐藏地震信号,确保纯噪声特性。

四、主要结果

1. 数据集规模与内容

  • 地震波形:105万条,关联45万次地震(图3),震级范围-0.5—7.9(图11),多数为小震(<2.5级)。
  • 噪声波形:10万条,来自全球2613个台站(图4-5)。
  • 标签体系
    • 地震数据含35项属性(如震源参数、台站信息、P/S波到时、信噪比等);噪声数据含8项(如台站代码、仪器类型)。

2. 数据质量与创新性

  • 高精度标签:70% P/S波到时由人工标注,余下通过PhaseNet高置信度预测补充(图14)。
  • 地理覆盖:地震事件与台站分布均匀(图3-5),涵盖不同构造环境。

3. 技术验证

  • 误差控制:提供震源定位误差(如水平不确定性、深度误差等)以评估数据可靠性(图18)。
  • 多任务适用性:波形时间窗随机化设计便于直接用于震相拾取模型训练。

五、结论与价值

1. 科学意义

  • 填补空白:STEAD是首个兼具规模与精度的地震学AI基准数据集,解决了领域内数据碎片化问题。
  • 方法论贡献:提出AI辅助质量控制流程,为后续数据集构建提供范式。

2. 应用潜力

  • 模型开发:支持地震检测、震相拾取、信号分类等任务(如PhaseNet和CRED的改进)。
  • 跨学科应用:波形数据可迁移至音频信号处理(如降噪、事件检测)。

六、研究亮点
1. 规模与质量:19,000小时波形数据,标签错误率%。
2. 创新流程:结合传统地震学与深度学习,实现自动化质量控制。
3. 开源共享:数据公开于GitHub(https://github.com/smousavi05/stead),促进社区协作。


七、其他价值
- 扩展方向:作者计划纳入区域/远震数据及非地震信号(如爆炸、滑坡等),进一步丰富数据集。
- 促进标准化:STEAD的发布推动地震学ML研究的可重复性与横向比较。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com