分享自:

全国儿童医院睡眠数据库:大规模儿科睡眠数据集

期刊:scientific dataDOI:10.1038/s41597-022-01545-6

学术报告:《NCH睡眠数据库:大规模真实世界儿科睡眠研究数据集》

作者与发表信息

本研究由来自卡内基梅隆大学(Carnegie Mellon University)、全国儿童医院(Nationwide Children’s Hospital)和加州大学河滨分校(University of California, Riverside)的研究团队合作完成。主要作者包括Harlin Lee、Boyue Li、Shelly DeForte、Mark L. Splaingard、Yungui Huang、Yuejie Chi和Simon L. Linwood。该研究于2022年发表在《Scientific Data》期刊上。

学术背景

该研究属于儿科睡眠医学与生物信息学的交叉领域。睡眠对儿童健康发育至关重要,但儿科睡眠研究面临两大挑战:一是缺乏大规模临床注释的儿科睡眠数据;二是现有数据集多来自受控实验环境,难以反映真实临床场景。据估计,健康儿童中睡眠问题发生率约25%,而在特殊健康需求儿童中高达80%,但现有研究数据严重不足。

研究团队旨在建立首个大规模真实世界儿科睡眠数据库——NCH睡眠数据库(NCH Sleep Databank),包含3,984项多导睡眠图(polysomnography, PSG)研究和560万条临床观察数据,来自2017-2019年间全国儿童医院的3,673名独特患者。该数据库的建立将推动自动睡眠分期、实时睡眠障碍预测等研究方向的发展。

研究方法与流程

数据采集与处理

研究团队采用标准化临床流程采集数据,使用Natus SleepWorks 8和9版本系统记录患者整夜生理信号,包括: - 脑电图(EEG):识别睡眠阶段 - 肌电图(EMG):监测下巴和腿部肌肉活动 - 眼电图(EOG):检测REM睡眠特征性眼动 - 心电图(ECG):监测心率和心律 - 呼吸传感器:测量气流和胸腹运动 - 血氧仪:监测血氧饱和度 - 二氧化碳监测:评估通气状况

所有睡眠研究均由专业技师实时注释,再由第二位技师进行分期和评分,最后由睡眠医学认证医师验证或修改。研究团队特别强调,由于儿童睡眠阶段的变异性,所有睡眠阶段均为人工评分,未使用自动评分系统。

数据去标识化处理

为保护患者隐私,研究团队实施了严格的数据去标识化流程: 1. 为每位患者和每次睡眠研究分配随机ID 2. 替换EDF+文件头信息 3. 应用随机日期偏移(±180天) 4. 对罕见诊断代码进行特殊处理(影响6,460行数据) 5. 使用白名单方法处理自由文本注释(影响约0.22%的注释)

数据集构成

最终发布的数据集包含两大部分: 1. 睡眠数据:3,984个EDF格式的PSG记录和对应的TSV格式注释文件 2. 健康数据:患者人口统计学和纵向临床数据,包括: - 人口统计信息(3,673名患者) - 就诊记录(495,138条) - 用药记录(3,035,986条) - 测量数据(332,569条) - 诊断记录(1,513,853条) - 手术记录(283,599条)

技术验证

为确保数据质量,研究团队进行了多维度验证: 1. PSG数据验证:随机抽取研究样本,验证原始Natus SleepWorks数据与发布EDF文件的一致性 2. 临床数据验证:核对去标识化数据与原始电子健康记录(EHR)的一致性 3. 数据映射验证:成功匹配3,964项睡眠研究与就诊记录

研究团队还开发了基于小波变换和随机森林的基线睡眠分期算法,在成人子集中达到81.1%的准确率,验证了数据的技术质量。

主要研究成果

数据集特征

  1. 规模与代表性:包含3,984项PSG研究,总记录时长40,884小时,平均每项研究10.3小时
  2. 人口特征:患者年龄主要集中在10岁以下(2,412名);种族分布以白人为主(66.24%),非裔美国人占20.09%
  3. 临床随访:74%患者有90天至2年的随访记录

特殊发现

  1. 睡眠阶段分布:在全部5,046,370条注释中,79.48%与睡眠分期相关,其中:

    • N2期占比最高(27.41%)
    • REM期占12.11%
    • 不确定阶段(”sleep stage?“)占6.88%
  2. Prader-Willi综合征(PWS)患者分析

    • 识别出34名PWS患者(16项PSG研究)
    • 与肥胖非PWS患者相比,PWS患者:
      • 清醒时间更少(14.4% vs 20.5%)
      • N2期睡眠更多(45.2% vs 39.9%)
      • 总睡眠时间更长(8.0±0.7小时 vs 7.5±0.9小时)

研究价值与意义

科学价值

  1. 填补研究空白:首个大规模真实世界儿科睡眠数据库,特别关注儿童群体
  2. 多模态数据整合:同时包含生理信号和丰富的临床数据
  3. 标准化与可重复性:严格遵循美国睡眠医学会(AASM)的技术规范

应用价值

  1. 自动睡眠评分:为开发儿童特异性算法提供训练数据
  2. 睡眠障碍检测:特别是阻塞性睡眠呼吸暂停(OSA)的实时检测
  3. 个性化医疗:支持患者亚型分析和治疗有效性评估
  4. 跨学科研究:为睡眠医学、儿科、神经科学等领域的交叉研究提供资源

研究亮点

  1. 规模创新:目前最大的真实世界儿科睡眠数据集
  2. 临床相关性:全部数据来自标准临床环境,非受控实验
  3. 数据完整性:包含丰富的纵向临床数据
  4. 技术严谨性:多重验证确保数据质量
  5. 开放获取:数据发布于PhysioNet和NSRR平台,配套Python工具包

其他有价值内容

研究团队特别提供了完整的数据使用指南,包括: 1. 详细的文件格式说明(sleep_study_data_file_format.pdf) 2. 常见通道列表及其频率分布 3. 主要诊断的ICD-10编码分布 4. 配套分析代码(GitHub仓库:liboyue/sleep_study)

该数据库预计将推动多个研究方向的发展,包括但不限于: - 结合EEG以外模态的自动睡眠分期算法 - 基于机器学习的实时睡眠障碍检测系统 - 睡眠障碍亚型分析 - 治疗有效性评估等

这项研究得到了美国国立卫生研究院(NIH)国家生物医学成像和生物工程研究所的支持(R01EB025018)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com