本研究由来自卡内基梅隆大学(Carnegie Mellon University)、全国儿童医院(Nationwide Children’s Hospital)和加州大学河滨分校(University of California, Riverside)的研究团队合作完成。主要作者包括Harlin Lee、Boyue Li、Shelly DeForte、Mark L. Splaingard、Yungui Huang、Yuejie Chi和Simon L. Linwood。该研究于2022年发表在《Scientific Data》期刊上。
该研究属于儿科睡眠医学与生物信息学的交叉领域。睡眠对儿童健康发育至关重要,但儿科睡眠研究面临两大挑战:一是缺乏大规模临床注释的儿科睡眠数据;二是现有数据集多来自受控实验环境,难以反映真实临床场景。据估计,健康儿童中睡眠问题发生率约25%,而在特殊健康需求儿童中高达80%,但现有研究数据严重不足。
研究团队旨在建立首个大规模真实世界儿科睡眠数据库——NCH睡眠数据库(NCH Sleep Databank),包含3,984项多导睡眠图(polysomnography, PSG)研究和560万条临床观察数据,来自2017-2019年间全国儿童医院的3,673名独特患者。该数据库的建立将推动自动睡眠分期、实时睡眠障碍预测等研究方向的发展。
研究团队采用标准化临床流程采集数据,使用Natus SleepWorks 8和9版本系统记录患者整夜生理信号,包括: - 脑电图(EEG):识别睡眠阶段 - 肌电图(EMG):监测下巴和腿部肌肉活动 - 眼电图(EOG):检测REM睡眠特征性眼动 - 心电图(ECG):监测心率和心律 - 呼吸传感器:测量气流和胸腹运动 - 血氧仪:监测血氧饱和度 - 二氧化碳监测:评估通气状况
所有睡眠研究均由专业技师实时注释,再由第二位技师进行分期和评分,最后由睡眠医学认证医师验证或修改。研究团队特别强调,由于儿童睡眠阶段的变异性,所有睡眠阶段均为人工评分,未使用自动评分系统。
为保护患者隐私,研究团队实施了严格的数据去标识化流程: 1. 为每位患者和每次睡眠研究分配随机ID 2. 替换EDF+文件头信息 3. 应用随机日期偏移(±180天) 4. 对罕见诊断代码进行特殊处理(影响6,460行数据) 5. 使用白名单方法处理自由文本注释(影响约0.22%的注释)
最终发布的数据集包含两大部分: 1. 睡眠数据:3,984个EDF格式的PSG记录和对应的TSV格式注释文件 2. 健康数据:患者人口统计学和纵向临床数据,包括: - 人口统计信息(3,673名患者) - 就诊记录(495,138条) - 用药记录(3,035,986条) - 测量数据(332,569条) - 诊断记录(1,513,853条) - 手术记录(283,599条)
为确保数据质量,研究团队进行了多维度验证: 1. PSG数据验证:随机抽取研究样本,验证原始Natus SleepWorks数据与发布EDF文件的一致性 2. 临床数据验证:核对去标识化数据与原始电子健康记录(EHR)的一致性 3. 数据映射验证:成功匹配3,964项睡眠研究与就诊记录
研究团队还开发了基于小波变换和随机森林的基线睡眠分期算法,在成人子集中达到81.1%的准确率,验证了数据的技术质量。
睡眠阶段分布:在全部5,046,370条注释中,79.48%与睡眠分期相关,其中:
Prader-Willi综合征(PWS)患者分析:
研究团队特别提供了完整的数据使用指南,包括: 1. 详细的文件格式说明(sleep_study_data_file_format.pdf) 2. 常见通道列表及其频率分布 3. 主要诊断的ICD-10编码分布 4. 配套分析代码(GitHub仓库:liboyue/sleep_study)
该数据库预计将推动多个研究方向的发展,包括但不限于: - 结合EEG以外模态的自动睡眠分期算法 - 基于机器学习的实时睡眠障碍检测系统 - 睡眠障碍亚型分析 - 治疗有效性评估等
这项研究得到了美国国立卫生研究院(NIH)国家生物医学成像和生物工程研究所的支持(R01EB025018)。