丹佛II：丹佛发育筛查测验的重大修订与重新标准化

分享自：
丹佛II：丹佛发育筛查测验的重大修订与重新标准化

期刊:Pediatrics
关于《Denver II：丹佛发育筛查测验的重大修订与重新标准化》的学术研究报告
一、 研究作者、机构与发表信息
本研究的主要作者为 William K. Frankenburg（医学博士，公共卫生硕士）、Josiah Dodds（博士）、Philip Archer（科学博士）、Howard Shapiro（博士）和 Beverly Bresnick（文学硕士）。作者团队主要来自科罗拉多大学健康科学中心医学院的儿科学系、预防医学系、生物统计学系以及社区儿童发展系，部分成员也来自丹佛大学职业心理学学院。该研究报告以论文形式发表于《Pediatrics》期刊，具体为第89卷第1期，出版时间为1992年1月，论文标题为“The Denver II: A Major Revision and Restandardization of the Denver Developmental Screening Test”。
二、 学术背景与研究目的
本研究属于儿童发育与行为儿科学领域，核心是针对广泛使用的丹佛发育筛查测验（Denver Developmental Screening Test, DDST）进行系统性修订与重新标准化。DDST自1967年发布以来，已在全球范围内被广泛用于评估婴幼儿及学龄前儿童的发育状况，并在多个国家进行了重新标准化。然而，经过23年的使用，测试使用者提出了诸多关切，主要包括：1）需要增加更多的语言评估项目；2）1967年的常模数据是否仍适用于1990年代的儿童；3）部分DDST项目的施测和评分存在困难；4）测验在不同亚组（如不同种族、性别、母亲教育水平、居住地）儿童中的适用性问题；5）测试有时被不准确施测或解释的问题。
这些关切促使研究团队决定对测验进行全面修订。本研究的主要目标包括：开发一个包含更多语言项目的测验池；在更具代表性且符合当代人口特征的样本上建立新的常模；改进项目的施测与评分方式；评估并最小化不同亚组间的差异；开发新的培训材料以确保施测的准确性；并最终形成一个更新、更可靠、更有效的发育筛查工具，即Denver II。
三、 详细研究流程
本研究是一项大规模的心理测量学标准化研究，流程严谨且复杂，主要包含以下几个关键步骤：
1. 潜在项目池的开发： 研究团队首先对原有的DDST项目进行了全面审查。最终保留了82个原项目，修订了21个项目，并新增了43个项目。此外，一些项目包含多个子部分（例如“叠积木”：一层、两层、三层等），每个子部分被视作独立项目；另一些项目可通过家长报告或观察者评分两种方式记录，也被分别处理。由此，研究者构建了一个包含336个潜在项目的项目池。每个项目被归入四个发育能区之一：个人-社交、精细动作-适应、语言、粗大动作。同时，为每个项目制定了详细的施测和评分指导，以解决前述关切。
2. 样本设计： 由于经费和时间限制，同时为确保有足够样本量进行有效的亚组比较，研究采用了配额抽样法。考虑到幼儿发育变化迅速，样本设计确保在低龄段抽取更多儿童，以便在确定每个项目通过率（25%、50%、75%、90%）的年龄点时具有同等的精确度。样本来自科罗拉多州，旨在反映该州儿童在关键人口变量上的分布。抽样分层基于以下变量： * 母亲教育水平：少于12年级、完成12年级、13年级或以上。 * 种族：黑人、西班牙裔、白人。 * 性别：男、女。 * 居住地：城市（人口≥50，000）、半农村（人口2，500-50，000）、农村。
最终标准化样本由两部分组成：丹佛县样本和科罗拉多州其他20个县的样本。通过分层配额抽样，最终获得了2096名儿童的有效样本（丹佛县1039名，其他县1057名），完成了95%的配额目标。
3. 数据收集： 研究培训了17名主试，要求他们在连续5次测试中达到至少90%的评分者间一致性，方可开始数据收集。研究结束时，对收集了80%以上数据的7名主试进行了再次核查，结果显示施测前后评分者间信度均保持在92.4%至98.2%的高水平。除了记录每个儿童通过或未通过每个项目外，主试还需评估并记录儿童在测试中的行为（依从性、对周围兴趣、恐惧程度、注意力持续时间）和言语清晰度。这些行为评级的目的是帮助主试更系统化地关注儿童与环境互动的风格。
4. 统计分析： * 年龄常模确定：使用逻辑回归分析，为336个潜在项目分别确定了25%、50%、75%和90%儿童能通过的年龄点。对于可通过观察和/或报告两种方式评分的项目，分别进行分析。对拟合曲线进行了“拟合优度”检验，若拟合不佳（P < 0.05），则采用修正的逻辑回归（三个逻辑样条）进行重新拟合。 * 亚组差异分析：采用向后逐步逻辑回归，识别在项目通过年龄上存在统计学显著差异的亚组变量（如母亲教育水平）。为了确定“复合”或平均百分位数，将所有显示统计学显著差异（P ≤ 0.10）的亚组，根据其在科罗拉多州人口中的比例进行加权。 * 临床显著差异定义：定义了“临床显著差异”，即某个亚组90%通过年龄与复合组90%通过年龄之间的差值，大于或等于复合年龄的十分之一。例如，若复合组90%通过某项任务的年龄是3岁8.5个月，而某亚组是4岁2个月，差值为5.5个月，大于复合年龄的十分之一（约4.45个月），则认为存在临床显著差异。 * 行为与言语评级分析：按年龄分析行为评级和言语清晰度评级的结果。
5. 最终项目筛选： 基于以下8项标准，从336个潜在项目中筛选出125个项目构成Denver II： 1. 测试材料要求（倾向于需要最少复杂材料的项目）。 2. 主试的主观评分（倾向于易于施测和评分、且受主试和儿童喜欢的项目）。 3. “拒绝”分数的百分比（倾向于拒绝率低的项目）。 4. “无机会”分数的百分比（倾向于“无机会”率低的项目）。 5. 项目信度（倾向于高信度的项目）。 6. 亚组间差异（倾向于亚组间差异小的项目）。 7. 亚组常模与复合常模间的临床显著差异（倾向于差异小的项目）。 8. 项目在12个年龄组（对应美国儿科学会健康检查周期表）中90%通过年龄点的分布（试图使各年龄组都有相对均衡的项目覆盖）。
6. 信度研究： 为确保最终测验项目的可靠性，研究团队进行了单独的信度研究。招募了34名儿童（分10个年龄组），在7-10天的间隔内由不同的主试和观察者进行两次测试。评估了四种信度：评分者间信度、5-10分钟重测信度、7-10天重测信度（同一主试和观察者）、7-10天重测信度（不同主试和观察者）。使用Kappa统计量评估评分者间和7-10天重测（同一主试）信度。结果显示，所有入选Denver II的项目均具有优秀的评分者间一致性（Kappa ≥ 0.75）；在7-10天重测信度上，59%的项目有优秀的一致性（Kappa ≥ 0.75），23%的项目一致性在可接受至良好范围（Kappa ≥ 0.40）。
四、 主要研究结果
1. 项目池分析与常模建立： 对336个潜在项目的分析产生了基于2096名儿童的最新年龄常模数据。统计分析成功识别出哪些项目在不同人口学亚组（种族、性别、母亲教育、居住地）间存在统计学显著差异和临床显著差异。例如，文中举例“说出一种颜色”项目，母亲教育水平低于12年级的儿童，其90%通过年龄比复合常模晚了5.5个月，达到了临床显著差异的标准。
2. 最终测验构成： 基于严格的筛选标准，最终形成了包含125个项目的Denver II。测验保留了个人-社交、精细动作-适应、语言、粗大动作四个能区。新的测试表格（见图2）包含了行为评定量表。Denver II筛查手册和技术手册提供了详细的施测、解释指南以及标准化数据。
3. 信度验证结果： 信度研究证实了Denver II项目具有很高的可靠性。评分者间一致性平均为99%（标准差0.01），7-10天重测信度平均为90%（标准差0.12）。这些信度指标高于原DDST。
4. Denver II与DDST的主要区别： 研究结果明确指出了Denver II相较于DDST的十项主要改进，包括：1) 语言项目增加86%；2) 包含两个发音清晰度项目；3) 采用与美国儿科学会健康检查周期表对应的新年龄刻度；4) 减少了20%的家长报告项目；5) 删除了难以施测/解释的DDST项目；6) 增加了行为观察清单；7) 定义了“可疑”项目（75%-90%同龄儿童通过但该儿童未通过）；8) 在技术手册中标识出存在临床显著亚组差异的项目；9) 基于1988-89年更具代表性的科罗拉多州样本重新标准化；10) 拥有更高的信度。
5. 效度与解释框架： 研究指出，Denver II的效度主要体现在其项目年龄常模是基于大样本、严谨的标准化过程确定的，具有很高的表面效度。它并非测量某种假设构念（如智力），而是像生长曲线一样，描述儿童掌握各种特定技能的年龄范围。关于测验结果的解释，作者提出了一个初步的框架：将未通过90%同龄儿童能通过的项目定义为“延迟”，未通过75%-90%同龄儿童能通过的项目定义为“注意”。一次测试中出现1个“延迟”和/或2个及以上“注意”，则结果评为“可疑”；出现2个及以上“延迟”，则评为“异常”。但作者强调，这只是基于临床经验的初步定义，最佳的转介标准需结合当地资源和服务可及性来制定。
五、 研究结论与价值
本研究成功完成了对DDST的重大修订和重新标准化，推出了Denver II。其科学价值在于：1) 提供了基于当代、更具代表性样本的发育里程碑常模，使评估更准确；2) 通过系统的项目分析、筛选和信效度检验，提升了测验的心理测量学品质；3) 明确了亚组差异，使专业人员能更审慎地解释来自不同背景儿童的测试结果；4) 增加了语言和行为评估内容，使筛查更全面。
其应用价值巨大：Denver II作为一个快速、标准化、可靠的发育筛查工具，能帮助儿科医生、儿童保健工作者早期识别在个人-社交、精细动作、语言、粗大动作等领域可能存在发育偏离的儿童，为早期干预提供依据。研究强调，Denver II是一个筛查工具，其结果必须结合儿童的家庭、社区、文化背景等全面信息进行解释，它旨在识别“发育未达同龄水平”的儿童，而非用于诊断特定疾病或预测远期学业能力。
六、 研究亮点
系统性与规模：研究设计严谨，从项目修订、大样本配额抽样、数据收集、复杂统计分析到信效度验证，流程完整，样本量超过2000人，确保了新常模的可靠性和代表性。
对亚组差异的关注：研究不仅进行了统计学上的亚组比较，还创新性地定义了“临床显著差异”，并将存在此类差异的项目信息收录于技术手册中，体现了对文化公平性和个体差异的深刻考量，指导专业人员避免误判。
多维度改进：修订不仅是更新常模，而是从项目内容（大幅增加语言项）、评分方式（增加行为评级）、结果解释（引入“延迟”和“注意”概念）、用户支持（开发新培训材料和视频）等多方面进行了全面升级。
实用性导向：研究充分考虑了测验在实地应用中的问题，如移除难以施测的项目、关注测试时间、开发培训材料以确保施测准确性，体现了从科研到临床应用的紧密结合。
坦诚与前瞻性：作者明确指出Denver II作为筛查工具的局限性（如不预测远期问题），强调其需结合全面评估使用，并提出了未来研究方向（如简版开发、本地化转介标准制定），展现了科学的审慎态度。
七、 其他有价值内容
研究还提及了正在进行中的工作，例如交叉验证一个仅需4-7分钟的简版Denver II。此外，作者计划开展长期研究，以建立一系列有效的评分标准，从而针对不同病因更准确地识别存在显著发育偏离的儿童。这显示了该研究领域持续发展的动态。论文最后附带的另一篇关于严重紊乱儿童磁共振成像研究的摘要，虽与Denver II研究无直接关联，但提示了同期期刊对儿童发展问题多学科关注的背景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问