分享自:

AI/ML医疗器械上市后监测的通用监管框架

期刊:npj digital medicineDOI:10.1038/s41746-025-01717-9

关于美国食品药品监督管理局上市后监测体系对人工智能/机器学习医疗设备安全监管的系统性评估研究报告

本文是一项题为”A general framework for governing marketed ai/ml medical devices”的研究成果。研究作者包括Boris Babic(来自University of Hong Kong和University of Toronto)、I. Glenn Cohen(来自The Petrie-Flom Center for Health Law Policy, Biotechnology, and Bioethics at Harvard Law School和Harvard Law School)、Ariel Dora Stern(来自Hasso Plattner Institute, University of Potsdam)、Yiwen Li(University of Hong Kong & University of Toronto)以及Melissa Ouellet(Hasso Plattner Institute, University of Potsdam)。该研究发表于期刊*npj digital medicine*,其在线发布时间为2025年。

本研究旨在对现有医疗设备上市后监管体系的有效性,特别是在应对人工智能/机器学习设备独特风险方面,进行首次系统性的评估与批判性审视。研究的学术背景植根于数字医疗与卫生技术政策交叉领域。当前,美国食品药品监督管理局(FDA)已授权超过950款AI/ML医疗设备上市。尽管关于FDA对这些设备的上市前监管是否充分的讨论已有很多,但其上市后监管机制——尤其是用于追踪已上市设备安全性的主要工具,即“制造商与用户机构设备经验”(Manufacturer and User Facility Device Experience, MAUDE)数据库——却未得到充分审视。随着AI/ML技术越来越多地融入医疗设备,传统的、最初为硬件设备设计的监管框架面临新的挑战。这些挑战包括模型性能在不同人群中的漂移(如概念漂移和协变量偏移)、算法的不稳定性以及对数据偏差的敏感性等问题。这些问题往往表现为系统性的、基于群体的性能偏差,而非传统意义上的单个设备“故障”,因此难以通过现有的、基于个案事件的被动报告系统来捕捉和识别。在此背景下,本研究旨在系统评估MAUDE数据库在监测AI/ML设备安全方面的效力,探究现有体系的不足,并为改进监管框架提出具体建议。

研究工作的核心流程始于数据收集与整合。研究团队通过系统性的数据获取与分析,构建了一个独特的数据集。主要流程包括以下几个环节: 1. 识别AI/ML设备列表: 研究首先基于FDA公开发布的“人工智能与机器学习支持的医疗设备”官方清单,识别出在2010年至2023年间获得市场授权(包括510(k)和De Novo途径)的AI/ML设备。这涵盖了FDA在此期间授权的绝大多数(超过98%)AI/ML设备。 2. 获取不良事件报告数据: 研究人员从FDA的MAUDE数据库中,提取了同一时期(2010-2023年)的所有医疗设备报告。 3. 数据关联与匹配: 这是本研究的关键技术环节。团队通过FDA的设备编码(Product Code)等标识符,将第一步获得的AI/ML设备清单与第二步获取的不良事件报告进行精确关联和匹配。这个过程并非简单检索,而是需要处理复杂的编码映射和确认,以确保不良事件能准确地归因到对应的AI/ML设备。 4. 构建最终分析数据集: 经过上述匹配,研究最终获得了一个包含823个独特的、经FDA许可的AI/ML设备,这些设备在观察期内共关联到943份不良事件报告。该数据集包含了事件类型、报告者信息、设备制造商等54个相关特征变量。 5. 对比数据分析: 除了分析AI/ML设备组的数据,研究还创建了非AI/ML医疗设备的对比组,用以比较不良事件报告的集中度、事件类型分布以及数据缺失情况等特征,从而凸显AI/ML设备的特殊性。

研究的分析工作基于此数据集展开,采用了定量统计与定性案例剖析相结合的方法。定量分析包括计算不良事件在不同产品间的分布集中度、关键字段(如事件地点、报告者身份、事件日期)的缺失率,并与非AI/ML设备进行对比。定性分析则深入阅读具体的不良事件报告叙述文本,以理解事件发生的具体情境和根本原因,并评估报告分类的准确性。研究未采用任何自研的特殊算法,其核心贡献在于对现有公开监管数据的首次系统性、批判性的梳理和分析。

研究的主要发现揭示了MAUDE数据库在监管AI/ML医疗设备方面存在的几个关键、系统性的缺陷,这些发现构成了提出改进建议的基础: 第一,不良事件报告高度集中且信息价值有限。 分析显示,AI/ML设备的不良事件报告集中在极少数设备上。超过98%的AI/ML设备不良事件仅涉及不到5款设备(主要是生物梅里埃的质谱微生物鉴定系统和DarioHealth的血糖监测系统),其集中度远高于非AI/ML设备(约85%)。此外,高达90.88%的AI/ML设备报告被归类为“故障”,但案例剖析表明,许多所谓的“故障”实际上是用户操作错误(例如使用过期的试纸),而非算法或设备本身的缺陷。这突显出现有分类体系无法有效区分算法问题与人为因素,导致信号“噪音”极大。 第二,数据库存在严重的数据缺失问题。 研究定量评估了关键字段的缺失情况,发现AI/ML设备报告中的数据缺失比非AI/ML设备更为严重。例如,所有AI/ML设备报告的“事件地点”字段100%缺失(非AI/ML设备为90.1%);73%的报告缺少“报告者是否为医疗专业人员”的信息(非AI/ML设备为43%);事件日期和报告者职业的缺失率也显著更高。这些关键情境信息的缺失,使得追溯事件根源、评估设备在特定人群或使用环境下的性能变得极为困难,而这对于性能高度依赖上下文和人群特征的AI/ML设备而言至关重要。 第三,事件分类不准确且存在误导性。 研究发现MAUDE数据库中的事件分类(故障、伤害、死亡)与报告叙述的实际情况存在严重脱节。例如,两例被归类为“死亡”的DarioHealth设备报告,其叙述明确说明死亡与设备无关。另有一例心脏血流分析设备的“伤害”报告,后续调查发现是由于分析师的错误操作,而非软件本身的问题。这反映出当前系统倾向于根据患者结局(如是否发生死亡)而非事件与设备功能的直接因果联系来归类,容易导致对设备安全性的错误解读。对于AI/ML设备,由于错误根源难以界定(是算法缺陷、数据偏差还是使用不当),这种分类不准确的问题尤为突出。 第四,现有体系无法捕捉AI/ML设备的核心风险类型。 这是本研究最关键的发现。当前的不良事件报告系统是为捕捉单点、明确的硬件故障或用户错误而设计的。然而,AI/ML设备许多最重要的风险是系统性和群体性的,无法通过单个病例报告来识别。这些风险包括: * 概念漂移(Concept Drift): 模型试图逼近的输入特征与输出标签之间的真实关系随时间或场景变化而改变。例如,一个基于纽约州数据训练的ICU分诊工具,应用于加利福尼亚州时,其预测关系可能已失效,但不会触发任何单次“故障”报告。 * 协变量偏移(Covariate Shift): 模型所处理的数据的特征分布发生变化(即使输入-输出关系不变)。例如,一个基于肥胖年轻男性数据训练的糖尿病风险预测模型,应用于非肥胖老年男性时,性能可能下降。 * 算法不稳定性(Algorithmic Stability): 模型对相似输入给出差异过大的输出,导致类似病情的患者得到不一致的诊断或治疗建议。这种不公平或不可靠的性能偏差,通常需要在大量患者数据中进行比较才能发现。 这些风险代表了AI/ML技术的本质特征,但它们在当前的MAUDE报告范式中完全没有被追踪或体现。

基于上述发现,研究得出了明确的结论:现有的、以MAUDE数据库为核心的上市后监测系统,不足以有效评估已上市的AI/ML医疗设备的安全性和有效性。该系统在数据完整性、事件分类准确性方面存在严重缺陷,更重要的是,其根本设计无法应对AI/ML设备特有的、基于群体和系统的性能风险。

研究的核心价值在于其开拓性和批判性视角。它为监管机构、研究者和行业敲响了警钟,指出仅仅依赖传统的被动不良事件报告模式来监管AI/ML医疗产品是远远不够的。研究不仅诊断了问题,还系统性地提出了两种潜在的改进路径,并给出了具体建议: 改进路径一:在现有MAUDE框架内进行增强。 建议FDA改革报告要求,强制制造商定期(如每季度)提交关于其AI/ML设备的性能更新报告,内容应专门涵盖: * 概念漂移与协变量偏移监测: 当训练数据有重大更新,或设备的部署环境、目标人群发生实质性变化时,必须进行报告。 * 算法稳定性评估: 要求制造商主动监测并报告模型在不同子群体(如不同年龄、性别、种族)中的性能差异,以及对“对抗性攻击”的鲁棒性测试结果。 * 改进数据质量: 强制要求更完整、更标准化的报告字段填写,减少缺失和模糊信息。

改进路径二:超越事件报告体系,构想全新的监管范式。 鉴于AI/ML问题的复杂性,研究建议考虑更根本的变革。这包括: * 采用“营养标签”式披露: 借鉴美国卫生与公众服务部国家医疗信息技术协调办公室对预测性决策支持干预措施的要求,为AI/ML设备引入“模型卡片”。卡片需透明披露模型的训练数据构成(如人口统计学特征)、预期使用环境、已知局限性以及在特定子群体上的性能指标。这有助于用户理解设备适用范围,减少误用。 * 转向系统视角和全生命周期监管: 倡导建立一个合作、持续的监管体系,将制造商、用户(医院、医生)和监管机构纳入一个协同网络。这要求制造商提供持续的性能更新,用户接受定期培训,监管机构则动态更新披露信息和监管要求。FDA提出的“全产品生命周期”(Total Product Life Cycle, TPLC)监管方法正体现了这一精神。

本研究的主要亮点在于:第一,开创性。 这是首次对美国FDA的AI/ML医疗设备上市后监测体系进行的系统性实证评估,填补了该领域的研究空白。第二,深刻的批判性。 研究不仅指出了数据缺失等表面问题,更深刻揭示了现有监管框架与AI/ML技术本质属性之间的根本性不匹配。第三,建议的实践性与前瞻性。 提出的改进建议具体且具有可操作性,既包括对现有体系的渐进式改良,也探讨了更具变革性的监管范式转型,为未来的政策制定提供了清晰的理论依据和路线图参考。第四,数据支撑扎实。 研究基于对近千份真实监管报告的分析,其结论具有实证数据的强有力支持。

总而言之,这项研究清晰地表明,在AI/ML技术重塑医疗实践的今天,监管科学必须同步进化。仅仅将旧时代的监管工具应用于新时代的技术产物是危险的。该研究为构建一个更适配、更透明、更主动的AI/ML医疗设备上市后监管新时代,奠定了关键的实证基础和理论框架。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com