基于深度强化学习的头颈癌放射治疗智能自动计划系统研究
一、主要作者及机构
本研究的通讯作者为Yin Gao(美国德克萨斯大学西南医学中心放射肿瘤学系)和Xun Jia(约翰霍普金斯大学放射肿瘤学与分子放射科学系),其他作者包括Yang Kyun Park。研究发表于《Physics in Medicine & Biology》2024年5月刊,开放获取。
二、学术背景
科学领域与背景
头颈癌(H&N)放射治疗计划复杂性高,需平衡多靶区(不同处方剂量)与危及器官(OARs)的剂量限制,传统人工计划依赖经验且耗时长。已有自动化方法(如基于知识的计划、多目标优化)存在泛化性不足等问题。
研究动机
团队前期在前列癌(相对简单靶区)中成功开发了虚拟治疗计划机器人(VTP),本研究旨在将其扩展至头颈癌这一更具挑战性的领域,解决多处方剂量、靶区与OARs毗邻等复杂场景的自动化计划问题。
三、研究流程与方法
1. VTP系统架构
- 分层决策网络:简化了前期提出的三层次网络(HieVTP),保留两个子网络:
- 参数网络(Parameter-Net):从21维剂量学评分向量(基于临床标准ProKnow)中选择需调整的治疗计划参数(TPP)。
- 动作网络(Action-Net):决定TPP的调整方向(增减优先级)。
- 奖励函数:以ProKnow评分变化(Δψ)作为强化学习奖励信号。
临床TPS集成与自动化工作流
训练策略
评估设计
四、主要结果
1. AAMD挑战赛表现
- 初始计划:ProKnow评分139.08/150,在149份人工计划中排名第21位(人工平均127.32±13.73),靶区覆盖与OARs保护均达标。
- 适应性计划:15分钟内完成计划(人工平均耗时2.62小时),满足所有剂量要求,获效率竞赛第一名。
临床病例验证
决策行为分析
五、结论与价值
1. 科学意义
- 首次将DRL应用于头颈癌复杂计划场景,验证了单病例训练模型的泛化能力。
- 提出TPS集成的端到端自动化工作流,解决训练与临床应用平台不一致的问题。
六、研究亮点
1. 方法创新:
- 分层DRL网络简化与ProKnow评分直接输入的结合,提升训练效率。
- 首个直接利用商用TPS(Eclipse)进行DRL训练的研究,避免剂量计算偏差。
七、不足与展望
1. 局限性:单例训练导致对特殊解剖(如臂丛神经重叠靶区)的泛化不足,未来需多中心数据扩充训练集。
2. 拓展方向:整合虚拟医师模型(预测计划临床接受度)及靶区均匀性等更全面的优化目标。
(注:术语对照示例:VTP=虚拟治疗计划机器人,TPP=治疗计划参数,OARs=危及器官,DRL=深度强化学习)