分享自:

基于深度强化学习的虚拟治疗计划器在前列腺癌调强放射治疗计划中的应用

期刊:Medical PhysicsDOI:10.1002/mp.14114

基于深度强化学习的虚拟治疗计划系统在前列腺癌调强放疗中的应用研究

1. 研究团队与发表信息
本研究由Chenyang Shen(第一作者兼通讯作者)、Dan NguyenLiyuan ChenYesenia GonzalezRafe McBethNan QinSteve B. JiangXun Jia(共同通讯作者)合作完成。研究团队来自美国德克萨斯大学西南医学中心(University of Texas Southwestern Medical Center)的Medical Artificial Intelligence and Automation (MAIA) LaboratoryInnovative Technology of Radiotherapy Computation and Hardware (iTORCH) Laboratory。研究成果发表于期刊Medical Physics,2020年6月第47卷第6期,标题为《Operating a treatment planning system using a deep-reinforcement learning-based virtual treatment planner for prostate cancer intensity-modulated radiation therapy treatment planning》。

2. 学术背景与研究目标
研究领域:该研究属于放射肿瘤学与人工智能交叉领域,聚焦于调强放射治疗(Intensity-Modulated Radiation Therapy, IMRT)的自动化计划系统开发。

研究动机:传统IMRT治疗计划制定依赖人工反复调整参数(如剂量体积直方图DVH约束的权重与剂量阈值),耗时且受限于计划者经验。为提高效率并减少人为差异,团队提出利用深度强化学习(Deep Reinforcement Learning, DRL)模拟人类计划员的决策行为,构建虚拟治疗计划网络(Virtual Treatment Planner Network, VTPN),实现智能优化。

研究目标
- 验证VTPN在前列腺癌IMRT计划中调整治疗计划参数(Treatment Planning Parameters, TPPs)的可行性;
- 比较VTPN生成计划的质量与人工计划的差异;
- 探索DRL在放射治疗自动化中的通用性。


3. 研究方法与流程

3.1 研究框架与工具
- 优化引擎:采用内部开发的基于加权二次目标函数的逆向计划算法,目标函数包含PTV(计划靶区)和OARs(风险器官,如膀胱和直肠)的剂量惩罚项。
- TPPs调整参数:包括PTV权重(k)、OARs权重(k_bladder, k_rectum)及剂量阈值(s_bladder, s_rectum)。

3.2 VTPN设计与训练
- 网络结构:VTPN由5个子网络构成(分别对应5个TPPs),每个子网络含8个全连接层和7个ReLU激活层,输入为当前计划的DVH数据,输出为调整TPPs的动作(如增加/减少50%或10%)。
- 训练策略
- 奖励函数:基于改进的ProKnow评分系统(针对前列腺癌IMRT定制),通过平滑Sigmoid函数替代原始分段评分,强化临床优先级(如PTV剂量均匀性权重提高6倍)。
- DRL训练:10例患者数据用于训练,每例最大调整25步,采用ε-贪婪算法(初始ε=0.99,衰减率0.99/周期)平衡探索与利用。
- 数据生成:每次调整后重新优化计划,计算奖励并存储状态-动作对,通过经验回放(Experience Replay)策略更新网络参数。

3.3 评估方法
- 测试集:64例未参与训练的患者数据。
- 评分指标:原始ProKnow评分(满分9分)和修改后评分,比较初始计划与VTPN优化后的质量差异。
- 对比基准:与具有丰富经验的物理师手动优化结果对比。


4. 主要结果

4.1 训练效果
- 训练后VTPN能自主调整TPPs,逐步提升计划质量。如图4所示,一例训练患者的ProKnow评分从4.04提升至8.46(原始评分),修改后评分从5.33增至10.85。

4.2 测试集表现
- 计划质量:初始计划平均ProKnow评分为4.97(±2.02),VTPN优化后提升至8.45(±0.48),接近满分9分;修改后评分从6.19增至10.94(表1)。
- 效率:平均每例计划优化耗时约3分钟,主要时间集中于优化计算。
- 行为分析:VTPN表现出类似人类的分阶段调整策略,例如优先降低直肠剂量阈值,再优化膀胱参数,最后增强PTV均匀性(图5)。

4.3 与人工计划对比
测试案例中,VTPN计划质量与人工计划相当(平均评分约8.5),但实现了全自动化且一致性更高。


5. 结论与价值

5.1 科学意义
- 首次将DRL应用于外部放射束IMRT的智能计划制定,实现了人类计划员行为的自主编码。
- 提出了一种通用框架,可扩展至其他治疗部位(如头颈部肿瘤)或技术(如容积旋转调强治疗VMAT)。

5.2 应用价值
- 临床效益:显著减少计划制定时间,降低对人工经验的依赖,提升计划一致性。
- 技术潜力:为AI在放射治疗中的闭环决策(如实时自适应计划)奠定基础。


6. 研究亮点与局限性

亮点
1. 方法创新:通过DRL模拟人类试错学习,突破传统数学优化算法的局限性。
2. 小样本高效训练:仅需10例训练数据即可泛化至64例测试集,得益于DRL的密集状态-动作探索。
3. 临床适配性:改进的ProKnow评分系统更贴合医师的剂量优先逻辑。

局限性
1. 黑箱问题:VTPN决策过程缺乏可解释性,未来需结合可解释AI技术(如注意力机制)。
2. 计算成本:训练耗时约1周(需GPU加速),优化算法效率待提升。
3. 功能扩展:当前仅依据DVH评估计划,未来需整合3D剂量分布等更多特征。


7. 未来方向
- 集成GPU加速优化算法(如ADMM)以缩短训练时间。
- 通过逆向DRL学习医师偏好,进一步个性化奖励函数。
- 探索VTPN在多模态放疗(如质子治疗)中的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com