分享自:

Vision Transformer模型在中医舌诊图像分类中的应用研究

期刊:journal of guangxi university of science and technologyDOI:10.16375/j.cnki.cn45-1395/t.2025.05.012

基于Vision Transformer的中医舌诊图像分类研究学术报告

第一作者及机构
本研究的核心团队由广西科技大学周坚和教授(第一作者)领衔,联合广西高校智能计算与分布式信息处理重点实验室、广西中医药大学第一临床医学院及柳州市中医医院等多家机构共同完成。研究成果发表于《广西科技大学学报》(Journal of Guangxi University of Science and Technology)2025年第5期(Vol. 36, No. 5)。


学术背景与研究动机
中医舌诊作为“望诊”的核心手段,通过舌象特征(如舌色、苔色、裂纹等)反映人体脏腑功能状态,但其传统依赖医生主观经验,存在诊断一致性低、环境干扰大等问题。尽管卷积神经网络(CNN, Convolutional Neural Network)已应用于舌象分类,但其局部归纳偏置(local inductive bias)限制了全局特征提取能力。
本研究首次将Vision Transformer(ViT)模型引入中医舌诊领域,旨在解决以下问题:
1. 数据不平衡:舌象数据集中少数类特征(如“苔薄黄”“有瘀斑”)样本量不足;
2. 模型性能瓶颈:传统CNN对舌象多特征并行分类的准确率受限;
3. 临床需求:现有研究多聚焦单一特征,难以满足综合辨证需求。

研究目标为:通过ViT模型结合数据增强与舌体分割技术,提升6类舌象特征(苔色、舌色、质地、瘀斑、齿痕、裂纹)的分类性能,推动中医诊断标准化。


研究流程与方法
1. 数据集构建与标注
- 数据来源:柳州市某医院治未病中心提供的18,000张舌象图像,经专业团队筛选后保留6,000张高质量图像。
- 标注标准:由资深专家制定6类特征的标注规范(如“苔黄腻”“舌紫暗”),经多轮独立标注与争议图像剔除,确保标签一致性。
- 数据增强:针对类别不平衡(如“无瘀斑”4,642例 vs “有瘀斑”392例),采用随机旋转、直方图均衡化等12种增强技术,少数类样本扩增至1,559例。

2. 舌体分割预处理
- 算法选择:采用YOLOv8实例分割模型,输入分辨率640×640,基于COCO预训练权重微调。
- 训练细节:300个epoch,SGD优化器(学习率0.01),配合马赛克增强与HSV色彩扰动,分割准确率达肉眼可辨标准。
- 作用:分割后图像剔除唇齿干扰,分类准确率提升8.6%(苔色分类从77.0%至85.6%)。

3. ViT模型架构与训练
- 模型设计:基于ViT-Large/16架构,输入224×224像素图像,分为16×16图像块(patch)序列,通过线性投影嵌入D=1024维向量。
- 核心模块
- 多头自注意力(MSA, Multi-head Self-Attention):捕捉舌象全局依赖关系;
- 前馈神经网络(MLP):特征非线性变换;
- 层归一化(LayerNorm)与残差连接:稳定训练过程。
- 训练策略
- 预训练:加载ImageNet权重初始化;
- 微调:SGD优化器(初始学习率0.01,余弦退火至0.001),批量大小8,300个epoch;
- 正则化:L2权重衰减(5×10⁻⁵)与Dropout(屏蔽率0.1)抑制过拟合。

4. 性能对比实验
- 基线模型:AlexNet、VGG16、ResNet50等CNN架构;
- 评估指标:准确率(Accuracy)与召回率(Recall);
- 硬件配置:NVIDIA RTX 4090(24GB显存),训练耗时8小时。


主要研究结果
1. ViT vs CNN性能对比
ViT在5项特征分类上显著优于ResNet50:
- 苔色:85.6% vs 78.0%
- 瘀斑:98.0% vs 91.0%
- 质地:99.6% vs 92.0%
- 舌色:96.6% vs 68.0%
- 裂纹:87.8% vs 80.1%

  1. 数据增强与Dropout的贡献
  • 增强后少数类召回率提升7.12%~20.52%(如舌色从45.7%至52.9%);
  • Dropout机制使裂纹分类准确率提升超25%(从不足60%至87.8%)。
  1. 跨研究对比
  • 苔色分类:优于Li’s CNN方法(85.6% vs 75.6%);
  • 舌色分类:接近Mansour的98.3%,但数据集差异需谨慎对比。

结论与价值
科学价值
- 验证ViT在医学图像分类中的优越性,其自注意力机制更适合舌象全局特征提取;
- 提出“分割-增强-微调”联合策略,为小样本医学图像分析提供范式。

应用价值
- 临床辅助诊断:多特征并行分类框架可支持中医辨证标准化;
- 技术推广潜力:轻量化ViT或混合架构有望解决算力需求问题。

局限性
- ViT计算复杂度高(O(n²)),实时部署需优化;
- 依赖预训练数据,中医领域标注成本高。


研究亮点
1. 方法创新:首次将ViT应用于舌诊分类,突破CNN局部特征局限;
2. 工程贡献:构建高质量舌象数据集(6,000张,6类标签),公开标注流程;
3. 临床意义:多特征联合分析更贴近中医整体观,如瘀斑与舌色组合可提示血瘀证。

未来方向
- 探索知识蒸馏(Knowledge Distillation)压缩模型;
- 结合舌象动态视频分析,增强时序特征捕捉能力。

(注:文中所有术语首次出现时标注英文原文,如“自注意力机制(Self-Attention)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com