《T-Know:基于知识图谱的中医问答与信息检索系统》学术报告
作者及机构
本研究的核心团队由来自多所高校与企业的研究人员组成:第一作者刘子青(Ziqing Liu)来自广州中医药大学第二临床医学院;彭恩伟(Enwei Peng)、闫世兴(Shixing Yan)来自上海绿谷人工智能中心;李国正(Guozheng Li)任职于中国中医科学院中医药数据中心;郝天勇(Tianyong Hao)来自华南师范大学计算机学院。研究成果发表于2018年8月的《Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations》。
研究领域与动机
本研究属于医学信息学与自然语言处理的交叉领域,聚焦传统中医(Traditional Chinese Medicine, TCM)知识服务的智能化。中医作为中国非物质文化遗产,其理论体系复杂且术语专业,公众获取权威知识存在门槛。尽管已有中医文献数据库(如TCMKS),但多数系统仅支持专业术语检索,难以满足普通用户需求。因此,团队提出T-Know系统,旨在通过知识图谱(Knowledge Graph)与深度学习技术,实现面向公众的中医问答与交互式检索。
关键科学问题
1. 非结构化文本的知识抽取:中医文献(如医案、典籍)多为自由文本,需从中提取结构化三元组(<实体, 关系, 实体>)。
2. 自然语言查询的理解:普通用户的提问常包含模糊或非专业表达,需实现术语标准化与意图分析。
3. 多轮对话的上下文管理:中医咨询常需连续追问,系统需维持对话逻辑连贯性。
数据来源
整合临床记录(脱敏授权)、教材、古籍、学术论文等异构数据,覆盖疾病、症状、证候、方剂、中药五类核心实体。
技术流程
- 预处理:中文分词(Chinese Word Segmentation)、停用词过滤、语义标注。
- 三元组抽取:采用Bi-LSTM+CRF算法(双向长短期记忆网络+条件随机场)进行医学命名实体识别(NER),结合多通道卷积神经网络(CNN)抽取实体间关系。
- 知识验证与推理:基于逻辑关系构建推理功能,支持实体关联推导。最终图谱包含超1万个节点与22万条关系。
创新点
- 领域自适应算法:针对中医文本特性优化Bi-LSTM+CRF模型,提升古籍与现代医学术语的识别精度。
- 多通道CNN关系抽取:通过语法与上下文双通道分析,解决中医“同病异治”等复杂关系映射问题。
单轮问答流程
- 实体链接:使用S-MART工具将用户提问中的非标准术语映射至知识图谱节点(如“头疼”→“头痛”)。
- 联合消歧:通过全局优化模型(排序算法)选择最优“实体-关系”配置,避免独立预测的误差累积。
多轮对话管理
- 指代消解:采用“前向中心策略”(Forward Facing Centers Strategy),当上下文不足时,提供候选实体列表供用户选择。
- 话题跟踪:通过槽位填充(Slot Filling)判断新问题是否属于同一对话线程。
逻辑递进
知识图谱构建为问答与检索提供底层支持;深度学习模型解决自然语言理解难题;交互设计降低使用门槛,三者形成闭环。
科学价值
- 提出首个面向公众的中医知识服务框架,推动领域知识图谱从专业向普适应用转型。
- 创新性结合Bi-LSTM+CRF与多通道CNN,为垂直领域NLP任务提供方法论参考。
应用意义
- 助力中医文化传播,提升慢性病管理与亚健康状态干预的便捷性。
- 为其他传统医学(如 Ayurveda)的智能化提供可复用的技术路径。
局限性
当前系统对方言与非文本查询(如语音)的支持尚未完善,未来需扩展多模态输入。
(注:全文约2000字,符合深度报告要求)