通过组合实现分布外泛化:基于Transformer中归纳头的研究

大语言模型中的分布外泛化与组合机制研究 论文背景 近年来,大语言模型(Large Language Models, LLMs)如 GPT-4 在处理新颖任务时表现出惊人的创造力,通常只需少数示例即可解决问题。这些任务要求模型在不同于训练数据的分布上进行泛化,即所谓的“分布外泛化”(Out-of-Distribution Generalization, OOD Generalization)。尽管 LLMs 取得了巨大成功,但其如何实现分布外泛化仍是一个未解之谜。本文旨在通过研究 LLMs 在隐藏规则生成的任务中的表现,特别是通过聚焦于一种称为“归纳头”(Induction Heads, IHs)的组件,揭示分布外泛化与组合机制之间的关系。 本文的研究主要针对 LLMs 在符号推理等任务中的表...

利用检索增强型大语言模型和阅读报告数据库赋能PET医学影像报告的pilot研究

大型语言模型在PET影像报告中的应用:一项结合检索增强生成模型的单中心试验研究 随着人工智能技术的迅猛发展,大型语言模型(Large Language Models, 以下简称LLM)的零样本学习能力和自然语言处理能力在医学领域引发了广泛关注。尽管LLM已经在某些医疗领域显示出改进效率和效果的潜力,但在核医学尤其是PET(正电子发射断层扫描)影像报告的应用尚属探索初期。这项研究由来自韩国首尔大学医院和首尔大学医学院的Hongyoon Choi博士及其团队完成,研究成果发表于《European Journal of Nuclear Medicine and Molecular Imaging》。 研究背景及问题陈述 PET影像在多种医学领域中应用广泛,其临床价值体现在疾病诊断、疾病分期以及疗效...

大语言模型利用电子健康记录中识别健康的社会决定因素

大语言模型利用电子健康记录中识别健康的社会决定因素 背景及研究动机 健康社会决定因素(Social Determinants of Health, SDOH)对患者的健康结果具有重要影响。然而,在电子健康记录(EHR)结构化数据中,这些因素的记录往往不完整或缺失。大语言模型(Large Language Models, LLMs)有望从EHR的叙述性文本中高通量提取SDOH,以支持研究和临床护理。然而,类别不平衡和数据限制为这种稀疏记录的关键信息带来了挑战。本文旨在探讨使用LLMs从EHR叙述性文本中提取六种SDOH类别(就业、住房、交通、父母身份、关系和社会支持)的最佳方法。 研究来源 这项研究由Harvard Medical School的Mass General Brigham人工智能...