基于人工智能辅助蛋白质设计时代下序列生物安全筛查工具局限性的研究进展报告
一、 研究团队与发表信息 本研究由来自美国微软公司首席科学官办公室(Microsoft, Office of the Chief Scientific Officer)的 Bruce J. Wittmann 与 Eric Horvitz 担任通讯作者,联合国际基因合成联盟(International Gene Synthesis Consortium, IGSC)以及来自英国伯明翰大学、RTX BBN技术公司、路易斯维尔大学、Battelle、ACLID、Twist Bioscience、Integrated DNA Technologies Inc. 和国际生物安全与生物安保科学倡议组织(IBBIS)等机构的多位研究人员共同完成。本研究是一项预印本(Preprint)工作,目前尚未经同行评审(not certified by peer review),于2026年3月5日在线发布于生物科学预印本服务器 bioRxiv,预印本识别号为 doi: https://doi.org/10.64898⁄2026.03.04.709671。
二、 学术背景与研究目的 本研究的科学领域横跨计算生物学、合成生物学与人工智能安全。随着人工智能(AI)技术的飞速发展,其在蛋白质与核酸设计领域的应用正以前所未有的速度变革着生物技术。AI辅助蛋白质设计工具能够从头设计或大幅度改造蛋白质序列,在推动药物研发、工业酶设计等正面应用的同时,也引发了新的生物安全(Biosecurity)担忧。具体而言,恶意行为者可能利用此类工具,将已知的“关注蛋白质”(Proteins of Concern, PoCs,例如毒素或病毒蛋白)通过AI进行“重新设计”,生成功能相似但序列相似性极低的“合成同源物”(Synthetic Homologs)。现有的、被全球核酸合成供应商广泛采用的生物安全筛查软件(Biosecurity Screening Software, BSS)主要依赖于与已知“关注序列”(Sequences of Concern, SoCs)的序列相似性比对来进行危险标记。因此,这些序列高度分化的合成同源物可能规避传统序列比对筛查,使得有害基因得以被合成。
研究团队在先前的工作(Wittmann et al., 2025, *Science*)中已经证实了这一漏洞的存在,但同时也证明了现有的BSS工具可以通过更新补丁来增强对AI设计合成同源物的识别能力。然而,一个更深层次的潜在威胁是:恶意行为者可能不仅订购完整的基因,而是订购更短的基因片段,再通过下游组装获得完整基因。这些片段可能更难被BSS系统检测。因此,本研究旨在评估并界定当前(尤其是经过AI抗性补丁升级后的)序列中心化BSS工具的能力极限,探究其识别合成同源物基因片段的能力。其核心目标是:第一,测试BSS工具对符合美国科技政策办公室(OSTP)框架要求(识别200个核苷酸或更长的片段)及更严苛要求(如50个核苷酸)的片段的检测效能;第二,评估当片段长度缩短至何种程度、或序列相似性低至何种程度时,现有筛查策略会失效;第三,强调开发不依赖于序列相似性的、基于功能预测等新策略的BSS工具的紧迫性。
三、 详细研究流程与实验方法 本研究是一项生物信息学分析研究,其工作流程严谨且系统,主要包括以下步骤:
1. 实验数据集构建(“碎片化”过程) 研究团队从之前证明BSS漏洞和补丁有效性的工作中,选取了用于测试的序列库。具体构建步骤如下: * 步骤1:筛选“高可能功能性”序列。 从原始研究生成的全套序列中,筛选出那些非野生型、且满足两个结构相似性指标的序列:TM-score > 0.5 且 ΔpLDDT > -10.0。这些序列被定义为“更可能保留功能的”合成同源物。 * 步骤2:筛选可被检测的序列。 从步骤1的结果中,进一步筛选出在原始研究中能够被至少三个(共四个)测试的BSS工具成功标记(即检测为危险)的序列。这确保了研究起点是那些已知可以被现有工具识别的“阳性”合成威胁序列。 * 步骤3:分层随机抽样。 为了确保样本的代表性,研究者按照生成工具、模板蛋白质以及保留残基策略的不同组合对序列进行分组,并从每个这样的分组中随机抽取最多10条序列。若某组不足10条,则全部纳入。这最终构建了一个包含5505条“高可能功能性SoC合成同源物”的实验集。 * 步骤4:构建“真阴性”对照集。 重复上述抽样流程,但应用于原始研究中的“条件生成真阴性”和“已知真阴性”序列集(即已知无害的蛋白质或生成的、预期无害的变体),最终获得1036条阴性对照序列。 * 步骤5:序列碎片化。 将上述实验集和对照集中的所有蛋白质序列,翻译回其编码DNA序列,并进行系统性的碎片化切割。研究者生成了8种不同长度的片段:25、50、75、100、125、150、175和200个核苷酸。对于25nt的片段,设置5个核苷酸的重叠;对于更长的片段,设置25个核苷酸的重叠。若某序列末尾产生的片段短于目标长度,则将其丢弃。此过程最终生成了约70万个实验集片段和约17万个对照集片段。
2. 生物安全筛查软件分析 研究评估了来自四个不同供应商(文中匿名为Provider 1-4)的BSS工具。重要的是,本研究测试了每个供应商的两种工具版本:原始版本(Tool A)和为解决AI设计威胁而升级的版本(Tool B)。对于供应商1和2,其原始Tool A本身已具备较强能力,而供应商3和4则提供了显著改进的Tool B。 * 提交与标记流程: 对于每一种片段长度,研究者为每一条完整的原始序列创建一个FASTA文件,该文件包含该序列在该长度下的所有片段。例如,实验集的5505条序列在8个长度下共生成44,040个文件。每个文件被模拟为一份客户订单,提交给各个BSS工具进行分析。每个工具对文件中的每一个片段返回一个二元标记:“标记”(Flag,视为危险)或“不标记”(No Flag,视为安全)。 * 分析层级: 研究者采用了两种分析视角: * 序列层级分析(Sequence-level Analysis): 如果一个序列的任何一个片段被标记,则该完整序列被视为被标记。这模拟了实际筛查场景:订单中任何危险信号都应触发人工审查。 * 片段层级分析(Fragment-level Analysis): 直接分析每个片段的标记结果与其序列特征(与其对应野生型片段的序列一致性百分比和最长公共子序列长度)之间的关系。这旨在探究BSS工具检测能力的根本边界。
3. 性能评估指标 研究采用马修斯相关系数作为核心评估指标。MCC综合考量了真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN),其值域为[-1, 1]。+1表示完美预测,0表示随机预测,-1表示完全反向预测。一个有效的BSS工具应具有高且为正的MCC值。此外,研究也计算并报告了真阳性率(TPR)和假阳性率(FPR)等详细数据。
四、 主要研究结果 1. 序列层级分析结果(检测有效性) 如图2和附表S1所示,不同BSS工具在检测合成同源物片段的能力上存在显著差异。 * 供应商1和2的Tool A表现稳健: 在片段长度低至约50个核苷酸时,其检测性能(高MCC、高TPR、低FPR)与检测全长合成同源物的性能基本一致,甚至超过了OSTP框架当前的筛查要求。这表明它们的工具在碎片化规避策略面前具有相当强的鲁棒性。 * 供应商3和4的原始Tool A存在明显短板: 供应商3的Tool A在检测真阳性片段(威胁片段)方面表现不佳,特别是在片段变短时,其真阳性率急剧下降,导致MCC降低。而供应商4的Tool A则呈现出相反的问题:其假阳性率在所有片段长度上都过高(例如,在50nt时FPR高达97.78%),这意味着它会错误地将大量无害片段标记为危险,虽然安全但会带来极高的运营审查成本。 * 升级版Tool B显著改善性能: 供应商3和4提供的升级版工具(Tool B)有效解决了上述问题。供应商3的Tool B在50nt及以上片段的真阳性率从接近于0提升至67%以上;供应商4的Tool B则将其假阳性率从极高水平大幅降低(例如在50nt时从97.78%降至19.88%),同时保持了高真阳性率(约88%)。这证实了通过针对性升级,BSS工具可以有效增强对AI设计且碎片化威胁的检测能力。
2. 片段层级分析结果(检测能力边界) 如图3所示,片段层级分析揭示了当前序列比对筛查策略的内在局限性。 * 检测率与序列相似度强相关: 所有工具的检测性能都呈现出共同趋势:随着合成片段与对应野生型片段之间的序列一致性百分比和最长公共子序列(LCS) 长度的下降,片段的被标记率也随之下降。这完全符合基于序列比对的筛查逻辑。 * 不同工具的“失效边界”不同: 尽管趋势一致,但不同工具的失效阈值存在差异。例如,供应商1的工具在LCS大于20时,几乎能标记100%的片段;一旦LCS低于20,性能开始下降。而序列一致性的影响在低于约30%时才变得显著。供应商2的工具性能则在LCS低于约10且序列一致性低于50%时才开始衰减。供应商3和4的Tool B也表现出类似的、依赖于多个序列度量指标的复合边界。这些“边界”清晰地描绘了当前工具的能力范围。
3. 综合结论与隐含风险 * 当前工具的防御有效性: 研究结果表明,对于目前广泛使用的AI蛋白质设计工具所能生成的合成同源物,经过AI抗性升级的序列BSS工具是有效的。即使攻击者采用“重新设计加碎片化”的组合策略,其订单仍有很高概率被现有的、已升级的工具检测出来。 * 清晰的技术局限性: 研究结果也明确指出,现有技术的有效性依赖于AI设计出的变体与野生型之间仍保持一定的序列相似性。如图3所示的性能下降曲线表明,如果未来AI设计工具能够生成功能不变但序列相似性极低(例如低于30%一致性)的蛋白质,那么现有基于序列比对的BSS工具将完全失效。 * 短片段筛查的固有挑战: 对于极短的片段(如50个核苷酸或更短),仅凭序列信息本身,预测其是否编码有害功能变得极为困难。随着片段缩短,其序列特异性降低,更可能随机出现在无害蛋白质中。虽然对于较长的工程化序列,可以通过计算折叠预测其三维结构,并将结构相似性作为比序列相似性更可靠的“功能代理”进行筛查,但对于独立的短寡核苷酸片段,此方法不可行。未来可能需要发展直接预测序列功能的新方法,或结合更广泛的上下文信息(如同批次其他序列、客户历史行为等)进行综合威胁判定。
五、 研究结论与价值意义 本研究的核心结论是双重的:一方面,它验证了经过针对性升级的现有序列生物安全筛查工具能够有效抵御当前AI辅助蛋白质设计工具所构成的、包括序列碎片化在内的规避威胁,这为产业界和监管机构提供了即时的信心和可行的技术路径。另一方面,它更深刻地揭示了当前以序列比对为核心的技术范式存在着根本性上限。研究通过量化分析,清晰地指出了这些工具性能衰减的阈值,预警了未来更强大的AI设计能力可能带来的、现有工具无法应对的生物安全风险。
其科学价值在于,首次系统地评估了AI时代下序列生物安全筛查工具应对“设计-碎片化”双重规避策略的能力边界,为这一新兴交叉领域的研究提供了关键的数据基准和方法学框架。其应用价值则直接服务于全球生物安全治理和合成生物学行业自律:研究结果为核酸合成供应商选择和改进筛查工具提供了实证依据;为政策制定者(如OSTP)更新筛查框架和阈值要求提供了科学参考;并强烈呼吁研发社区必须加快开发不依赖于序列相似性的下一代生物安全筛查技术(如基于功能的预测、上下文感知分析等),以应对未来更先进的AI设计能力所带来的挑战。
六、 研究亮点 1. 前瞻性的威胁模型: 研究不仅关注AI重新设计完整蛋白质的威胁,更进一步考虑了将合成同源物切割成短片段以规避筛查的叠加策略,构建了更贴近潜在现实攻击路径的复杂威胁模型。 2. 系统性的基准测试: 研究设计严谨,构建了大规模、分层的实验数据集和对照集,对多个主流商业/研究型BSS工具的不同版本进行了横向对比测试,结果具有高度的代表性和说服力。 3. 清晰界定能力边界: 研究结果不仅给出了“是否有效”的定性结论,更通过片段层级分析,定量地描绘了各工具性能随序列相似性下降而衰减的曲线,明确了现有技术范式的失效点,为后续技术发展方向指明了具体目标。 4. 连接研究与治理: 研究紧密对接实际政策需求(如OSTP框架),测试了符合及超出当前政策要求的片段长度,其结论对产业实践和监管政策具有直接的指导意义。
七、 其他有价值内容 * 作者利益冲突声明: 文章明确指出了作者可能存在的利益冲突,例如部分作者来自开发AI蛋白质设计技术的公司,部分来自DNA合成公司或BSS开发机构,这增加了研究的透明度。 * 对湿实验研究的呼应: 文中提及了一项后续的湿实验室研究,该研究使用良性蛋白质验证了端到端的合成同源物生成流程,发现当前测试的AIPD工具尚无法同时实现“维持功能”和“充分序列分化以规避已升级的BSS”两个目标。这从实验角度补充了本计算研究的结论,共同构建了更全面的风险评估图景。 * 数据与代码的获取途径: 研究指出相关代码和数据可向国际生物安全与生物安保科学倡议组织申请获取,体现了研究的可重复性和开放性。