本文是一项发表于《研究政策》(research policy)期刊2022年卷的研究报告,旨在解决识别突破性创新(breakthrough innovations)在实证研究中所面临的数据与方法挑战。该研究由Giovanna Capponi(乌得勒支大学,荷兰)、Arianna Martinelli和Alessandro Nuvolari(均为意大利圣安娜高等学校)共同完成,论文于2021年9月在线发表。
研究的学术背景植根于创新与技术变革领域。突破性创新通常被定义为显著偏离现有实践、具有重塑市场或开创全新技术轨道的潜力的创新。它们在技术进步中扮演着“创造性破坏”的关键角色。然而,尽管其重要性得到公认,但如何在大规模专利数据中有效识别突破性创新一直是个难题。传统方法主要依赖专利计量指标,如专利被引次数(forward citations)、专利家族规模(family size)、权利要求数量(claims)和续费年限(renewals),这些指标虽然能够反映专利的技术价值或经济价值,但存在明显局限:不同指标可能捕获价值的不同维度,且这些指标与专利所代表发明在实际世界中的商业化成功(经济意义)之间的关联度常被质疑。简言之,已有的度量方法在同时捕捉创新的技术意义和经济意义方面存在不足,且数据稀缺阻碍了对此类创新的综合性研究。因此,本研究的主要目标是开发一种新方法,能够大规模识别兼具技术价值和已验证商业成功的突破性创新专利,并利用由此产生的数据集,重新审视突破性创新的来源。
研究的详细工作流程系统且严谨,主要包含以下几个关键步骤: 第一步是数据准备与样本构建。研究以英国“女王企业奖”(Queen’s Award for Enterprise, QAI)中的“创新奖”获奖成果作为外部验证标杆。该奖项历史悠久,评审严格,旨在表彰在英国实现显著商业成功的卓越创新,因此获奖创新被认为兼具技术新颖性和已验证的经济价值。研究人员收集了1976年至2015年间共1,234项获奖创新信息,并将它们与专利数据进行匹配。具体而言,先将获奖公司名称与企业数据库(Amadeus)匹配,获取其专利列表;再根据奖项申请规则(需提供2-5年商业成功证明),在专利申请日与获奖日之间设定合理的时间窗口,手动筛选出与获奖创新对应的专利族(patent family)。最终,共有401项获奖创新匹配到了1,468个专利族,其中在美国专利商标局(USPTO)有申请的专利族占49%。考虑到美国专利数据的可获得性与国际化申请可能暗示的更高商业价值,研究选择聚焦于USPTO专利。
第二步是构建用于训练模型的“样本内”(in-sample)数据集。研究人员以所有拥有至少一项QAI匹配专利的公司为对象,将这些公司拥有的所有USPTO专利(包括匹配上的QAI专利和未获奖的其他专利)构成“样本内”数据集。这样做的目的是在拥有相似资源和能力的同一组创新者内部进行比较。该样本内数据集包含9,638项专利,其中524项为QAI专利(5.44%),9,114项为控制组专利。
第三步是模型构建与参数优化。研究以“是否为QAI专利”作为因变量,选取了四个广泛使用的专利价值指标作为自变量:续费年限、前向引用次数的对数、专利家族规模的对数、权利要求数量的对数。同时控制了申请年份和技术领域(基于IPC分类)的固定效应。研究采用逻辑回归(logit)模型进行拟合。关键创新在于如何设定阈值以最佳地区分QAI专利。研究没有简单地采用最大化整体分类准确率的阈值(通过接收者操作特征曲线,ROC curve确定),因为样本内非QAI专利占绝大多数,这会导致模型倾向于将大多数专利预测为非突破性,从而可能遗漏真正的突破性创新。相反,研究引入了决策曲线分析(Decision Curve Analysis, DCA)方法。DCA允许研究者根据对“误报”(将非突破性专利误判为突破性)和“漏报”(未能识别出真正的突破性专利)相对危害的主观判断,选择一个最优的阈值概率。通过比较不同模型在不同阈值下的净收益(Net Benefit),研究最终选择了包含所有四个专利指标的综合模型(表3中的模型6),并将阈值概率设定为0.19。这个相对较高的阈值旨在严格控制误报率,确保被归类为突破性的专利具有更高的置信度。
第四步是“样本外”(out-of-sample)预测与突破性创新识别。构建一个“全样本”(full sample),包含所有由英国申请人在1976年至2013年间提交的USPTO专利(共138,467项),其中已包含了样本内数据。然后,使用在样本内得到的最佳模型(模型6)的参数,计算全样本中每项专利被预测为突破性创新(即QAI专利)的概率。将阈值概率设定为0.19,将概率大于等于此阈值的专利归类为“预测的突破性创新”。该方法最终在全样本中识别出17,176项突破性专利(占12.4%)。
第五步是稳健性检验。研究从经济和技术两个维度验证了所识别突破性创新的有效性。在经济维度,将预测结果与Kogan等人(2017)基于股票市场反应估算的专利货币价值数据进行比较。回归分析表明,在控制其他因素后,预测的突破性专利与更高的估算货币价值显著正相关,而单纯的QAI专利在全样本背景下则失去了显著性,这表明本研究的方法比单纯使用获奖标签更能在大规模数据中筛选出高经济价值的专利。在技术维度,研究考察了预测的突破性专利对其所在技术领域(细化至IPC小组)后续创新活动的影响。通过面板数据回归发现,一项预测突破性专利的出现,会显著增加其后十年内该技术领域的专利申请数量。而进行安慰剂检验(人为地将“突破”时间提前五年)后,这种效应消失,从而证实了所识别突破性专利确实具有引领技术轨迹发展的潜力。
第六步是应用分析:探究突破性创新的来源。利用新构建的数据集,研究重新审视了关于不同创新主体(个人、公司、公共机构)产生突破性创新能力的争论。逻辑回归分析结果显示:与公司相比,独立发明人和公共机构(如大学、政府实验室)的专利被预测为突破性创新的几率分别要低35%和20%。这一发现支持了公司在将发明转化为商业成功方面更具优势的观点。此外,团队合作总体上能提高产生突破性创新的几率,但这种正面效应主要体现在公司为申请人的情况下。有趣的是,对于公共机构,团队合作反而显示出轻微的负面影响,这可能意味着在公共研究环境中,个体研究者享有的智力自由与机构支持的结合,有时比团队合作更有利于产生突破性成果。研究还发现,申请机构过去十年的专利申请经验(即“在位者”身份)与产生突破性创新的概率负相关,这支持了“在位者诅咒”的论点。
本研究的结论是,提出并验证了一种基于外部商业成功验证(奖项)来大规模识别突破性专利的新方法。该方法的核心贡献在于,通过结合多种专利指标并利用DCA选择保守阈值,能够有效地从海量专利中筛选出那些既具有技术影响力又经过市场验证的高价值创新。基于此方法构建的数据集为研究突破性创新的特征、动态和来源提供了宝贵的资源。
研究的科学价值与应用价值体现在多个方面。首先,方法论上,它弥合了专利计量指标与创新实际商业成功之间的鸿沟,提供了一种更可靠、可复制的识别突破性创新的框架。该方法原则上可应用于其他国家的奖项或成功创新数据集。其次,实证贡献上,它生成了一个涵盖近四十年、包含超过1.7万项突破性创新的新数据集,极大地丰富了该领域的可用数据。第三,通过应用此数据集,研究为关于不同创新主体角色的长期争论提供了新的证据,揭示了公司、个人和公共机构在产生商业成功突破性创新方面的差异化表现,并暗示了公共研究机构中个体研究者环境的独特性。
本研究的亮点在于:1) 方法新颖性:创造性地将权威商业奖项作为外部验证标准,结合多维度专利指标和决策曲线分析,避免了传统方法中阈值选择的任意性,并优先控制了误报率。2) 数据价值:产出并公开了一个大规模的、经过验证的突破性专利数据集,为后续研究提供了重要基础。3) 交叉验证全面:不仅从经济价值(股票市场估值)角度,还从技术影响力(引导后续创新)角度验证了所识别突破性创新的有效性,增强了结论的说服力。4) 对经典问题的再审视:利用新数据重新探讨了突破性创新的来源,得出了细致且具有启发性的结论。
此外,研究在附录中还利用新数据集对英国1976-2013年间突破性创新的技术领域分布和演变趋势进行了初步描述性分析。发现突破性创新在时间上呈现集聚现象(如1980年代和2000年代),在领域上高度集中于电气工程(特别是计算机技术、电信),并随时间推移从专业化供应商主导的科学基础型领域转变。这些发现为进一步分析技术变革的长期模式提供了线索。
尽管存在一些局限性,如数据匹配过程耗时、二元分类简化了专利价值的连续谱系、无法量化每项专利的技术与经济价值的相对贡献等,但本研究无疑为突破性创新的实证研究开辟了一条富有前景的新路径,推动了更贴近创新现实价值的测量与理解。