这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由以下作者合作完成:
- Pranjal Aggarwal(印度理工学院德里分校)
- Vishvak Murahari(普林斯顿大学)
- Tanmay Rajpurohit(独立研究者)
- Ashwin Kalyan(独立研究者)
- Karthik Narasimhan(普林斯顿大学)
- Ameet Deshpande(普林斯顿大学)
该研究发表于KDD ‘24(第30届ACM SIGKDD知识发现与数据挖掘会议),会议于2024年8月25日至29日在西班牙巴塞罗那举行。论文标题为《GEO: Generative Engine Optimization》,并提供了代码与数据集(项目链接)。
研究领域:本研究属于自然语言处理(Natural Language Processing, NLP)与信息检索(Information Retrieval, IR)的交叉领域,聚焦于生成式搜索引擎(Generative Engines, GEs)的内容优化问题。
研究背景:
- 传统搜索引擎(如Google、Bing)通过返回网页链接列表响应用户查询,而生成式搜索引擎(如Bing Chat、Perplexity.ai)则利用大语言模型(LLMs)直接生成综合答案,减少了用户访问原始网站的需求。
- 这一转变虽然提升了用户体验,但损害了内容创作者(如网站所有者)的利益,因为他们的内容可能被直接引用而失去流量。
- 当前缺乏针对生成式搜索引擎的优化方法,传统SEO(Search Engine Optimization)策略因生成式引擎的“黑盒”特性而失效。
研究目标:
- 提出生成式引擎优化(Generative Engine Optimization, GEO)框架,帮助内容创作者提升其在生成式引擎响应中的可见性。
- 设计适用于生成式引擎的可见性指标(Impression Metrics),量化内容在生成答案中的影响力。
- 构建大规模基准数据集GEO-Bench,涵盖多样化查询与领域,以系统性评估GEO方法。
研究者将生成式引擎抽象为一个函数:
[ f_{GE}: (q_u, P_U) \rightarrow r ]
其中,( q_u )为用户查询,( P_U )为个性化信息,( r )为生成的答案。生成式引擎的核心组件包括:
1. 生成模型集合 ( G = {G_1, G_2, \dots, G_n} ):用于查询重写(Query Reformulation)、摘要生成(Summarization)等任务。
2. 搜索引擎 ( SE ):检索与查询相关的网页源 ( S = {s_1, s_2, \dots, s_m} )。
典型工作流程(以Bing Chat为例):
1. 查询重写:模型 ( G_{qr} )将复杂查询分解为子查询 ( Q_1 = {q_1, q_2, \dots, qn} )。
2. 源检索:搜索引擎 ( SE )返回排名靠前的网页源 ( S )。
3. 摘要生成:模型 ( G{sum} )为每个源生成摘要 ( Sumj )。
4. 答案合成:模型 ( G{resp} )基于摘要生成最终答案 ( r ),并内联引用源(Citation)。
GEO的核心是通过优化网页内容(如文本风格、引用结构)提升其在生成答案中的可见性。具体方法包括:
1. 权威性优化(Authoritative):增强文本的说服力与专业性。
2. 统计数据添加(Statistics Addition):用定量数据替代定性描述。
3. 引用与引文添加(Cite Sources & Quotation Addition):引入权威来源的引用。
4. 易读性优化(Easy-to-understand):简化语言以提高可读性。
5. 流畅性优化(Fluency Optimization):改进文本流畅度。
研究者构建了包含10,000条查询的GEO-Bench,覆盖以下数据源:
- MS MARCO、ORCAS、Natural Questions:来自Bing和Google的真实用户查询。
- AllSouls:牛津大学的论文题目,需多源推理回答。
- LIMA、Davinci-Debate:需复杂推理或辩论的问题。
- GPT-4生成查询:覆盖科学、历史等领域的多样化问题。
每条查询关联5个网页源,并标注领域、难度、意图等标签,以支持细粒度分析。
实验表明,GEO方法可显著提升内容可见性:
- 最佳方法(如Quotation Addition)在位置调整词数指标上提升40%,在主观可见性上提升28%。
- 统计数据添加和引用增强对事实性查询(如法律、科学)效果显著。
- 传统SEO策略(如关键词堆砌)无效,甚至降低可见性。
不同领域的优化策略效果差异显著:
- 辩论类问题:权威性优化最有效。
- 历史与社会类问题:引文添加提升明显。
- 科学与法律类问题:统计数据添加效果最佳。
GEO对搜索引擎结果页(SERP)排名靠后的网站帮助更大。例如:
- 排名第5的网站通过引用优化可见性提升115%,而排名第1的网站可能下降30%。
- 这表明GEO可帮助中小创作者在生成式引擎中“逆袭”。
该研究为生成式搜索时代的创作者经济提供了重要解决方案,同时为后续研究奠定了理论基础与实践工具。