分享自:

基于对抗学习框架增强LLM社交机器人的研究

期刊:anonymous acl submission

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


对抗学习框架增强的LLM社交机器人:EvoBot的设计与验证
(*Enhancing LLM-based Social Bot via an Adversarial Learning Framework*)


一、作者与发表信息

本研究由匿名作者团队提交至ACL(Association for Computational Linguistics)会议。研究代码已开源(匿名链接:https://anonymous.4open.science/r/evobot-036d),基于大规模语言模型(LLM)的社交机器人EvoBot通过对抗学习框架实现人类行为模拟能力的突破。


二、学术背景

科学领域:本研究属于自然语言处理(NLP)与社交计算交叉领域,聚焦于基于LLM的自主代理(autonomous agents)在社交媒体环境中的行为仿真。

研究动机:现有LLM在模拟人类行为时存在两大局限:
1. 个体异质性不足:模型输出易受预训练数据偏见影响,难以体现真实用户的个性化特征(如历史背景、社交关系);
2. 社会响应单一:缺乏对社交网络动态(如意见传播、信息扩散)的适应性。

目标:提出EvoBot框架,通过对抗学习(adversarial learning)同时提升生成内容的个体真实性(individual heterogeneity)和社会响应能力(social responsiveness)。


三、研究流程与方法

研究分为数据准备、对抗学习训练、多维度评估三阶段,具体流程如下:

1. 数据准备

  • 数据集:采用Twitter公开数据集Twibot-22,包含100万用户、1亿条推文及社交图谱(follower-followee关系)。
  • 预处理
    • 社区划分:通过Louvain算法识别12个高连通性社区,覆盖多语言(英语、印尼语、阿拉伯语等)和多样化网络结构(星型、网状等);
    • 用户画像摘要:使用GPT-4o-mini压缩用户账户信息(如创建时间、粉丝数)和历史推文为结构化提示词(prompt),示例见图10;
    • 去噪:移除URL、表情符号过载及不完整句子,确保监督微调(SFT)数据质量。

2. 对抗学习框架

核心设计:EvoBot(生成器)与检测器(detector)协同进化,形成动态对抗环境:
- 阶段一:监督微调(SFT)
- 基模型:Llama-2-7B-chat,通过负对数似然损失(negative log-likelihood loss)在人类用户数据上微调,学习社区语言风格;
- 输入:用户摘要(sv)及其邻居摘要(snv),输出为模拟推文(tv)。

  • 阶段二:直接偏好优化(DPO, Direct Preference Optimization)
    • 动态对抗:每轮迭代中:
    1. EvoBot生成候选推文,检测器评估其“人类似然概率”;
    2. 构建DPO数据集(xi, yiw, yil),其中yiw为被检测器判为“最人类”的推文,yil为“最机器”推文;
    3. 通过DPO损失函数(含KL散度约束)优化EvoBot,促使其生成更逼真内容;
    4. 检测器更新:用EvoBot最新输出重新训练,提升判别能力。
    • 技术亮点
    • RGCN检测器:融合用户属性(数值特征归一化、类别特征独热编码)、推文语义(RoBERTa嵌入)及社交图谱(关系图卷积网络);
    • 权重策略:检测器集成历史版本(f k = ∑wjf j),避免过拟合。

3. 实验设置

  • 硬件:8块NVIDIA RTX 3090 GPU,单社区训练耗时约10小时;
  • 参数:LoRA适配(秩r=64)、DPO超参数β=0.2,详见表7-10。

四、主要结果

1. 个体层面人类似然性

  • 检测器逃避率:EvoBot迭代版本(π₀→π₄)使检测器F1分数从0.770降至0.452(图2),表明生成内容逐渐逼近人类表达;
  • 基线对比:EvoBot显著优于GAN(F1=0.584)、原始Llama-2(F1=0.497)及无对抗训练的消融模型(表1);
  • 多样性指标:N-gram多样性(dist-1/2/3)和香农熵(Shannon entropy)随迭代提升,峰值出现在π₃(表2)。

2. 群体层面社会响应

  • 意见动态模拟:在COVID-19和俄乌冲突事件中,EvoBot生成内容的群体意见偏差(∆bias)和多样性差异(∆div)均低于基线模型(表5),如:
    • COVID-19场景:∆bias=0.072(EvoBot) vs 0.098(Llama-2);
    • 俄乌冲突场景:∆div=0.194(EvoBot) vs 0.265(Llama-2)。
  • 信息传播仿真:EvoBot更准确复现了真实信息扩散的“快速上升-平缓衰减”模式(图4)。

3. 检测器性能提升

  • 跨社区泛化:对抗训练后的检测器(f⁴)在未见社区的平均F1达0.359,优于原始检测器(f⁰: 0.314)(图3);
  • 外部数据集验证:在Cresci-15和Twibot-20上,f⁴的准确率分别提升6.62%和2.78%(表4)。

五、结论与价值

科学价值
1. 方法论创新:首次将DPO引入社交机器人训练,通过动态对抗平衡生成与检测能力;
2. 理论贡献:证明当生成器与人类数据分布一致时(q(x)=q’(x)),对抗学习全局最优解为πθ=πh(定理1)。

应用价值
- 正向:可应用于个性化对话系统、社交网络分析;
- 风险控制:检测器泛化能力提升为AI生成内容识别提供新工具。


六、研究亮点

  1. 双目标协同进化:EvoBot与检测器的对抗形成“生成-判别”闭环,突破静态数据集局限;
  2. 多层级评估体系:从个体(文本质量)到群体(社会仿真)的全方位验证;
  3. 开源贡献:完整代码及Twibot-22预处理流程公开。

七、其他

局限性
- 检测器参数需动态调优以避免过拟合;
- 大规模部署时的稳定性待验证。

伦理声明:研究遵循Twibot-22数据使用协议,采用匿名化处理,并限制生成内容审查。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com