学术研究报告:Onyx——面向可扩展高性能云交易所的网络支持系统
一、作者与发表信息
本研究的核心作者团队来自多所顶尖高校:Muhammad Haseeb、Xiyu Hao、Ulysses Butler、Anirudh Sivaraman(纽约大学);Jinkun Geng(斯坦福大学);Daniel Duclos-Cavalcanti(慕尼黑工业大学);Radhika Mittal(伊利诺伊大学厄巴纳-香槟分校);Srinivas Narayana(罗格斯大学)。研究论文《Network Support for Scalable and High-Performance Cloud Exchanges》发表于ACM SIGCOMM 2025会议(葡萄牙科英布拉),并收录于会议论文集,全文22页,DOI: 10.1145⁄3718958.3750530。
二、学术背景与研究目标
1. 科学领域:本研究属于云计算与金融科技交叉领域,聚焦于金融交易所低延迟网络架构设计,涉及网络协议(如多播树)、时钟同步、公平性调度算法等关键技术。
2. 研究动机:传统金融交易所依赖本地化基础设施(如低抖动交换机、等长电缆)保障确定性低延迟,但迁移至公有云时面临核心矛盾——云网络的“尽力而为”特性与交易所对公平性(所有参与者同时接收市场数据)和低延迟的严苛要求。现有方案(如AWS多播服务、Cloudex系统)仅支持少量参与者(约10-100个),且性能随规模扩大显著下降。
3. 研究目标:设计名为Onyx的系统,解决以下挑战:
- 出站公平性(Outbound Fairness):向1000个参与者多播市场数据时,接收时间差异≤1微秒;
- 入站公平性(Inbound Fairness):确保早生成的订单优先处理;
- 高吞吐量:支持突发流量(如市场剧烈波动时的订单洪峰)。
三、研究方法与工作流程
Onyx的核心创新在于双向覆盖树网络架构与多项优化技术,具体分为以下流程:
出站通信优化(市场数据多播)
入站通信优化(订单提交)
树结构反向复用
四、主要实验结果
1. 多播性能:
- 延迟:支持1000个参与者时,中位数多播延迟≤250µs,比AWS多播服务低50%;
- 公平性:92%分位的接收时间差≤1µs(接收者冗余可提升至99.9%分位)。
2. 订单处理:
- 吞吐量:突发流量下(20倍基准负载),Onyx的订单匹配率比Cloudex高一个数量级;
- LOQ效果:在价格重叠率𝑥/𝑦=1/11时,临界订单延迟降低70%。
3. 扩展性:
- 代理带宽为瓶颈时,支持175K条/秒的多播消息率(数据包大小466B)。
五、结论与价值
1. 科学价值:
- 提出首个支持千级参与者的云交易所网络架构,通过覆盖树与冗余机制实现亚微秒级公平性;
- 理论贡献:证明在公有云不可控环境下,通过应用层设计可逼近专用硬件的确定性性能。
2. 应用价值:
- 为中小金融机构提供低成本、高弹性的云交易方案,无需依赖云厂商的私有集群支持;
- 技术可组合性:Onyx的模块(如LOQ、多播树)可独立集成至现有系统(如Cloudex、DBO)。
六、研究亮点
1. 方法创新:
- RRPS技术首次将云网络的完全拓扑特性转化为多播路径多样性优势;
- LOQ调度器结合金融语义(价格优先级)与公平性约束,突破传统FIFO的性能限制。
2. 工程贡献:
- 开源实现(Onyx代码库)为后续研究提供基准平台;
- 在AWS/GCP实测中验证方案的普适性,规避对特定硬件的依赖。
七、其他关键内容
- 局限性:相比本地化交易所的纳秒级公平性,Onyx仍存在微秒级误差;
- 未来方向:探索FPGA加速、动态负载准入控制以进一步降低订单延迟(当前突发场景下可达毫秒级)。
(注:文中技术术语首次出现时均标注英文原文,如“扇出(Fan-out)”“中间价(Mid-price)”。)