这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
本研究由以下学者合作完成:
- Yancan Mao(新加坡国立大学,National University of Singapore)
- Jianjun Zhao(华中科技大学,Huazhong University of Science and Technology)
- Shuhao Zhang(新加坡科技设计大学,Singapore University of Technology and Design)
- Haikun Liu(华中科技大学)
- Volker Markl(柏林工业大学,Technische Universität Berlin)
论文标题为《MorphStream: Adaptive Scheduling for Scalable Transactional Stream Processing on Multicores》,发表于ACM期刊《Proceedings of the ACM on Management of Data》(Proc. ACM Manag. Data),2023年5月,卷1,第1期,文章编号59,共26页。
本研究属于流处理系统(Stream Processing)与事务处理(Transactional Processing)的交叉领域,聚焦于事务性流处理引擎(Transactional Stream Processing Engines, TSPEs)的调度优化问题。传统流处理引擎(如Apache Flink、Storm)因缺乏对共享可变状态(Shared Mutable States)的高效并发支持,难以满足新兴应用(如实时金融交易、流式账本)的需求。现有TSPEs(如S-Store、TStream)虽通过分区或事务分解提升性能,但其非自适应调度策略无法动态适应负载依赖关系的变化,导致多核并行潜力未充分释放。
提出MorphStream,一种基于任务依赖图(Task Precedence Graph, TPG)的自适应调度框架,通过动态调整调度策略的三个维度(探索策略、调度单元粒度、中止处理机制),实现高吞吐、低延迟的事务性流处理。
MorphStream的核心创新是三维调度决策模型:
1. 探索策略:
- 结构化探索(S-Explore):按分层辅助结构(类似BFS/DFS)并行探索,减少协调开销。
- 非结构化探索(NS-Explore):随机遍历依赖就绪的操作,灵活性高但消息传递开销大。
2. 调度粒度:
- 细粒度(F-Schedule):以单操作为单位,提升并行性但上下文切换开销高。
- 粗粒度(C-Schedule):以操作组为单位,减少切换但可能因循环依赖降低性能。
3. 中止处理机制:
- 积极中止(E-Abort):立即回滚失败操作,减少计算浪费。
- 惰性中止(L-Abort):批量处理中止,降低同步开销但可能重复计算。
此研究为事务性流处理领域树立了新的性能标杆,其方法论与开源实现将显著影响未来系统设计方向。