本文介绍的学术论文《A Loop-Break Decision Feedback Equalizer for DAC/ADC-DSP-Based Wireline Transceivers》发表在 IEEE Transactions on Circuits and Systems—I: Regular Papers 第71卷第11期,出版时间为2024年11月。该研究由韩国大邱庆北科学技术院(DGIST)电气工程与计算机科学系的Donggeon Kim、Yujin Choi、Jaewon Lee、Seoyoung Jang、Sungyu Song和Gain Kim,以及IBM Research Europe - Zurich Laboratory的Matthias Brändli、Thomas Morf、Marcel Kossel和Pier-Andrea Francese共同完成。本文属于一项关于高速有线通信接收机中数字信号处理(DSP)关键模块设计的原创性研究。
学术背景 该研究领域属于集成电路与高速有线通信系统设计,具体聚焦于数字接收机中的判决反馈均衡器(Decision Feedback Equalizer, DFE)架构创新。随着超级计算平台和数据中心的迅猛发展,服务器间及芯片间链路对通信带宽的需求呈指数级增长。为了满足这一需求,每通道的数据速率大约每四年翻一番。当数据速率超过56 Gb/s后,四级脉冲幅度调制(Pulse Amplitude Modulation-4, PAM-4)因其更高的频谱效率成为主导调制方案。与此同时,接收机架构也从纯模拟均衡转向基于模数转换器(ADC)和数字信号处理器(DSP)的方案,以实现对信道损耗更精确、更强大的补偿。
在ADC-DSP接收机中,前馈均衡器(FFE)易于通过并行和流水线结构实现,但DFE由于其符号级的反馈环路,存在严格的时间约束。传统上,采用环路展开(Loop-Unrolled, LU-DFE)和前瞻(Look-Ahead, LA-DFE)技术来缓解这一瓶颈。然而,随着数据速率进一步提升(如112 Gb/s甚至224 Gb/s PAM-4),LA-DFE的设计复杂度(尤其是其多路复用器链的长度)会急剧增加,导致芯片面积和功耗显著上升。因此,研究的目标是提出一种新颖的DFE架构,能够在保持与传统DFE(包括LU-DFE和LA-DFE)功能等效的前提下,显著降低面积开销,并进一步放宽反馈时序约束。
详细工作流程 本研究包含设计、分析、仿真验证和实测验证四个主要环节,研究对象分别是提出的环路断开判决反馈均衡器(Loop-Break DFE, LB-DFE)的电路架构、综合后的版图面积、功能等效性以及实际均衡性能。
第一环节:LB-DFE架构设计与原理阐述。 研究团队提出的核心思想是打破DFE的反馈环路,并行计算多个子DFE链,然后通过后处理逻辑选择正确输出。具体工作流程如下: 1. 架构分解: 将整个DFE链(例如,对应DSP 64路并行处理)划分为多个“环路段”(Loop Segment)。每个环路段的长度(即包含的符号数量)由前瞻因子(Look-Ahead Factor, Lf)决定。例如,对于64路并行(k=64)和Lf=8的设计,整个DFE链被均匀划分为8个环路段,每个段处理8个连续的符号。 2. 并行子链计算: 在每个环路段内部,不是依赖前一个符号的真实反馈来启动计算,而是同时启动N条并行的子DFE链(对于PAM-4,N=4)。这N条子链分别假设自己的起始“种子符号”为所有可能的PAM-4电平值(即00, 01, 10, 11)。每条子链内部采用类似LU-DFE的结构进行计算,生成该环路段内所有符号的输出候选值。由于这N条链是并行且独立计算的,因此不构成关键时序路径。 3. 重叠电路与选择候选生成: 每个环路段的末尾,其最后输出的符号(对于每条子链)将被送入下一个环路段的“重叠电路”。重叠电路根据上一个环路段的真实最终输出(该信息在下一个时钟周期确定),生成用于选择当前环路段哪条子链输出正确的“选择符号候选值”。这个选择过程本身也由一个小型多路复用器(MUX)链实现,但其长度远小于整个DFE链。 4. 环路选择单元与最终输出: 所有环路段的输出(包括输出符号候选和选择符号候选)被锁存到寄存器。在下一个时钟周期,一个专门的“LB选择单元”(LB Select Cell, LSC)开始工作。LSC内部包含一个“前级单元”(Pre-Cell)和一个“后级单元”(Post-Cell)。前级单元是一个MUX链,它根据已知的第一个环路段的正确种子符号(由上一个时钟周期的LSC确定),依次递推地确定每个环路段应选择的子链索引。一旦确定了每个环路段的正确子链索引,后级单元便以并行的方式,从各个环路段对应的输出符号候选集合中,选出最终的DFE输出符号。
整个LB-DFE的数据流可以概括为:在一个时钟周期内,所有环路段并行计算所有可能的子DFE链结果;在下一个时钟周期,LSC串行但快速地(MUX链短)确定并选择出正确的最终结果。这样,关键的时序路径被限制在单个环路段内部的LU-DEF链长度加上LSC中较短的MUX链,从而实现了时序放松。
第二环节:性能分析与面积对比。 研究团队使用Synopsys Design Compiler工具,在28纳米CMOS工艺下,对提出的LB-DFE与传统的LA-DFE进行了综合与比较。分析的关键参数包括多路复用器数量、关键路径延时和芯片面积。 1. 多路复用器数量建模: 论文推导了LA-DFE和LB-DFE所需MUX数量的公式。LA-DFE的MUX数量与前瞻因子Lf和并行度k成正比(公式:MUX_LA-DFE ≈ (Lf * N) * k)。而LB-DFE的MUX数量主要与并行度k和PAM阶数N相关,对Lf不敏感(公式:MUX_LB-DFE ≈ (N+1) * k + Lf)。这意味着当需要较大的Lf来满足高频时钟要求时,LB-DFE在面积上的优势会非常明显。 2. 面积对比实验: 针对112 Gb/s PAM-4、875 MHz DSP时钟、64路并行的场景,研究人员对比了不同Lf下LA-DFE和LB-DFE的面积。结果显示,当Lf=16时,LB-DFE相比LA-DFE实现了高达54%的面积节省。即使Lf较小时(如Lf=4),由于非MUX逻辑(加法器、判决器等)占主导,两者面积接近,但LB-DFE仍稍小或相当。研究还展示了包含完整接收机DSP(含FFE等模块)的版图布局,LB-DFE版本的总DSP面积减少了约9.2%。 3. 关键路径分析: 论文详细分析了LB-DFE中两条潜在的时序关键路径:环路段内部的并行LU-DFE链,以及LSC中的前级单元MUX链。通过合理划分环路段(例如Lf=8)并可在LSC中应用流水线甚至进一步的“前瞻”技术,可以确保关键路径延时满足目标DSP时钟周期要求。
第三环节:基于RFSOC平台的实时功能验证。 为了在实际硬件上验证LB-DFE的功能和可行性,研究团队基于AMD ZCU111 RFSOC评估板构建了一个实时的DAC/ADC-DSP收发机验证平台。 1. 验证对象与设置: 平台的核心是在ZU28DR RFSOC的可编程逻辑(PL)中实现的完整收发机DSP数据通路,其中DFE模块可以配置为LA-DFE或LB-DFE模式。数据速率设置为6 Gb/s PAM-4(对应3 GS/s的DAC/ADC采样率和46.875 MHz的DSP时钟),以匹配平台数据转换器的能力。 2. 实验过程: 通过PCB走线、连接器和电缆构建了具有不同插入损耗的信道(在1.5 GHz Nyquist频率下分别为18 dB和25 dB)。发射端DSP生成PRBS-15 PAM-4测试序列,经过DAC转换为模拟信号,通过信道传输,再由ADC采样回数字域,最后由接收端DSP进行实时均衡。均衡器系数采用符号-符号最小均方(SS-LMS)算法进行自适应收敛。 3. 数据采集与分析: DSP内部集成了直方图扫描仪和误码率(BER)检查器。研究人员测量了在不同信道条件和均衡器配置(仅FFE、FFE+DFE)下,ADC输出、FFE输出以及DFE输入节点(用于可视化)的信号直方图,并记录了相应的BER值。通过比较LB-DFE和LA-DFE模式下的BER性能,来验证两者功能等效性。
第四环节:基于测试设备的高速软件后处理验证。 为了在更接近目标应用的数据速率下进行验证,研究团队使用高端测试设备进行了补充实验。 1. 实验设置: 使用Keysight M8196A任意波形发生器(AWG, 80 GS/s DAC)发送40 GBaud(80 Gb/s)PAM-4信号,通过差分电缆传输。使用Agilent DSAX96204Q实时示波器(160 GS/s ADC, 39 GHz带宽)捕获信号。由于带宽限制,实际以40 GS/s的有效波特率对捕获的波形进行亚采样。 2. 数据处理流程: 将捕获的约2500万个有效符号数据导入个人电脑(PC),在软件中实现一个21抽头的FFE和一个1抽头的LB-DFE算法进行后处理均衡。软件LB-DFE严格遵循论文中描述的硬件架构算法(论文中给出了伪代码算法1和算法2)。 3. 分析内容: 观察并记录了软件均衡前后信号的直方图变化,并通过软件计算了误码率,以评估LB-DFE在高速率下的均衡能力。
主要结果 1. 面积优势结果: 综合结果表明,在28纳米工艺下,针对112 Gb/s PAM-4(875 MHz DSP时钟, 64路并行)的设计,LB-DFE相比LA-DFE能实现显著的面积节省。面积节省比例随Lf增大而增加,在Lf=16时达到54%的峰值。即使对于完整的接收机DSP,LB-DFE也带来了整体面积约9.2%的减少。多路复用器计数分析证实,LB-DFE的面积增长对Lf不敏感,而LA-DFE的面积随Lf线性增长。 2. 功能等效性验证结果: RFSOC平台的实时硬件测试结果明确显示,在6 Gb/s数据速率下,对于18 dB和25 dB损耗的信道,LB-DFE与LA-DFE实现了完全相同的误码率性能。例如,在25 dB损耗信道下,仅使用9抽头FFE时BER为7.1e-5,而增加1抽头LB-DFE(或LA-DFE)后,BER改善至2.4e-7。这强有力地证明了LB-DFE在功能上与常规DFE实现方式完全等效。 3. 高速软件验证结果: 基于AWG和示波器的80 Gb/s PAM-4测量表明,在软件中实现的LB-DFE结合21抽头FFE,能够有效均衡具有25.2 dB Nyquist损耗的信道,显著改善了信号眼图并降低了误码率,展示了该架构处理高速信号的能力。 4. 时序分析结果: 论文的理论分析表明,通过合理设计环路段长度和在LSC中应用技术(如流水线、小规模前瞻),LB-DFE可以达到与LA-DFE相同水平的时序松弛度,从而满足超高数据速率下的反馈环路闭合时间要求。
这些结果层层递进:首先,理论架构和面积分析表明了LB-DFE的潜在优势;其次,RFSOC实时硬件验证证明了其功能正确性和实际可行性;最后,高速软件后处理实验将其性能验证延伸到了更接近商用速率的范畴。所有结果共同支撑了论文的结论。
结论与价值 本研究的结论是,所提出的环路断开判决反馈均衡器(LB-DFE)是一种面积高效且能有效放宽时序约束的数字DFE架构。它在功能上与所有现有的DFE实现技术等效,但在芯片面积上具有显著优势,特别是在需要高前瞻因子来满足超高速收发机时序要求的场景下。
该研究的科学价值在于为数字DFE设计提供了一种新颖的、基于“并行预计算与后选择”的架构范式。它巧妙地通过引入“环路段”和“选择单元”的概念,将原本串行紧密耦合的DFE反馈环路,解耦为可高度并行的计算部分和快速串行的选择部分,从而在深亚微米工艺下更好地平衡了速度、面积和功耗。
其应用价值非常直接且重要:随着数据速率向224 Gb/s及更高发展,以及可能出现更高阶的PAM调制(如PAM-8),接收机DSP中DFE模块的面积和功耗开销将成为一个严峻挑战。LB-DFE为设计下一代高速有线通信收发机芯片提供了一个极具吸引力的DFE实现方案,有助于在满足严苛性能指标的同时控制芯片成本和功耗。
研究亮点 1. 架构创新性: 提出了“环路断开”的核心思想,通过为所有可能的起始符号并行计算子DFE链,并结合后处理选择逻辑,实现了对传统DFE反馈环路的根本性重构。这种类似于“进位选择加法器”的思路在DFE设计中具有很高的新颖性。 2. 显著的工程优势: 在保证功能完全等效的前提下,实现了相比主流前瞻DFE(LA-DFE)最高达54%的面积节省。这对于面积和功耗敏感的商业芯片设计具有重大意义。 3. 完备的验证体系: 研究不仅进行了传统的电路综合与面积对比,还创新性地利用RFSOC平台进行了完整的、实时的收发机系统级功能验证,并在实际信道上测量了误码率,证明了设计的可行性和可靠性。此外,还通过高端测试设备进行了高速率软件仿真验证,构成了从理论、仿真到硬件原型、再到高速行为验证的完整证据链。 4. 可扩展性与前瞻性: 论文指出,LB-DFE的优势在更高阶PAM调制和更大并行度下将更加明显,为未来通信标准演进所需的技术提供了储备。
其他有价值内容 论文还详细对比了LB-DFE与滑动块DFE(SB-DFE)等其他架构,指出SB-DFE虽然能实现多抽头,但会引入很大的延迟,而LB-DFE主要解决单抽头DFE在超高速下的面积效率问题。同时,论文也坦诚指出了LB-DFE目前实现多抽头DFE仍面临面积指数增长挑战,这为后续研究指明了方向。附录中提供的LB-DFE环路段和选择单元的伪代码算法,清晰揭示了其工作原理,增加了研究的可复现性。