一种用于基于DAC/ADC-DSP有线收发器的环路中断判决反馈均衡器

分享自：
一种用于基于DAC/ADC-DSP有线收发器的环路中断判决反馈均衡器

期刊:IEEE Transactions on Circuits and Systems—I: Regular PapersDOI:10.1109/TCSI.2024.3435696
本文介绍的学术论文《A Loop-Break Decision Feedback Equalizer for DAC/ADC-DSP-Based Wireline Transceivers》发表在 IEEE Transactions on Circuits and Systems—I: Regular Papers 第71卷第11期，出版时间为2024年11月。该研究由韩国大邱庆北科学技术院（DGIST）电气工程与计算机科学系的Donggeon Kim、Yujin Choi、Jaewon Lee、Seoyoung Jang、Sungyu Song和Gain Kim，以及IBM Research Europe - Zurich Laboratory的Matthias Brändli、Thomas Morf、Marcel Kossel和Pier-Andrea Francese共同完成。本文属于一项关于高速有线通信接收机中数字信号处理（DSP）关键模块设计的原创性研究。
学术背景 该研究领域属于集成电路与高速有线通信系统设计，具体聚焦于数字接收机中的判决反馈均衡器（Decision Feedback Equalizer， DFE）架构创新。随着超级计算平台和数据中心的迅猛发展，服务器间及芯片间链路对通信带宽的需求呈指数级增长。为了满足这一需求，每通道的数据速率大约每四年翻一番。当数据速率超过56 Gb/s后，四级脉冲幅度调制（Pulse Amplitude Modulation-4， PAM-4）因其更高的频谱效率成为主导调制方案。与此同时，接收机架构也从纯模拟均衡转向基于模数转换器（ADC）和数字信号处理器（DSP）的方案，以实现对信道损耗更精确、更强大的补偿。
在ADC-DSP接收机中，前馈均衡器（FFE）易于通过并行和流水线结构实现，但DFE由于其符号级的反馈环路，存在严格的时间约束。传统上，采用环路展开（Loop-Unrolled， LU-DFE）和前瞻（Look-Ahead， LA-DFE）技术来缓解这一瓶颈。然而，随着数据速率进一步提升（如112 Gb/s甚至224 Gb/s PAM-4），LA-DFE的设计复杂度（尤其是其多路复用器链的长度）会急剧增加，导致芯片面积和功耗显著上升。因此，研究的目标是提出一种新颖的DFE架构，能够在保持与传统DFE（包括LU-DFE和LA-DFE）功能等效的前提下，显著降低面积开销，并进一步放宽反馈时序约束。
详细工作流程 本研究包含设计、分析、仿真验证和实测验证四个主要环节，研究对象分别是提出的环路断开判决反馈均衡器（Loop-Break DFE， LB-DFE）的电路架构、综合后的版图面积、功能等效性以及实际均衡性能。
第一环节：LB-DFE架构设计与原理阐述。 研究团队提出的核心思想是打破DFE的反馈环路，并行计算多个子DFE链，然后通过后处理逻辑选择正确输出。具体工作流程如下： 1. 架构分解： 将整个DFE链（例如，对应DSP 64路并行处理）划分为多个“环路段”（Loop Segment）。每个环路段的长度（即包含的符号数量）由前瞻因子（Look-Ahead Factor， Lf）决定。例如，对于64路并行（k=64）和Lf=8的设计，整个DFE链被均匀划分为8个环路段，每个段处理8个连续的符号。 2. 并行子链计算： 在每个环路段内部，不是依赖前一个符号的真实反馈来启动计算，而是同时启动N条并行的子DFE链（对于PAM-4，N=4）。这N条子链分别假设自己的起始“种子符号”为所有可能的PAM-4电平值（即00, 01, 10, 11）。每条子链内部采用类似LU-DFE的结构进行计算，生成该环路段内所有符号的输出候选值。由于这N条链是并行且独立计算的，因此不构成关键时序路径。 3. 重叠电路与选择候选生成： 每个环路段的末尾，其最后输出的符号（对于每条子链）将被送入下一个环路段的“重叠电路”。重叠电路根据上一个环路段的真实最终输出（该信息在下一个时钟周期确定），生成用于选择当前环路段哪条子链输出正确的“选择符号候选值”。这个选择过程本身也由一个小型多路复用器（MUX）链实现，但其长度远小于整个DFE链。 4. 环路选择单元与最终输出： 所有环路段的输出（包括输出符号候选和选择符号候选）被锁存到寄存器。在下一个时钟周期，一个专门的“LB选择单元”（LB Select Cell， LSC）开始工作。LSC内部包含一个“前级单元”（Pre-Cell）和一个“后级单元”（Post-Cell）。前级单元是一个MUX链，它根据已知的第一个环路段的正确种子符号（由上一个时钟周期的LSC确定），依次递推地确定每个环路段应选择的子链索引。一旦确定了每个环路段的正确子链索引，后级单元便以并行的方式，从各个环路段对应的输出符号候选集合中，选出最终的DFE输出符号。
整个LB-DFE的数据流可以概括为：在一个时钟周期内，所有环路段并行计算所有可能的子DFE链结果；在下一个时钟周期，LSC串行但快速地（MUX链短）确定并选择出正确的最终结果。这样，关键的时序路径被限制在单个环路段内部的LU-DEF链长度加上LSC中较短的MUX链，从而实现了时序放松。
第二环节：性能分析与面积对比。 研究团队使用Synopsys Design Compiler工具，在28纳米CMOS工艺下，对提出的LB-DFE与传统的LA-DFE进行了综合与比较。分析的关键参数包括多路复用器数量、关键路径延时和芯片面积。 1. 多路复用器数量建模： 论文推导了LA-DFE和LB-DFE所需MUX数量的公式。LA-DFE的MUX数量与前瞻因子Lf和并行度k成正比（公式：MUX_LA-DFE ≈ (Lf * N) * k）。而LB-DFE的MUX数量主要与并行度k和PAM阶数N相关，对Lf不敏感（公式：MUX_LB-DFE ≈ (N+1) * k + Lf）。这意味着当需要较大的Lf来满足高频时钟要求时，LB-DFE在面积上的优势会非常明显。 2. 面积对比实验： 针对112 Gb/s PAM-4、875 MHz DSP时钟、64路并行的场景，研究人员对比了不同Lf下LA-DFE和LB-DFE的面积。结果显示，当Lf=16时，LB-DFE相比LA-DFE实现了高达54%的面积节省。即使Lf较小时（如Lf=4），由于非MUX逻辑（加法器、判决器等）占主导，两者面积接近，但LB-DFE仍稍小或相当。研究还展示了包含完整接收机DSP（含FFE等模块）的版图布局，LB-DFE版本的总DSP面积减少了约9.2%。 3. 关键路径分析： 论文详细分析了LB-DFE中两条潜在的时序关键路径：环路段内部的并行LU-DFE链，以及LSC中的前级单元MUX链。通过合理划分环路段（例如Lf=8）并可在LSC中应用流水线甚至进一步的“前瞻”技术，可以确保关键路径延时满足目标DSP时钟周期要求。
第三环节：基于RFSOC平台的实时功能验证。 为了在实际硬件上验证LB-DFE的功能和可行性，研究团队基于AMD ZCU111 RFSOC评估板构建了一个实时的DAC/ADC-DSP收发机验证平台。 1. 验证对象与设置： 平台的核心是在ZU28DR RFSOC的可编程逻辑（PL）中实现的完整收发机DSP数据通路，其中DFE模块可以配置为LA-DFE或LB-DFE模式。数据速率设置为6 Gb/s PAM-4（对应3 GS/s的DAC/ADC采样率和46.875 MHz的DSP时钟），以匹配平台数据转换器的能力。 2. 实验过程： 通过PCB走线、连接器和电缆构建了具有不同插入损耗的信道（在1.5 GHz Nyquist频率下分别为18 dB和25 dB）。发射端DSP生成PRBS-15 PAM-4测试序列，经过DAC转换为模拟信号，通过信道传输，再由ADC采样回数字域，最后由接收端DSP进行实时均衡。均衡器系数采用符号-符号最小均方（SS-LMS）算法进行自适应收敛。 3. 数据采集与分析： DSP内部集成了直方图扫描仪和误码率（BER）检查器。研究人员测量了在不同信道条件和均衡器配置（仅FFE、FFE+DFE）下，ADC输出、FFE输出以及DFE输入节点（用于可视化）的信号直方图，并记录了相应的BER值。通过比较LB-DFE和LA-DFE模式下的BER性能，来验证两者功能等效性。
第四环节：基于测试设备的高速软件后处理验证。 为了在更接近目标应用的数据速率下进行验证，研究团队使用高端测试设备进行了补充实验。 1. 实验设置： 使用Keysight M8196A任意波形发生器（AWG， 80 GS/s DAC）发送40 GBaud（80 Gb/s）PAM-4信号，通过差分电缆传输。使用Agilent DSAX96204Q实时示波器（160 GS/s ADC， 39 GHz带宽）捕获信号。由于带宽限制，实际以40 GS/s的有效波特率对捕获的波形进行亚采样。 2. 数据处理流程： 将捕获的约2500万个有效符号数据导入个人电脑（PC），在软件中实现一个21抽头的FFE和一个1抽头的LB-DFE算法进行后处理均衡。软件LB-DFE严格遵循论文中描述的硬件架构算法（论文中给出了伪代码算法1和算法2）。 3. 分析内容： 观察并记录了软件均衡前后信号的直方图变化，并通过软件计算了误码率，以评估LB-DFE在高速率下的均衡能力。
主要结果 1. 面积优势结果： 综合结果表明，在28纳米工艺下，针对112 Gb/s PAM-4（875 MHz DSP时钟， 64路并行）的设计，LB-DFE相比LA-DFE能实现显著的面积节省。面积节省比例随Lf增大而增加，在Lf=16时达到54%的峰值。即使对于完整的接收机DSP，LB-DFE也带来了整体面积约9.2%的减少。多路复用器计数分析证实，LB-DFE的面积增长对Lf不敏感，而LA-DFE的面积随Lf线性增长。 2. 功能等效性验证结果： RFSOC平台的实时硬件测试结果明确显示，在6 Gb/s数据速率下，对于18 dB和25 dB损耗的信道，LB-DFE与LA-DFE实现了完全相同的误码率性能。例如，在25 dB损耗信道下，仅使用9抽头FFE时BER为7.1e-5，而增加1抽头LB-DFE（或LA-DFE）后，BER改善至2.4e-7。这强有力地证明了LB-DFE在功能上与常规DFE实现方式完全等效。 3. 高速软件验证结果： 基于AWG和示波器的80 Gb/s PAM-4测量表明，在软件中实现的LB-DFE结合21抽头FFE，能够有效均衡具有25.2 dB Nyquist损耗的信道，显著改善了信号眼图并降低了误码率，展示了该架构处理高速信号的能力。 4. 时序分析结果： 论文的理论分析表明，通过合理设计环路段长度和在LSC中应用技术（如流水线、小规模前瞻），LB-DFE可以达到与LA-DFE相同水平的时序松弛度，从而满足超高数据速率下的反馈环路闭合时间要求。
这些结果层层递进：首先，理论架构和面积分析表明了LB-DFE的潜在优势；其次，RFSOC实时硬件验证证明了其功能正确性和实际可行性；最后，高速软件后处理实验将其性能验证延伸到了更接近商用速率的范畴。所有结果共同支撑了论文的结论。
结论与价值 本研究的结论是，所提出的环路断开判决反馈均衡器（LB-DFE）是一种面积高效且能有效放宽时序约束的数字DFE架构。它在功能上与所有现有的DFE实现技术等效，但在芯片面积上具有显著优势，特别是在需要高前瞻因子来满足超高速收发机时序要求的场景下。
该研究的科学价值在于为数字DFE设计提供了一种新颖的、基于“并行预计算与后选择”的架构范式。它巧妙地通过引入“环路段”和“选择单元”的概念，将原本串行紧密耦合的DFE反馈环路，解耦为可高度并行的计算部分和快速串行的选择部分，从而在深亚微米工艺下更好地平衡了速度、面积和功耗。
其应用价值非常直接且重要：随着数据速率向224 Gb/s及更高发展，以及可能出现更高阶的PAM调制（如PAM-8），接收机DSP中DFE模块的面积和功耗开销将成为一个严峻挑战。LB-DFE为设计下一代高速有线通信收发机芯片提供了一个极具吸引力的DFE实现方案，有助于在满足严苛性能指标的同时控制芯片成本和功耗。
研究亮点 1. 架构创新性： 提出了“环路断开”的核心思想，通过为所有可能的起始符号并行计算子DFE链，并结合后处理选择逻辑，实现了对传统DFE反馈环路的根本性重构。这种类似于“进位选择加法器”的思路在DFE设计中具有很高的新颖性。 2. 显著的工程优势： 在保证功能完全等效的前提下，实现了相比主流前瞻DFE（LA-DFE）最高达54%的面积节省。这对于面积和功耗敏感的商业芯片设计具有重大意义。 3. 完备的验证体系： 研究不仅进行了传统的电路综合与面积对比，还创新性地利用RFSOC平台进行了完整的、实时的收发机系统级功能验证，并在实际信道上测量了误码率，证明了设计的可行性和可靠性。此外，还通过高端测试设备进行了高速率软件仿真验证，构成了从理论、仿真到硬件原型、再到高速行为验证的完整证据链。 4. 可扩展性与前瞻性： 论文指出，LB-DFE的优势在更高阶PAM调制和更大并行度下将更加明显，为未来通信标准演进所需的技术提供了储备。
其他有价值内容 论文还详细对比了LB-DFE与滑动块DFE（SB-DFE）等其他架构，指出SB-DFE虽然能实现多抽头，但会引入很大的延迟，而LB-DFE主要解决单抽头DFE在超高速下的面积效率问题。同时，论文也坦诚指出了LB-DFE目前实现多抽头DFE仍面临面积指数增长挑战，这为后续研究指明了方向。附录中提供的LB-DFE环路段和选择单元的伪代码算法，清晰揭示了其工作原理，增加了研究的可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问