本文由南京邮电大学通信与信息工程学院的刘淼、林婉茹、王琴和桂冠共同撰写,发表于2024年10月的《通信学报》第45卷第10期。文章题为《车联网联邦学习的数据异质性问题及基于个性化的解决方法综述》,主要探讨了车联网(Internet of Vehicles, IoV)场景中联邦学习(Federated Learning, FL)面临的数据异质性问题,并提出了一种基于个性化方法的解决方案体系。
车联网(IoV)作为物联网的一个重要分支,通过车辆与互联网之间的通信和数据交换,实现了车辆间的数据交互,提升了交通安全性和便利性。随着深度学习等人工智能技术的引入,IoV不仅推动了智能交通业务的发展,还为用户提供了更加精准和可靠的服务。然而,随着IoV设备数量、业务类型和数据量的快速增长,网络性能和智能交通服务的需求也在不断提升。传统的集中式、分布式和混合式学习架构在IoV中面临诸多挑战,如高时延、隐私泄露和数据孤岛等问题。
联邦学习(FL)作为一种新兴的分布式学习框架,能够在保护用户隐私的前提下,通过联合训练解决数据孤岛问题,因此在IoV中得到了广泛应用。然而,由于IoV中不同设备的数据分布存在异质性(non-independent and identically distributed, non-IID),FL的训练准确性和收敛性受到严重影响。本文旨在通过个性化方法解决IoV中FL的数据异质性问题,提升模型训练性能,进而提高智能交通服务的质量。
本文首先论述了联邦学习在车联网中的必要性,并总结了IoV中FL面临的典型数据异质性问题。接着,文章从感知、计算和传输三个环节对IoV中FL的数据异质性问题进行了分类和追踪。随后,文章引入个性化方法作为解决数据异质性问题的核心手段,并分析了现有个性化联邦学习(Personalized Federated Learning, PFL)的优点与不足。最后,文章讨论了个性化联邦学习在IoV场景中面临的研究挑战,并结合无线通信等相关技术展望了未来的研究方向。
文章指出,IoV中FL的异质性问题主要源于客户端数据的非独立同分布(non-IID)。具体来说,异质性问题可以从感知、计算和传输三个环节进行分析: - 感知环节:不同设备由于所处时空、感知能力、任务需求、消费群体分布、存储能力和通信能力的不同,导致数据分布存在异质性。 - 计算环节:车辆终端的计算资源差异以及边缘服务器的计算资源限制,可能导致部分设备无法完成本地训练任务,进而影响全局模型的训练效果。 - 传输环节:异步FL虽然适用于不稳定的网络环境,但在信息新鲜度和紧迫度要求较高的任务中,信道条件较差的客户端上传的模型参数可能已经过时,导致异质性问题。
文章提出了一种基于个性化方法的解决方案体系,主要包括以下四类方法: - 基于本地数据预处理的方法:通过数据增强和客户端选择来修改数据分布,缓解数据不平衡问题。 - 基于本地模型微调的方法:通过增加模型局部损失正则项、元学习、多任务学习、模型插值、终身学习和参数解耦等手段,提升客户端的个性化学习能力。 - 基于全局模型优化的方法:通过知识蒸馏和模型结构自适应等技术,优化全局模型的训练性能。 - 基于训练架构动态组织的方法:通过客户端聚类和系统级优化,提高FL系统的训练效率和可扩展性。
本文的主要贡献包括: 1. 揭示了IoV场景中FL异质性问题的普遍性及其对智能交通业务的负面影响。 2. 分析了IoV中FL异质性问题的成因,并从感知、计算和传输三个环节对问题进行了分类。 3. 提出了基于个性化方法的解决方案体系,包括本地数据预处理、本地模型微调、全局模型优化和训练架构动态组织四个层面,有效缓解了FL的异质性问题。 4. 讨论了IoV中PFL面临的研究挑战,并结合无线通信技术提出了未来的研究方向。
文章最后指出,尽管现有个性化方法在一定程度上解决了FL的异质性问题,但在IoV场景中仍面临诸多挑战,如安全性问题、通信受限问题以及专用评估体系与基准缺乏问题。未来的研究方向包括: 1. 面向IoV应用的PFL方法改进:结合元学习、模型插值、终身学习、参数解耦和模型结构自适应等方法,进一步提升PFL在IoV中的性能。 2. 基于IoV优化的PFL方法革新:从无线网络优化的视角出发,探索更灵活、更具针对性的PFL方法。 3. 结合新兴技术的开放性思路:结合6G通信、区块链、数字孪生等前沿技术,提升IoV-FL的性能和安全性。
本文通过对IoV中FL数据异质性问题的深入分析,提出了一种基于个性化方法的解决方案体系,为IoV场景中的FL应用提供了新的研究思路。文章不仅总结了现有研究的不足,还结合无线通信技术提出了未来的研究方向,具有重要的学术价值和实际应用意义。