非独立同分布数据下的自正则化联邦学习优化方法

• •

非独立同分布数据下的自正则化联邦学习优化方法

蓝梦婕¹,蔡剑平¹,孙岚²

1. 福州大学计算机与大数据学院
2. 福州大学数学与计算机科学学院

收稿日期:2022-08-01 修回日期:2022-08-15 发布日期:2022-09-23
通讯作者: 蓝梦婕

Self-regularization method for Non-IID data in federated learning

Received:2022-08-01 Revised:2022-08-15 Online:2022-09-23

摘要/Abstract

摘要： 联邦学习(FL)是一种新的分布式机器学习范式，它在保护设备数据隐私的同时打破数据壁垒，使各方能在不共享本地数据的前提下协作训练机器学习模型,但如何处理不同客户端的非独立同分布(Non-IID)数据仍是联邦学习的一个巨大挑战,目前提出的一些解决方案没有利用好本地模型和全局模型的隐含关系，无法简单而高效地解决问题。针对联邦学习中不同客户端数据的非独立同分布问题，提出新的联邦学习优化算法FedSR和Dyn-FedSR。FedSR在每一轮训练过程中引入自正则化惩罚项动态修改本地损失函数，通过构建本地模型和全局模型的关系，使本地模型靠近聚合丰富知识的全局模型，缓解Non-IID数据带来的客户端偏移问题；Dyn-FedSR则在FedSR基础上通过计算本地模型和全局模型的相似度动态确定正则项系数。对不同任务进行大量的实验分析表明，FedSR和Dyn-FedSR在各种场景下的表现都明显优于FedAvg，FedProx和SCAFFOLD之类的联邦学习算法，能够实现高效通信和更高的准确率，对不平衡数据和不确定的本地更新具有鲁棒性。

关键词: 联邦学习, 非独立同分布数据, 客户端偏移, 正则化, 分布式机器学习, 隐私保护

Abstract: Federated Learning (FL) is a new distributed machine learning paradigm that breaks down data barriers while protecting data privacy, enabling clients to collaboratively train a machine learning model without sharing local data. However, how to deal with Non-independent identical distribution (Non-IID) data from different clients remains a huge challenge in federated learning. Although several studies have proposed some solutions to this problem, few of them utilized the implicit relationship between the global and local models to solve the problem simply and efficiently. To address the Non-IID issue in federated learning, novel optimization algorithms including FedSR and Dyn-FedSR were proposed in this paper:. Self-regularization penalty terms were introduced in each training round to dynamically regularize the local loss function in FedSR, which alleviated the Non-IID problem by constructing a relationship between the global and local models. The local model was close to the global model that aggregated richer knowledge in this way. The self-regularization penalty term was dynamically determined by calculating the similarity between the global and local models in Dyn-FedSR. Extensive experimental analyses on different tasks demonstrate that FedSR and Dyn-FedSR significantly outperform the state-of-the-art federated learning algorithms such as FedAvg, FedProx and SCAFFOLD in various scenarios, enabling efficient communication and higher accuracy, robustness to unbalanced data and uncertain local updates.

Key words: Federated Learning (FL), Non-IID data, client drift, regularization, distributed machine learning, privacy preserving

中图分类号:

TP391

蓝梦婕蔡剑平孙岚. 非独立同分布数据下的自正则化联邦学习优化方法 [J]. 计算机应用.

[1]	陈丹阳, 张长伦. 多尺度去相关的图卷积网络模型[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2180-2187.
[2]	张宏扬, 张淑芬, 谷铮. 面向个性化与公平性的联邦学习算法[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2123-2131.
[3]	徐乐, 黄瑞章, 白瑞娜, 秦永彬. 基于意图正则化的深度半监督文本聚类[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2145-2152.
[4]	张一鸣, 曹腾飞. 基于本地漂移和多样性算力的联邦学习优化算法[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1447-1454.
[5]	高改梅, 杜苗莲, 刘春霞, 杨玉丽, 党伟超, 邸国霞. 基于SM2可链接环签名的联盟链隐私保护方法[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1564-1572.
[6]	郭书剑, 余节约, 尹学松. 图正则化弹性网子空间聚类[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1464-1471.
[7]	范亚州, 李卓. 能耗约束下分层联邦学习模型质量优化的节点协作机制[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1589-1594.
[8]	陈庆礼, 郭渊博, 方晨. 面向数据异构的聚类联邦学习算法[J]. 《计算机应用》唯一官方网站, 2025, 45(4): 1086-1094.
[9]	项钰斐, 倪郑威. 基于演化博弈的分层联邦学习边缘联合动态分析[J]. 《计算机应用》唯一官方网站, 2025, 45(4): 1077-1085.
[10]	李强, 白少雄, 熊源, 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 832-839.
[11]	林海力, 李京. 基于工作证明的联邦学习懒惰客户端识别方法[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 856-863.
[12]	曾辉, 熊诗雨, 狄永正, 史红周. 基于剪枝的大模型联邦参数高效微调技术[J]. 《计算机应用》唯一官方网站, 2025, 45(3): 715-724.
[13]	王宝银, 薛红梅, 刘期烈, 郭涛. 基于隐私保护的随机共识资产跨链方案[J]. 《计算机应用》唯一官方网站, 2025, 45(2): 497-505.
[14]	徐超, 张淑芬, 陈海田, 彭璐璐, 张帅华. 基于自适应差分隐私与客户选择优化的联邦学习方法[J]. 《计算机应用》唯一官方网站, 2025, 45(2): 482-489.
[15]	王心妍, 杜嘉程, 钟李红, 徐旺旺, 刘伯宇, 佘维. 融合电力数据的纵向联邦学习企业排污预测模型[J]. 《计算机应用》唯一官方网站, 2025, 45(2): 518-525.