- 清华大学车辆学院研究团队提出智能 49
- 清华大学深圳国际研究生院洪朝鹏团 33
- 如何描述论文预期成果 39
- 学术会议的质量该如何评判 56
- 学术会议主持人的6个能力要求 82
- 《护理管理杂志》的栏目包括什么? 54
- 有关服装设计师出书流程的详细步骤 46
- 经济管理期刊发表流程步骤 53
- 发表流行病学论文相关的期刊有哪些 44
- 英文期刊投一篇论文到底需要多久呢 62
- 常用的医学术语的汇总 61
- 清华大学物理系王晓锋课题组与合作 67
- 毕业论文里的数学公式会出现乱码吗 53
- 复旦大学王磊、桑庆和孙晓溪合作团 47
- 通过率98%的发表渠道,帮助新手 48
- 广东南方软实力研究院 22426
- 北京万邦会展有限公司 20392
- 西藏昌都国际旅行社 拉萨旭 20370
- 北京师范大学 23376
- 上海麦峰医学科技有限公司 7433
- 哈尔滨市大学 20369
- 巨成科技 7400
- 南京医科大学 20439
- 美国美中世纪教育集团 20408
- AAA 7437
- 天津市电子学会 20448
- 第七届国际作物科学大会 1375
- 南昌大学 17373
- IAASE 20374
- 中国高等教育学会高等教育学专业委 20426
- 武汉青博盛学术服务有限公司 1405
- 中国医师协会高血压委员会 23392
- 西安交通大学材料学院 17408
- 大连四叶草会展有限公司 7376
- 上海生物谷 23374
电子系研究团队在分布式机器学习的隐私安全关键技术领域取得进展
2024/04/07
分布式机器学习能够协同实际系统中分布在不同节点的数据和资源,通过节点间共享学习中间变量(如模型参数)进行模型训练。该技术具有去中心化的特性,一定程度上避免了数据集中存储带来的隐私风险,是目前面向隐私保护的主流机器学习方法。但是,随着研究深入,分布式机器学习也遇到了诸多挑战。当前分布式机器学习框架是利用各个节点数据分散性来实现数据隐私保护。节点原始数据的隐私与学习中共享变量具有高度相关性,已有研究工作证明了隐私数据能从共享的变量中被成功解码。因此,如何构建全过程与各环节隐私保护的分布式机器学习框架是当前数据安全领域的基础前沿课题。
然而,数据安全与处理效率之间的矛盾是一项永恒课题,随着分布式机器学习中的隐私保护增强,势必影响到机器学习的效率和效果,特别是在大规模参数模型的训练中,该矛盾尤其突出。一方面,机器学习模型规模增大,以及各个环节的隐私保护增强,节点间共享变量的通信资源和计算资源开销将成指数增加,成为制约大模型学习中一个主要瓶颈问题。另一方面,对于一些复杂原始数据,例如,强相关的图数据等,这些高度关联的原始数据分散在分布式学习框架中不同节点,通过分散数据的“去关联性”能实现隐私保护,但也损失了这些数据间的大量关联信息,极大降低了机器学习效果效率。现有方法假设了节点具有独立完备的数据并基于其内部特征进行学习,难以对跨节点间的强关联数据进行有效建模。如何解决图数据的“内生强关联性”与面向隐私保护的分布式学习“去关联性”之间的矛盾,提升强关联数据学习效果是一项具有高度挑战性的课题。
图1. 分布式机器学习隐私安全研究的系统性架构
针对面向隐私保护分布式机器学习中存在的前沿课题,清华大学电子系开源数据认知创新中心的研究团队开展了系统研究工作(研究的系统性架构如图1所示),取得了阶段性进展。研究团队创建了一套隐私增强分布式机器学习模型(方法如图2所示)。该模型采用差分隐私知识迁移的协同学习框架,实现分布式学习过程中“全过程”隐私保护,同时,提出了一种隐私安全可证明的模型有效训练方法,该方法攻克了在现有分布式机器学习模型直接应用差分隐私时学习效果断崖式下降的难题。在为分布式学习过程提供了有效、可证明的隐私安全保护的同时,最高提升了现有隐私保护机器学习方法84.2%的性能。针对分布式机器学习存在的“隐私性增强”与“模型学习效率”之间矛盾所带来的模型规模瓶颈问题,研究团队创建了一套面向隐私增强分布式架构高效模型训练方法(方法如图3所示)。在隐私增强的分布式学习模型的基础上,制定了一套基于“门徒效应”的双向知识蒸馏技术,提出了一套基于互学习约束的模型知识自适应压缩方法,突破了在增强隐私保护的机器学习过程中知识共享的效率瓶颈。实验结果证明,在大规模隐私增强的分布式学习模型中,该方法能将复杂模型的训练效率提升20倍。针对图数据分布式学习中存在的“强关联”与“去关联”之间的矛盾,研究团队提出了一套面向隐私增强分布式架构的复杂数据学习方法(方法如图4所示)。通过建立一种面向增强隐私保护的关联模型学习方法来实现“强关联性”图数据分布在各个节点“去关联”,同时,采用数据扩张机制来建模跨节点间数据的高阶关联信息。通过实际场景数据的实验证明,该框架能够有效挖掘分布式图数据间的关联,达到在没有隐私保护限制下最优关联建模效果的98.2%。
图2. 基于差分隐私知识迁移的分布式学习框架
图3. 基于双向知识蒸馏的高效分布式学习方法
图4. 基于数据扩张机制的图数据分布式学习方法
研究团队对面向隐私安全的分布式机器学习理论模型和关键技术开展系统性创新研究的同时,也在积极开展相关模型和方法在实际场景下的应用研究,先后在网络信息智能推荐、公共安全、智慧医疗等领域建立了相应数据隐私保护方案,解决了数据安全领域的国家和企业“急难盼”问题。相关研究成果在2022-2023年度发表了4篇《自然》(Nature)子刊论文,其中1篇论文入选《自然·通讯》(Nature Communications)期刊的亮点论文(Featured Articles,如图5所示)。
上述研究成果是在电子系开源数据认知创新中心的NGNLab研究团队黄永峰教授带领下,由张卫强、何亮副教授,博士生齐涛、武楚涵等骨干成员,联合微软亚洲研究院相关合作研究人员共同完成。研究成果也得到了科技部重点研发专项“网络大数据安全防护理论与方法”,国家自然科学基金委联合重点项目“云数据安全审计理论与新方法”和国家自然科学基金委重大项目“基于全维度数据的智能诊疗研究”等的支持。
图5. 团队成果入选《自然·通讯》(Nature Communications)亮点论文
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
纳光电子前沿科学中心肖云峰、龚旗煌在超高灵敏声波传感研究中取得重要进展
北京大学城市与环境学院朴世龙院士团队在《自然-地球科学》撰文揭示植被变绿通过跨区域水汽传输利好全球地表水资源
浙江大学与海外合作者在益生菌/人工酶活性复合材料研究方面取得进展
中国科学院大连化学物理研究所在电催化一氧化氮合成氨研究领域取得进展
集成电路学院黄如院士-叶乐副教授课题组在“超低功耗AIoT芯片”领域取得2项重要研究成果
清华大学航天航空学院与中国空间技术研究院举行载人月球车项目合作签约仪式
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024年第八届电力与能源工程国际会议 (ICPEE 2024)(2024-12-20)
2024年机械制造工程, 材料与结构工程国际会议·(MMEMSE 2024)(2024-6-27)
2024语言、艺术与教育发展国际学术会议(ICLAED 2024)(2024-6-29)
2024语言、人文艺术与传播国际研讨会会议(ISLHAC 2024)(2024-5-20)
2024年航空航天、空气动力与遥感技术国际会议(AARS 2024)(2024-6-29)
2024年电子信息工程与人工智能国际学术会议(EIEAI2024)(2024-5-30)
2024年交通管理规划与智慧城市国际会议(TMPSC 2024)(2024-5-28)
2024可持续发展与电力系统、能源国际会议(ICSDPSE 2024)(2024-7-23)
第十八届无线通信、网络技术与移动计算国际学术会议 (WiCOM 2024)(2024-10-25)
2024年语言,教育与信息管理国际会议(ICLEIM 2024)(2024-6-28)