查看原文
其他

联邦学习知一二

梁飞 中国保密协会科学技术分会 2022-10-02

摘    要


      联邦学习(Federated Learning)作为最近比较热门的一种新兴人工智能技术吸引了众多研究者及技术人员的目光。它作为一种尚处于发展初期的技术,非专业领域的读者对其了解不多无可厚非,本文将主要围绕联邦学习的背景、联邦学习的分类及联邦学习的应用三个方面简要介绍这种新兴的人工智能技术。

联邦学习的背景

联邦学习最早由谷歌于2016年提出,谷歌提出此概念原本用于解决安卓终端的本地模型更新问题,其最初目标是在保证用户隐私安全的前提下,在多计算节点间开展高效的机器学习,建立基于分布在多个设备数据集的模型。本质上,联邦学习是一种分布式的机器学习系统。

随着人工智能的发展,联邦学习的概念也被进一步完善扩展。一方面,现代人工智能的发展越来越依赖大量数据,尤其是高质量的数据,而随着技术及行业的发展,越来越多的数据集中于大公司中,作为人工智能赖以生存的数据难以在行业共享,该现象也被成为“数据孤岛”,联邦学习可以很好地解决该问题;另一方面,作为数据生产方之一的智能终端尤其是用户终端其数据往往面临着众多隐私问题,利用联邦学习机制可以加强数据隐私和安全。因此,联邦学习可以解决人工智能发展面临的上述两大“痛点”,有望成为下一代人工智能协同算法和协作网络的基础。

为什么联邦学习能够快速成为研究热门?主要由于现如今人工智能面临的上述两大“痛点”问题是十分急迫的。2016年是人工智能成熟的一年。随着AlphaGo击败人类顶尖棋手,我们真正见证了人工智能的巨大潜力,并开始期待在许多应用中使用更复杂、更尖端的人工智能技术,例如无人驾驶汽车、医疗和金融。如今,人工智能技术在几乎所有行业和大多数行业都显示出了它的优势。然而,当我们回顾人工智能的发展时,它不可避免地经历了几次起伏。人工智能会出现下一次衰退吗?它什么时候会出现,因为什么因素?AlphaGo的成功使人们自然希望AlphaGo等大数据驱动的人工智能能很快在我们生活的各个方面实现。然而,现实世界的情况有点令人失望:除少数行业外,大多数领域只有有限的数据或较差的数据,使得人工智能技术的应用比我们想象的更加困难。这便是上文提到的“数据孤岛”问题,解决此问题需要通过跨组织传输数据,事实上,在许多情况下,打破数据源之间的壁垒是非常困难的,甚至是不可能的。一般来说,任何人工智能项目所需的数据都涉及多种类型。例如,在人工智能驱动的产品推荐服务中,产品销售者拥有关于产品的信息和用户购买的数据,但没有描述用户购买能力和支付习惯的数据。由于行业竞争、隐私安全和复杂的管理程序,即使是同一公司不同部门之间的数据集成也面临巨大阻力。在国家不同部门机构之间、国家与国家之间的数据壁垒将会更加复杂,前者的成本将会十分高昂,后者则在现如今的国际环境中几乎不被允许。

另一方面,随着越来越多的大公司意识到在数据安全和用户隐私方面有所妥协,数据隐私和安全已成为一个世界性的重大问题。关于公共数据泄露的新闻引起了公共媒体和政府的极大关注。作为回应,世界各国都在加强法律保护数据安全和隐私。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(GDPR),该条例旨在保护用户的个人隐私并提供数据安全。它要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘的权利”,即用户可以删除或撤回其个人数据,而违反该法案的公司将面临高额罚款。美国和中国也在采取类似的隐私和安全措施。例如,中国的《网络安全法》和2017年颁布的《民法通则》要求互联网企业不得泄露或篡改其收集的个人信息,并且在与第三方进行数据交易时,他们需要确保拟定的合同遵守法律数据保护义务。这些法规的建立显然将有助于建立一个更为公民化的社会,但也将对人工智能目前常用的数据处理程序提出新的挑战。通常来说,人工智能中的传统数据处理模型通常涉及简单的数据交易模型,一方收集数据并将其传输给另一方,另一方负责清理和融合数据。最后,第三方将获取集成的数据,并构建模型供其他方使用。模型通常是作为服务销售的最终产品。这一传统程序面临上述新数据法规和法律的挑战。此外,由于用户可能不清楚这些模型的未来用途,这些交易违反了GDPR等法律。

总结起来,人工智能的发展面临一个两难境地,即数据是以孤立岛屿的形式存在,且数据中往往包含众多隐私敏感信息,这些都将受到各国法律的严格监管。如何合法地解决数据碎片和隔离问题是当今人工智能研究人员和实践者面临的一个重大挑战,上述问题对于人工智能的发展是十分急迫的。

联邦学习的分类

我们通过上述背景介绍不难发现,联邦学习主要与分布式机器学习和保护数据隐私有关,现如今联合学习的概念得到更广扩展,现今的联邦学习概念指所有隐私保护的分散式协作机器学习技术的概念,依据其整体架构和应用场景,可以将联邦学习分为以下三类:横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(Vertical Federated Learning.)和联邦迁移学习(Federated Transfer Learning),以下将分别简要介绍。

横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同(即特征重叠多,用户重叠少)的场景,其往往应用于样本不同但特征相似的数据中。在传统的机器学习建模中,通常是把模型训练需要的数据集合到一个数据中心然后再训练模型,而在横向联邦学习中,可以看作是基于样本的分布式模型训练,分发全部数据到不同的机器,每台机器从服务器下载模型,然后利用本地数据训练模型,之后返回给服务器需要更新的参数,而后重复上述步骤的过程。在这个过程中,每台机器下都是相同且完整的模型,且机器之间不交流不依赖,在预测时每台机器也可以独立预测,因此可以把横向联邦学习看作成基于样本的分布式模型训练。

纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,其往往应用于样本相同但特征不同的数据中。纵向联邦学习方法可以分为加密样本对齐和加密训练两个主要过程,整个过程的各个参与方均不能获取其余各方的数据和特征,且训练结束后参与方只得到自己侧的模型参数,即半模型。因此,纵向联邦学习有以下好处:参与各方均获得数据保护、共同提升模型效果;模型无损失。其复杂之处在于由于各参与方只能得到与自己相关的模型参数,因此在模型预测时需各方协作完成。

我们通过上述两种联邦学习方法介绍不难发现,当参与者数据间的特征和样本都不相似时该怎么办?此时应用的方法便是联邦迁移学习,该方法主要适用于以深度神经网络为基模型的场景。顾名思义,该方法是一种迁移学习方法,因此该方法的核心是找到源模型场景和目标模型场景间的相似性。


联邦学习的应用

联合学习的核心是使多方能够协作构建机器学习模型,同时保持其私有训练数据的私有性。联邦学习作为一种创新的建模机制,可以在不损害数据隐私和安全的情况下,对来自多个部门的数据训练一个统一的模型。它在金融、医疗及涉及敏感数据的领域内有着不可替代的作用,总体来说,其应用领域有着以下特点:由于知识产权、隐私保护和数据安全等因素导致数据无法直接聚合用于模型训练。联邦学习是解决上述问题的一种较好的方法。

以智能零售为例。它的目的是利用机器学习技术为客户提供个性化服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户个人偏好和产品特征。在实际应用中,这三个数据特征可能分散在三个不同的部门或企业中。例如,用户的购买力可以从用户的银行储蓄中推断出来,个人偏好可以从用户的社交网络中分析,而产品的特征则由网店记录。在这种情况下,我们面临两个问题。首先,为了保护数据隐私和数据安全,银行、社交网站和电子购物网站之间的数据壁垒很难打破。因此,无法直接聚合数据来训练模型。第二,三方存储的数据通常是异构的,传统的机器学习模型无法直接处理异构数据。目前,传统的机器学习方法尚未有效解决这些问题,阻碍了人工智能在更多领域的推广应用。

联邦学习和迁移学习是解决这些问题的关键。首先,通过利用联邦学习的特点,我们可以为这三种学习建立一个机器学习模型而不暴露企业各方数据,这不仅充分保护了数据隐私和数据安全,还为客户提供了个性化和有针对性的服务,从而实现了互惠互利。同时,我们可以利用迁移学习解决数据异构问题,突破传统人工智能技术的局限性。因此,联邦学习为我们构建跨企业、跨数据、跨领域的大数据和人工智能生态圈提供了良好的技术支持。

此外,还可以使用联邦学习框架在不暴露数据的前提下进行多方数据库查询。例如,假设在金融应用中,多方恶意借贷对金融稳定构成巨大威胁,大量此类非法行为可能导致整个金融系统崩溃。为了在不暴露各家银行之间敏感金融数据的前提下,整合各家银行之间的借贷信息,及时发现恶意借贷行为,可以利用联合学习框架,例如使用联邦学习的加密机制,对各方的用户列表进行加密,然后在联邦中取加密列表的交集等方法。

智能医疗是另一个领域,我们预计它将从联邦学习技术的兴起中受益匪浅。疾病症状、基因序列和医学报告等医学数据非常敏感和保密,但医学数据集很难收集并存在于孤立的医疗中心和医院中。数据源的不足和医疗数据的敏感性导致机器学习模型的性能不理想,这已成为当前智能医疗的瓶颈。联邦学习与迁移学习相结合是实现医疗数据安全共享的主要途径。迁移学习可以用来填补缺失的标签,从而扩大可用数据的规模,进一步提高经过训练的模型的性能。因此,联邦转移学习将在智能医疗的发展中发挥关键作用,并可能将人类医疗提升到一个全新的水平。

总    结

在“数据孤岛”愈发普遍和隐私保护越来越受到人们重视的背景下,传统人工智能框架受到挑战,分布式的机器学习架构和各种隐私保护算法机制应运而生,联邦学习的概念来源于对上述问题及解决方法的探索,并有可能成为下一代人工智能协同算法和协作网络的基础。未来,联邦学习将更好地助力于人工智能的发展,并将在金融、医疗等敏感数据领域发挥着越来越重要的作用。

本文大量素材基于以下文献:

Yang Q, Liu Y, Chen T, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.

中国保密协会

科学技术分会

长按扫码关注我们

作者:梁   飞

责编:向灵孜

2021年精彩文章TOP5回顾

碎纸恢复还原技术对载体销毁的重要启示

身边的地理信息安全与保密
美国对华科技竞争政策性建议汇总
6G之卫星通信
浅谈计算机键盘电磁泄漏防护

近期精彩文章回顾

网络验证中数据平面验证的方法与挑战

网络安全自动化:评估产品和服务的自动化潜力
网络安全自动化:分析过程自动化策略
网络安全与自动化威胁情报共享最佳做法
RFID的克隆防护与检测(下篇)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存