欢迎进入九九叶网赚平台!一个专业分享网上兼职赚钱方法信息门户网!

数据不出本地,还能享受大数据训练模型,联邦学习提供一种学习新范式

手机赚钱 2019-10-01 15:47137网络整理admin

联邦学习之所以能够在如此短的时间里迅速由一个构想变为一门学科,主要原因在于联邦学习技术作为一种学习范式,能够在确保用户数据隐私的同时解决“数据孤岛”问题。

不过不同于国内主要关注企业之间针对“数据孤岛”的联邦学习,Blaise 等人(或许也在某种程度上代表谷歌)关注更多的则是设备上的联邦学习,这也是联邦学习概念被提出之初的应用场景。

1. 提出联邦学习的初始动力

Blaise五年前加入谷歌后不久,便开始了联邦学习的研究。直到2017年,当他们取得了一定的成果,才在博文中进行公布。

一开始,联邦学习只是一个概念,但很快它便被开发成人工智能领域中的一个学科。现在已经有数千篇的文章在讨论联邦学习。在今年12月份在温哥华举行的机器学习顶会 NeurIPS上也将会有一个专题专门讨论联邦学习。另一方面,现在也有很多公司也在以此为基础构建他们的模型。这说明整个人工智能社区已经开始重视这种技术了。

那么为什么联邦学习能够如此快速地被整个社区重视呢?

大家应该知道,目前人工智能已经发展到了这样一个节点:我们希望能够用少量的数据做更多的工作。这也是当前人工智能的核心话题之一。

神经网络可以做很多的认知,语言处理、语音合成、图像识别,甚至还可以下围棋,这些都能达到人类甚至超越人类的水平,这是过去几年我们取得的成就。但是目前的神经网络相比人类还欠缺一点,就是学习的效率,它需要大量的数据进行训练。所以一些大公司,如谷歌、微软、亚马逊等开始提供人工智能服务时需要收集大量的数据,才能去训练大型神经网络。这也是一直以来,整个社区所做的事情。

对于设备端(例如手机)的智能应用,通常情况下的模式是,用户在设备上产生的数据会被上传到服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型,服务商根据这个模型来为用户提供服务。随着用户设备端数据的不断更新并上传到服务器,服务器将根据这些更新数据来更新模型。很明显这是一种集中式的模型训练方法。

然而这种方式存在几个问题:1)无法保证用户的数据隐私,用户使用设备过程中产生的所有数据都将被服务商所收集;2)难以克服网络延迟所造成的卡顿,这在需要实时性的服务(例如输入法)中尤其明显。

Blaise等人便想,是否可以通过做一个大型的分布式的神经网络模型训练框架,让用户数据不出本地(在自己的设备中进行训练)的同时也能获得相同的服务体验。

2. 设备上的联邦学习

解决之道便是:上传权重,而非数据。

我们知道神经网络模型是由不同层的神经元之间连接构成的,层与层之间的连接则是通过权重实现的,这些权重决定了神经网络能够做什么:一些权重是用来区分猫和狗的;另一组则可以区分桌子和椅子。从视觉识别到音频处理都是由权重来决定的。神经网络模型的训练本质上就是在训练这些权重。

那么Blaise提出的设备端联邦学习,不再是让用户把数据发送到服务器,然后在服务器上进行模型训练,而是用户本地训练,加密上传训练模型(权重),服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。

举例来说,输入法是典型的智能推荐应用。当人们使用Google键盘Gboard给家人朋友发信息的时候,传统来说你敲击键盘的数据会被上传到谷歌的服务器,他们通过收集大量数据来训练一个更加符合用户习惯的智能推荐。但在应用联邦学习后,用户敲击键盘的数据将永远保留在本地。用户的手机中有一个不断更新的模型会根据这些数据进行学习和更新,并将更新的权重加密上传到服务器。服务器收到大量用户的模型后,会根据这些模型进行综合训练,并反馈给用户进行模型更新和迭代。

这里或许值得强调,这种在设备端上的模型是经压缩过的,而非像服务器中那种大型神经网络模型。因此模型训练的耗能是非常小的,几乎检测不到。此外,Blaise讲了一个非常形象的比喻,即人会在睡觉的时候通过做梦来更新自己的大脑认知系统;同样设备终端的系统也可以通过闲置时进行模型训练和更新。所以整体上,这并不会对用户的使用体验造成任何影响。

http://www.jiujiuye.com/sjzq/11421.html

Copyright @ 2011-2018网络赚钱平台. 版权所有 【网站地图 】 备案号:赣ICP备16003224号-1

站长统计代码放在此处

联系QQ: 25882110 邮箱地址:25882110@qq.com