颜水成 shopee

2022.04.28

971

mfshop 提供专业颜水成 shopee资讯,平台拥有众多颜水成 shopee词分析师,帮助您解决您的问题,有任何疑问:颜水成 shopee均可点击右侧客服进行咨询,我们为您提供一站式颜水成 shopee服务,感谢您的访问!

7月7日,由中国计算机学会(CCF )主办、雷锋网(公众号:雷锋网)和香港中文大学)深圳)承办的CCF-GAIR 2017全球人工智能与机器人(300024,诊股)峰会在深圳大中华喜来登酒店举行奇虎360副总裁、首席科学家、IEEE Fellow、IAPR Fellow颜水成博士带来了以《深度学习:精度极限VS用户体验》为主题的演讲。 这是大会第一天的最后一次演讲。

作为360人工智能研究院院长,颜水成博士曾在新加坡国立大学领导机器学习和计算机视觉实验室。 他的主要研究领域是计算机视觉、机器学习和多媒体分析,该团队倡导的“网络内联网”为深度学习带来了巨大的推动力。

以下内容由雷锋网整理自颜水成教授的报告,有删减:

这次我想简要介绍过去五年学术和工业界对深度学习的观察。 深度学习的研究有两个不同的目标:追求精度极限的目标和追求产品体验极限的目标。 从这两方面进行介绍。 然后,以11卷积和相关分析为中心,思考如何设计更好的网络,分别追求精度的极限和体验的极限。

学术界的人工智能\深度学习

学术界研究深度学习,一般针对具体问题探索新算法。 我们可以设计更好的模型结构,用更多的模型融合。 另一方面,我们也将考虑在更好的培训平台和更多资源上实现分布式多机卡的培训。 也可以考虑利用海量数据,通过预测学习方式提前训练模型,通过标记数据训练模型后,通过baby-learning和扩展学习等后处理方式进一步提高模型的性能。

工业界的人工智能\深度学习

工业界不能只追求单纯的算法,而是要考虑产品和应用的场景。 人工智能本身不是产品,必须与具体场景相结合,才具有内在价值。 最好的方法是算法和数据形成闭环,训练第一个模型,然后在具体的应用场景中挖掘模型失效的数据,用这些数据进一步提高模型的精度,然后将模型应用于场景,不断重复,最终达到最好的体验另外,算法科学家和产品工程师必须相互合作,为不完整的算法带来完美的用户体验。

算法科学家和产品工程师相互合作的例子

一个明显的例子是萌脸算法。 到目前为止,很多团队都在考虑通过脸部分析来替换脸部,但这个模型并不成功。 由于算法不完美,会发生抖动等问题。 但是,如果只是把花环、帽子、项链挂在别人的头上,即使有颤抖,用户的体验也很好。 这就是工程师和科学家完美合作的结果。

在工业界考虑产品,一是考虑应用场景能否满足高频刚需,二是技术成熟与否,三是技术能否形成壁垒。 如果没有技术壁垒,你今天做产品,不久可能会有更大的公司很快做类似的产品。 你的生存空间不存在。

深度学习研发的目标之一:精度极限

这些观察相结合,可以看出深度学习的研发有两个不同的目标。 第一个目标是学术界正在推进。 以场景、算法、计算、数据分析四元分析的方法来看,场景和数据是固定的,追求算法能够达到的最佳上限,而不考虑计算资源的限制。 在这个假设下很多算法都不能商业化。 因为没有考虑实际应用场景中的资源消耗是什么样的。

深度学习研发的目标之二:产品体验

另一方面,追求产品体验是由行业推动的。 同样是四维分析的方法,此时场景和计算已经固定。 例如,制作陪练机器人,其应用场景和它所能提供的计算能力是固定的,这时唯一的方法就是将算法和数据闭环,创造迭代中最好的体验。 此时,不仅需要考虑算法的设计,还需要考虑数据的清洗\标记、模型速度、各种微创新等多个方面。

深度学习两种研究目标的对比

第一项研究多用大脑,第二项研究多用心灵,它们俩相辅相成。 例如,在追求精度极限时,前沿成果促使设计出全新的产品,同时,在追求产品体验时,提取出许多核心问题,并送学术界进行深入研究。 这两个目标都非常重要,许多公司都在追求这两个目标,因此一方面建立自己的AI实验室,为尖端研究奠定未来的基础,另一方面追求产品体验,使产品能够在当前场景中落地。

两种目标结合的实例

作为具体的例子,有物体的分割。 2016年,分类和检查被认为在工业界可以很好地使用,但没有人认为已经到了可以使用物体分割的阶段。 我的研究小组以前就做了很多人体分割的工作。 我们的任务是提供图像,输出每个像素具体是什么,用了两年的时间将其性能从44%提高到86%。 同时,许多分割算法取得了很好的成果。 去年年底工业界开始考虑。 确实有很多应用场景受益于这种分割技术。 于是很多人开始思考如何加速模型,保证在一些有限场景下的性能满足产品化的需要。

从今年开始,比如美图秀秀和Snapchat可以将人的头发和脸部分割开来,产生很好的美化头发的效果,360和其他一些公司提供了人体分割的技术,将人实时从自拍视频中分割出来,叠加在动态场景上,梳得很结实这是在追求精度极限达到一定程度时,引起新产品形态创新的典型。

以11卷积为中心,讲述深度学习研究的漫谈。 11卷积是什么,11卷积在不同的模型中会带来哪些有价值的分析结果,以及11卷积有助于产生哪些更新的模型结构以进一步提高视觉分析的性能这些工作中有一部分在追求精度的极限,另一部分在追求体验的极限。

11卷积

最初的11卷积是我的学生LIN Min博士在网络中提出的,当时纯粹的内积不能很好地模拟人神经元的复杂工作方式,认为卷积可以用更复杂的微网络结构代替如果这个复杂的结构是多层感知机,对应的后续操作是11卷积。

11卷积与33、55卷积重叠会产生更复杂的抽象过程。 当时的一个优点是,该模型的参数可能会降低到传统模型的十分之一以下,从而将深度学习转移到最终,当时该模型在ImageNet 2014比赛的物体检测任务中获得了最高的性能。 此后,1x1卷积逐渐成为各种后续经典深度学习模型的标准组件之一,包括谷歌网络、ResNet和ResNext。

用11卷积分析传统网络的内在机理

基于1x1卷积的张量近似分析可以很好地解释目前各种流行网络结构的内在合理性,如谷歌网、ResNet、ResNext等。

例如,在一定位置,要卷积256个特性映射的空间区域是33的数据块,并且在卷积之后保持256个特性映射。 这样需要的参数是25625633这样的4次Tensor,其参数量真的太多了。

学术界的研究之一是,将高阶的Tensor用几个小size的Tensor,从不同的维度进行乘积,从而提升到原size的Tensor。 可以使用一个Tensor,也可以通过将多个Tensor相加的形式与原来的Tensor拟合。

具体来说,我们的问题在于,如下图所示,对应的c部分等效于从256个特征映射下降到更少的特征映射,g相当于基于更少的特征映射执行33的卷积,d相当于更少的特征映射

得到这一理解后,ResNet的经典版对应于用一个low-complexity的Tensor拟合,ResNext对应于用多个low-complexity的Tensor拟合。 同时将多层卷积Tensors合并为一个进行low-complexity tensor逼近,可以得到cross-layer信息共享的网络,减少参数,提高模型的推广性能。 基于这一简单的扩展,只需50层ResNet网络的参数就可以达到200层ResNet网络所具有的分类性能。

用11卷积分析ResNet和Densely Connected Network

试着用11卷积分析ResNet和denselyconnectednetwork (densenet )。 ResNet基于当前特性映射执行11卷积、33卷积、还有1x1卷积或其他微观结构,将输出的结果与现有结果相加。 DenseNet是将前面各层的卷积结果全部放入后面的层中,并将其连接起来。 如果给定的特征贴图在不同层中11卷积的参数相同,则可以看到DenseNet和ResNet是等效的。 区别在于,一个是事后计算11卷积,另一个是事前计算11卷积。

这两种网络的内在目标完全不同。 从局部来看,ResNet往往希望改善特征,DenseNet往往探索新的特征来补充现有的特征。 一个自然的想法是利用这两个特征的优势。 我们设计一个网络结果,在微观结构上把这两个网络放在一起,最后出来的特征,一部分是改善现有特征,一部分是探索新特征。 值得一提的是,ResNet是DenseNet的特例,但新提出的网络结构是一种新结构,不能再直接解释为DenseNet。

该网络结构称为双路径网络,实现时只需在现有网络结构中加入拼接和分割操作即可得到新的模型结构。 该模型结构看起来简单,效果非常明显。

在对象检测任务中,从ResNet到ResNeXt可以上升3.7个百分点,而DPN可以上升6.1个百分点; 在对象分段任务中,从ResNet到ResNeXt可以上升0.5个百分点,而DPN可以上升1.7个百分点。

目前学术界验证的最优单模型精度网络的单模型误码率为4.25%,如果在DPN中使用131层网络,其误码率将下降到4.16%,同时该网络的训练和测试时间也要远远快于前者另外,如果融合多个模型,则ImageNet的错误率可以从最高的2.99%降低到2.74%。 在“ImageNet对象本地化”任务中效果也很明显,只要将三种模型融合在一起,就可以从去年最高模型(六种模型)结果的7.58%降低到6.03%。

360的相关产品

在360,追求精度极限的APP应用主要位于云上,例如在360个小水滴中的人脸认证中,在保持1%的FAR的同时,将其TPR从77%提高到98%。 虽然仅为98%,但在这种监控场景中,可能会遇到光线、姿势和比例不同的图像。 分类难度非常高,与银行中用户合作的场景下进行人脸识别有很大不同。

另一方面,360有很多智能硬件。 智能硬件的特点是在固定应用场景和计算资源有限的情况下,想将人工智能技术应用于具体场景。 此时,在较低端的芯片中,使深度学习发挥最高的性能非常重要。 所以,从算法的角度来考虑降低计算复杂性的方法是什么。 我们的工作之一是11卷积,希望实现更复杂的网络结构,但计算的复杂性反而会降低。 这是一个追求用户体验的例子。

利用11卷积实现:更复杂的网络结构、但更低的计算复杂度

对每个卷积操作添加1x1卷积操作,然后进行点乘法运算,使模型变得复杂,但可以大大减少前向传播的计算量。

那个想法很简单。 例如,在任何卷积中,ReLU结束后,通常在约40%以上的位置发现其输出为0。 如果此位置的输出为0,则原始值是什么就不那么重要了。 进一步考虑,是否可以用更少的计算成本快速估计它们变为0的位置。 这样,就不用计算具体的卷积了。 如果我们40%的位置是0,上面有40%的计算量,就可以忽略。 下面是11卷积,所以其计算量只有约1/9或更少。 这样做很有价值,因为你在1/9的时间里可以节省40%的计算量。 另一方面,理论上,这种网络结构保证潜在的最佳分类性能不会下降。

我们用不同的数据库、不同的模型进行测试,一般可以加快20%到40%的速度。 这对追求产品体验的极限非常重要。

例如,在做普通市民(603883,诊疗股)想承担的加装ADAS、做车辆检查、用手机APP实时人体关键、背景动态叠加时,降低能耗非常重要。 用芯片降低耗电量的话,成本会变高。 从深度学习研发的角度来说,如果能从算法的维度降低功耗,价值将会非常大。

最后用这张图做一个简单的总结。 深度学习的研发有两个非常不同的目标:追求算法精度的极限和追求产品体验的极限。 区别在于,一是专注于用脑,二是专注于用心,同时它们相辅相成、相互促进。

雷锋网整理。

雷锋网原创文章,未经许可禁止转载。 详情请参照转载须知。

联系电话 400-6065-301

留言