灭世邪妃匡建孙,随着技术:云计算,终端,核

  2018人工智能与机器人(CCF-GAIR)在深圳举行,由中国计算机学会(CCF),雷锋网,中国大学(深圳)香港承包商举办的峰会上,全球峰会得到政府的大力引导宝安区深圳市,是顶级的网络事件人工智能和学术界,工业界和投资界机器人的三个方面,国家的目标是创造跨境的交流与合作最强大的人工智能平台。

  

  博士。孙坚演讲CCF-GAIR网站

  6月30日,会议举行的计算机视觉,挤满会场现场,许多听众站着听完了小时长的演说。上午会议主题为“新锐计算机视觉和智能视频”,主持由刘特色的科技香港大学的RAM-LAB主任。在他的系列,ICCV 2011年CVPR 2022大会龙权,孙坚旷的首席科学家从姚志强云计算的技术,科学和技术的创始人之一的总裁,CEO任正非彭真懂技术,懂首席科学家李云飞和王晓宇天的联合商代创始人琳达华和其他学术界,产业界大咖六个深共享,计算机视觉技术,兼具动感前沿的研究成果,也有相关的技术登陆特定的方向。

  武逆苍天

  旷,随着技术的首席科学家,博士。院长孙立坚为大家带来题为“云,端,视觉上的核心计算”的精彩演讲。孙坚认为,计算机视觉简单地说,它是机器看,随着技术的旷希望做到的,“让亿万相机”,使在照相机的所有领域的应用都配备了智能,无论是在云在核心,或在端。

  计算机视觉的发展历史是如何表现历史的图像研究。学习流行的深度之前,最好的办法是基于从形象,进一步分析所提取的特征特性; 然而,这种方法有两大缺点:首先,做的方式非线性变换的数量是非常有限的; 其次,大大多数参数都是人为设计的,包括功能。深度办法神经网络来弥补设计特点手的缺点,整个非线性变换可以做很多次,换句话说,可以是非常深刻的,它的功能表现非常强大的能力,并能自动联合所有参数训练。博士。孙坚提出RESNET 152层在微软首次在ImageNet大型图像分类任务交给了人类的能力。

  随后,医生。 孙立坚各种神经网络结构出现从分类的计算机平台的角度来看:GoogleNet,RESNET放在“云”; 的ShuffleNet MobileNet旷视图并且是的此类别中“终端”; BNN,XNOR净DorefaNet邝视图被呈现在“核心”。对于相关子平台的网络设计的现状,孙立坚认为会有一个“METANET出现,可以解决统一的神经网络的设计和优化所有平台。“。

  最后,简要介绍了孙坚恽枯肮明显结束,三个核平台的计算机视觉应用,包括面部识别,车辆识别,面部支付,安全智能,财务智能,城市的大脑,物流,新的零售等待。

  

  为演讲孙坚的全文,雷锋网已经在不改变原意编辑以下。

  俘获美人心

  目前,人工智能与认知感觉一般分为两种,你可以看到一个图,其中计算机视觉在人工智能领域的位置,绿色科技代表了应用的重大突破或降落是相对成熟的,橙色和黄色需要重大突破。

  旷,为公司成立以来的技术已经七年了,一直专注于计算机视觉领域。去年,根据旷得到两个非常不错的荣誉,十项突破性的技术在沙漠中的2017年的MIT奖,为“刷脸支付技术”名单,这是中国首个技术奖技术; 麻省理工学院也将被列为沙漠,作为无。11前50名最聪明的公司2017年年度。旷视去年完成新一轮4。以600万美元的融资,用于做出更好,更深入的研究和商业楼。

  简单地说,计算机视觉是让机器可以看到。旷为自成立以来该技术已得到了答案:“如果机器能自动理解的图片或视频,我们可以做什么?“这个问题。当然,说的比较抽象,其实,具体我们想要做的是“使数以百万计的相机。“。日常生活和各行业有很多的摄像头,如手机,安防,工业,零售,无人驾驶车辆,机器人,家庭,无人机,医疗,遥感等。。在这些地方,大部分的相机都没有智慧,我们的使命是让这些相机具有智能,无论是在云中,或在芯片端; 我们要建立一个聪明的大脑,了解了很多的智能摄像头输入的信息。

  

  对于语音识别相对于计算机视觉应用非常广泛。语音识别输入和输出的多单核心目标是语音到文本。然而,计算机视觉系统的输出是非常丰富的,你需要知道身体,动作,场景内的图像/视频,包括哪些人,人的位置,行为,表情,注意力等。。你将面临各种不同行业或场景不同的任务,它允许左道官途计算机视觉成为一个庞大而快速增长的学术领域(计算机视觉今年年会的参与者CVPR近7000人),大的也诞生优秀的创业公司数量。

  

  核心计算机视觉问题,包括分类,检测,分割,分别是一个图表,地图上的各像素的不同区域,并作出图的标识。。还有,如果输入的视频,我们也需要用时间做鉴定; 它的核心是分类问题,因为它的核心和基础的三个任务背后。

  

  事实上,当人工智能出现,计算机视觉也诞生。有一个名为戴维·马尔计算机视觉的先驱,他提出的最初草图方法,并在80年代初的一项研究的计算机视觉框架,即再形象应该先检测边缘,出2 ? d草图和3D模型。但麻省理工学院的马文·明斯基教授批评你这个理论是好的,但忽略了这个问题的研究的核心 - 如何表达一个图像。

  

   早期图像表示的模型是基于计算机视觉的部分-,如人体可被分解成的头部,胳膊,腿; 脸可以分解为眉毛,眼睛,鼻子,使对象可以通过这种模块化部件的方法来表达。如果对象有一个结构,这种组合方法是合适的,但对象不是很多自然景色的如此强劲的结构是不合适的。

  灭世邪妃

  80年代,早期的神经网络也成功地用于面部和数字手写识别,但只有在这两个领域。在2001年有一个叫做中提琴&Jones的面部检测方法,它首先限定穿过的学习哈尔小波图像来表示的组合的一组Haar小波的基础上,和机器学习方法。这种方法的优点是引入表示构成学习图像,不足之处是,它是在小波基上所定义的,对象的结构也做得很好,对象不一定适合于结构。

  

  大概是在最流行的深入研究之前2000--2012年是本地基于特征的表示。该方法提取数以百计从图片内,学习这样的SIFT / HOG的描述符之前的一些深度,编码,以获得高维矢量,然后发送给SVM分类器,这是形成人造后的最佳方式特征。

  

  人类面对的是相似。我以前的研究小组还用同样的方法进行面部关键点提取,获得高维的特征,这也是人脸识别的最好方式,但它有两大缺点:第一,总体上这种方法是从进一步的输入矢量提供给非线性变换的高维向量,转换的向量数目是有限的,如果它是一个真正的非线性变换将计数三次或四次,则没有多大变化,性能没有得到改善; 第二,大多数参数都是人为设计的,包括功能,但人来设计复杂系统的能力是有限的。

  

   今天的主流方法是神经网络,这两个属性被更改的深度,整个非线性变换很长,你可以做这么多次,它代表了系统的能力非常强; 二情迷苗寨是联合训练的所有参数。这两个使神经网络的实际深度可以达到很好的效果,以及残留层网络RESNET 152时,我们提出了在微软,在第一时间超过一个人的表现ImageNet。

  

  RESNET为什么它可以工作?没有一个明确的答案到今天,当然,也有很多的解释。最简单的解释是,当你非常非线性变换层,相邻层改造的差别非常小,其直接学习这种映射,它是更好地学习更改地图,以这样的方式让整个学习过程中,尤其是优化训练过程更容易。

  另一种解释来自于纸(开明他,象屿张,少卿仁,孙立坚。深残留学习图像识别。CVPR 2016。)第二作者:张项羽,他认为整个学习过程RESNET是由浅到深一个动态的过程,在训练相当于年初训练的浅,深相当于网络培训网络中的训练后。情迷都市

  本文何凯铭有一个更“科学”的解释除了第一作者,他认为整个训练过程是下降的等效梯度深入研究,最困难的梯度消失问题RESNET解决,这种解释也发表在ECCV的论文(开明他,象屿张,少卿仁和孙立坚2016。在深残留网络身份映射。ECCV 2016。),以及在本文中首次训练神经网络层1001。

  

  有提出解释一些同事。一个是RESNET和RNN关联,如果有重分享,RESNET可以被看作是一个RNN。另一种解释是索引RESNET作为多个不同深度的网络中的集成。随着“整合”,其实这个词出现的一些问题,因为一般我们不融合算法联合训练,但RESNET在整个指数超过一个网络是联合训练,所以它不是很难界定整合。

  

  我个人的解释是一致反复改进,据说早期的学习网络层,说晚了很多层继续代表该迭代和细化。这看图识字的人的理解是非常相似,不容易明白你想看一会是什么,是基于目前的一些认识已经看到的内容,反复观看可以理解。

  

  以及从视图优化的点所解释的,如果不是RESNET损失函数此配置中,系统会很颠簸且不均匀,这是难以优武动乾坤燃文化。我们知道,整个网络训练优化问题是非凸的,如果这是不顺畅损失函数,所以很难从局部极小的训练逃脱; 如果案件是在图RESNET右侧使用,这是比较容易达到良好的地方非常小。最近的研究表明很强的以促进该地区和当地有关最低平坦部和方法的能力。

  多层RESNET学习能力是非常强的高度非线性映射。去年,RESNET成功应用于AlphaGo零系统的DeepMind,用40或80层的网络可以从图像学会板位置落子这种高度复杂的映射,这是非常令人惊讶的。

  

  2012开始出现各种神经网络结构。如果你从计算平台的角度来看,这工作,大概可以分为三类:第一类是在“云”一样GoogleNet,RESNET,我们的目标是去实现的最高精度的方向,有GPU ,TPU可以训练非常大的模型,以确定我们的知识的界限; 第二类是“结束”的平台,特别是一些嵌入式设备,在设备上这些计算能力,内存访问有一个限制,但很多真实场景中的话,那么你该怎么做上面的这项研究工作它?谷歌去年提出的移动终端设备上运行MobileNet,所提出的ShuffleNet去年技术的开放,说我们的目标是如何让计算设备一定量的最好成绩。

  

  网络的最基本的结构是多个3×3的卷积,加上跳跃RESNET方面,我们还介绍了瓶颈RESNET结构中,1×1先做,执行3×3,然后再返回到1× 1,从而可以提高卷积的效率。

  

   去年,何凯铭有一个名为ResNeXt工作,介绍了3×3的基础上分组卷积,可以很好地改善卷积的有效性的方法; 谷歌的MobileNet是一个3x3的卷积层次的方式,每一个每一层卷,这种方法是非常有效的,尤其是在低端设备。的ShuffleNet思想分组和1×1转化率分组的分层卷积卷积的组合; 但如果仅是包,那么就不要组之间交换信息,它会影响学习的功能,所以我们通过引入随机播放操作,使不同群体更好地交换信息,然后做分层3×3卷积,然后回到1×1分组卷积,这是的ShuffleNet的核心思想。相比于比的ShuffleNet快约20倍AlexNet其他方法,并在相同的精度,速度在真实设备上。

  

   这是我们专门针对手机的ShuffleNet设计,去年,它的作用是对CPU / ARM非常好; 如果在GPU上,它的表现并不好,因为CPU和GPU的特性是不一样的,有很多原因,如卷积设计,集团卷积等等,我就不赘述了。

  

  今年,我们设计了一个新的方法的ShuffleNet V2,这是第二个版本,放弃了分组卷积,引入信道分离和信道随机组合的想法。这种做法的渠道分为二,每个分支做的一个非常简单的结构,然后用随机通道合并操作,这样做的根本原因是,我们发现在网络设计的一些基本准则,例如,我们需要平衡卷积而不是疏卷积,卷积,而不是一个更有条理凌乱卷积。

  

   这项工作是在CPU和GPU上,以获得最佳精度和速度; 不仅在小模型,大型模型也取得了很好的效果,在地图上的最后一行是说的ShuffleNet v2是目前只有12的量的计算。在7G翻牌情况下,在ImageNet取得了非常高的精度。

  

  我们还需要一类神经网络芯片,它不仅具有网络设计要求上运行,同时也对网络中的表现的准确度不限制,现在最流行的方法是做的精度低,例如,BNN和XNOR网,以及DorefaNet旷,所提出的技术。法是指对神经网络的权重或激活值表示低精度的低精度的权重,例如1,2,4。如果这两个矢量可以以低的精度来表示的,该卷积由计算可以在芯片上进行计算是非常简单的位操作。

  

  DorefaNet我们的建议是第一梯度做定量研究,这使我们能够在FPGA培训,甚至是ASIC。这些设备上的计算是一回事,但其更有限的内存访问,DorefaNet这种方法可以做的更好。下图是最好的分类结果在一,二,四和六个量化精度我们得到ImageNet。

  

  

  上述分类网络设计需要考虑不同的平台,其他的问题,更多的是基于,例如,被检测到,近年来从发展检测图中,从R-CNN对SPP-Net的,我们提出为快速R的分类-CNN,然后我们提出更快R-CNN,它们是基本分类网络的第一个应用程序,然后生成不同对象检测框架。

  

  考试最权威的竞争是COCO,检测精度由图表示,越高越好。在2015年,微软亚洲研究院,我们与RESNET 37做到了。3,根据旷研究所参加了比赛,去年取得52个初步结果。5(满分为100),但也前进了一大步。我们得到COCO 2017年冠军纸张MegDet。COCO人可以被检测到,就可以提取功能,我们还研究了后者(陈伦,王志成宇翔鹏,张志强,刚欲,孙立坚工作。级联金字塔网络的多人姿态估计。CVPR 2018。),提取人体骨骼,通过人体运动,行为分析,和行为训练表示的骨架是比图片的直接分析更有效。

  最后,我们有些人在做云计算,终端,核心业务应用程序。

  

  在云中,随着技术的开放首次引入万维网的开发者。faceplusplus。COM的AI云服务。第二种产品是云服务WWW。FaceID。COM,这是目前国内最大的网络认证平台,以互联网财政,金融,旅游等行业提供在线认证服务。第三个非常大的云服务产品是大脑,这是通过大量传感器的核心城市,获得了大量的信息,然后做出决定。视觉感知是最大的一种方式,因为中国有很多的摄像头,视觉传感器通过实现这些,我们可以知道的人员和车辆性能,了解交通和地理情况。一个非常重要的应用是公共安全,即如何帮助亿万摄像机和实现高效运行安全城市。

  

  对更多的终端应用,是第一部手机。体内V7是第一个在海外上市的旗舰机,配备了人脸解锁技术,以及小米注3人脸解锁。我们体内的帮助和小米推出人脸发布之前解锁手机iPhoneX。华为荣耀V10和7C手机也使用我们的技术。为什么孙杨华为请做代言人?由于他长期游泳,指纹已经被打磨的,用人单位必须面对的解锁可以很好地使用手机。

  

  不仅是人脸解锁,此外还包括情景摄像头识别人脸AI,实时知道你拍摄的内容,调整相机参数更好,但也是一个人的脸重建,自动3D灯光效果。另一个非常有趣的应用是在深圳和杭州肯德基旗舰店,消费者可以直接面对订货刷,刷我的脸这些数字是喝果汁处理付款的玻璃领域。第二个是一个新的零售,与图像传感系统,人们可以处理货物线下,数码领域。在线零售是数字化的,用户可以根据数字化的用户统计信息或个人信息做人像,大数据分析,以帮助提高新的零售效率。我们在网上零售,你需要做的数字图像感知。

  

  最后,芯片。去年,我们在智能人像采集机发布了一个安全展--MegEye-C3S,对FPGA的DorefaNet运行,然后再装入相机,这是业界首款全画幅(1080),全帧率(30fps)的脸捕获实时检测机。

  

  那么如何做到这一点应该是向下?今天我们的子平台,根据不同的网络平台的特点而设计的。我们相信,下一代将会对每个平台和优化问题“METANET”,统一的解决方案神经网络的设计。

  谢谢你们。

  摘要:

  

  孙坚,目前担任首席科学家,沙漠的主席,科学技术在沙漠研究所(面部++)。博士。孙坚2003年毕业于西安交通大学人工智能研究所与机器人,他的研究兴趣是计算摄影,面部识别和图像理解基于学习的深度毕业。

  自2002年以来发表在CVPR,ICCV,ECCV,SIGGRAPH 100+文章,PAMI五个顶级学术会议和期刊上,谷歌学术引用20,000次,H指数58取得两CVPR最佳论文奖(2009年,2016年)。博士。孙坚在2010年被评为美国当局技术期刊MIT技术评论为“35杰出青年创新岁以下世界”。博士。孙坚率领球队获得国际比赛五枚总冠军(ImageNet分类,检测和定位,MS COCO检测与分割)在2015年的图像识别,他的团队开发的“深残余网络”和“基于区域的快速检测对象“技术已经被广泛应用于学术界和工业界。同时,研究小组孙立坚领导也被广泛应用在微软的Windows,Office兵,天青,表面,Xbox和众多的产品线。目前正由博士领导。孙坚旷,随着技术的研究团队,以促进计算机视觉技术的进步,探索在工业和商业执业。

上一篇:五行逍遥决绿皮书获奖者引争议黑人播放,但降
下一篇:情迷都市郭可盈全家福太阳郭颂琳出现怀的是双

网友回应

欢迎扫描关注我们的微信公众平台!

欢迎扫描关注我们的微信公众平台!