新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

来源:联合早报中文网作者:邵湖心更新时间:2020-09-02 22:52:02阅读:

本篇文章8083字,读完约20分钟

根据雷锋的人工智能技术评论:7月7日,全球人工智能和机器人峰会(ccf-gair 2017)如期在深圳举行。会议由中国计算机学会主办,雷(公开号:雷)和香港中文大学(深圳)承办,汇集了来自世界各地的30多位人工智能科学家和近300家人工智能明星企业。雷锋。com近日将陆续发布峰会的精华,回馈给支持雷锋的读者。好久不见了!

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

这次,我们邀请了中科视觉的首席技术官和中国科学院计算技术研究所的研究员山博士,在gair 2017大会上分享这一精髓。

中国科学院计算技术研究所研究员、博士生导师、中国科学基金青年科学奖获得者山石光,现任中国科学院智能信息处理重点实验室常务副主任,中科师陀创始人、董事长兼首席技术官。他的研究领域是计算机视觉和机器学习。他在国内外期刊和学术会议上发表了200多篇论文,其中包括60多篇ccf a论文,被谷歌学术引用超过10000次。他曾被邀请担任国际会议(如iccv、accv、icpr、fg和icassp)的现场主席,目前是国际学术期刊(如ieee、tip、cviu、prl、neurocomputing和fcs)的编辑委员会成员。研究成果获得2005年国家科技进步奖二等奖、2015年国家自然科学奖二等奖和2008年CVPR最佳学生海报奖亚军。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

你如何看待这个人工智能热潮?谷歌的alphago和李世石的天罚让人工智能再次成为热门话题。山石光博士早在20年前就开始在人工智能领域进行计算机视觉技术的研究。在这次gair会议分享中,他结合自己过去的研究经验和行业观察,从四个不同的角度进行了分析,并给出了自己对这次ai热潮的一些看法:

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

从方法论的角度来看,过去几十年来流行的由人类专家知识驱动的人工智能方法已经完全被数据驱动的人工智能方法所取代。这里的数据主要是指受监管的大数据。人类智能的产生是否完全基于受监督的大数据学习仍然是未知的。从这个意义上说,计算智能和人类智能之间的区别是未知的。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

从学术角度来看:尽管监督大数据驱动的方法在某些领域建立了超越人类智能的人工智能,但在机器智能时代,基于监督大数据的深度学习是否是一种充分和必要的基本方法?就个人而言,他认为这至少是不够的,需要一种新的方法。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

从算法的角度来看,它主要得益于两种方法:深度学习和增强学习。强化学习是众所周知的,因为阿尔法戈在围棋中击败了最强的人类棋手。然而,事实上,强化学习不能在许多场景中使用,至少在视觉和语音处理等任务中没有得到有效应用。虽然在人类学习方法中,深度学习可以与归纳学习相比,但它不适合演绎学习。深度学习能否广泛应用于推理任务尚不清楚。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

从计算机视觉的角度来看,包括智能视频监控、考勤控制等在内的安全应用、医学图像阅读和基于视觉的汽车辅助驾驶是计算机视觉技术的登陆方向,市场上商业产品如雨后春笋般涌现。

关于演讲主题中X的含义,山石光博士在接下来的演讲中给出了X数据的五个含义,即:第一,大数据;第二,小数据;第三,脏数据;第四,没有监督数据;第五,它是扩充,通过它可以获得更大的数据集。以下共享记录将对每个含义进行详细解释。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

为什么用x数据开车?

山石光博士将深度学习算法、强大的计算能力和大数据比作人工智能革命背后的“三驾马车”。这个“三驾马车”背后的真正问题是金钱投资,这需要非常强大的人来做深入的学习算法,建立一个更强大的计算平台和收集更多的数据。数据收集和注释的成本变得越来越昂贵,所以他们想看看是否能做点什么。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

关于seetavision技术人脸识别技术:seetavision的多姿态人脸检测技术是标准人脸检测评价集fddb上最好的方法之一。在100次误检的情况下,视觉的检出率达到92%。此外,开发了检测加速技术,可以在嵌入式设备上实现实时多姿态人脸检测。人脸的第二个核心技术是人脸关键特征点的定位,seetavision实现了对81个关键特征点的超实时检测和跟踪。Seetavison的人脸识别应用包括证人一致性验证、员工出勤和打卡、黑白名单目标检测等。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

手势识别:seetavision可以实现实时手语翻译,就像语音识别一样,将1000个常用词组成的手语句子翻译成自然语言文本。基于此,Vision与美的合作将其应用于智能家居。

情绪计算:seetavision的基本表情识别率在85%以上,基于普通摄像头的心率估计非常接近医疗设备的检测结果。

视频结构化:对于智能视频监控应用,seetavision在嵌入式设备上实现了对人和车辆的实时跟踪,准确率超过85%。

无人机视觉:seetavision在高清视频中实现对地面车辆和其他目标的实时检测、分类和跟踪。

山石光博士还说,中科视觉的最终目标是让人工智能认识人和看到世界,并把智能的眼睛放在每一个人工智能上,这样它就可以看到它在与谁互动,周围的环境是什么样的,正在发生什么。然而,面对市场上有许多从事人脸识别等视觉技术的创业公司,他们如何在竞争中脱颖而出呢?山石光博士表示,seetavision的业务模式定位为“开源与授权”,走差异化竞争之路,注重与行业客户的深度合作。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

分享会结束时,山石光博士总结了人工智能未来发展应注意的问题。他认为:

首先,鲁棒性可能是人工智能和视觉智能中最致命的问题之一。第二,人工智能的发展需要多模式的合作,不能仅仅依靠视觉智能或声音智能。第三,如何准确完成基于小数据甚至零数据的各种视觉任务需要大量深入的研究。

以下是山石光博士在2017年ccf-gair的现场记录。雷锋。com在不改变初衷的情况下做了一个编辑:

我今天报告的主题是“X数据驱动的seeta平台和技术”。也许每个人都想知道X是什么。在这里,我们认为X暂时是一个问号。在下一份报告中,我将重点介绍我们从X数据开始所做的工作。

事实上,我们都深深地意识到,我们正面临着一场前所未有的人工智能技术革命和应用井喷。在这种状态下,背后有“三驾马车”或“三个引擎”,即深度学习算法、强大的计算能力和大数据,它们共同产生了这种新的人工智能热潮。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

为什么我的报告的标题叫做“X数据驱动”?我主要从数据的角度看我能为人工智能行业做些什么。

从方法论的角度来看,这一人工智能热潮主要源于人工智能研究范式的转变。也就是说,从人类专家的知识驱动方法到数据驱动方法的转变。就数据而言,我们实际上是指受监管的大数据:一方面,数据量必须足够大,另一方面,数据必须标有内容。目前,人类智能的本质和当前的计算智能之间的区别仍然是未知的。因此,我们有必要从学术的角度来讨论数据驱动或监督大数据驱动的方法论是否将成为我们构建整个机器智能时代的基础。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

当然,在当前受监管的大数据驱动方法下,人工智能确实在某些领域超越了人类智能。这一轮人工智能热潮主要得益于两件事:深度学习和强化学习。强化学习是众所周知的,因为阿尔法戈打败了围棋中最强的玩家。事实上,强化学习并不是一种普遍适用的方法。它不能用于很多场景,尤其是视觉和语音场景。因为它要求人工智能自动判断它是对还是错,比如玩围棋或游戏,做得好还是不好,该算法可以自动判断它是好是坏,对还是错。有些问题像我们的视觉和听觉,比如人脸识别,ai算法本身是错误的,它不能知道它是错的,也不知道它是不是对的,所以很难形成一个迭代的自我增强过程。如果很难重复,很有可能你会愚蠢地学习,甚至着魔。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

因此,强化学习并没有很好地应用于这些问题。目前,深度学习适用于解决我称之为“好数据是肥沃的”的领域,并且通常只对应于人类学习方法中的归纳学习。然而,除了归纳学习,人类学习也包括演绎推理。对于演绎推理,深度学习有严重的缺点。举一个演绎推理的例子,比如几何元素,欧几里德从五个公理中推导出来。目前,用深度学习来做这种自动推理是完全没有希望的。当然,这是一个极端的例子,但是我们在日常生活中需要大量的推理。目前,要深入学习没有什么可做的。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

李开复老师过去多次提到,在未来10年,人工智能可能会取代10种职业中50%的工作。我不知道如何看待它。就我个人而言,我认为保姆可能仍然难以替代,也许医生更有可能被替代。从计算机视觉的角度来看,医学图像阅读是一个非常重要的方向。对于那些做人脸识别或图像识别的人来说,安全是我们更感兴趣的一个群体。在未来10年,也许不是50%,但80%的安全性将被一些自动系统所取代。例如,我们的一个公司客户使用我们的人脸识别技术对公司进行访问控制和考勤。拥有10,000名员工,无需员工卡即可实现自动识别、开门和考勤系统。我想将来可能没有必要让保安坐在那里。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

去年8月,我和我的学生根据计算技术学院视觉信息系的研究成果,成立了一家名为中科视觉的公司,并组成了一个产学研联盟,共同开发视觉技术。我们的目标是让人工智能认识人,看到世界,让每一个人工智能都有一双聪明的眼睛,让它看到它在和谁交流,周围发生了什么,从而对这些场景做出明智的反应。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

我们主要的基础技术是机器学习,尤其是理论、方法和技术的深度学习。基于这些机器学习方法,我们在人脸识别、情感计算、视频结构化和无人机视觉方面有自己的布局。我们过去的积累包括这些领域的竞争,我们已经取得了一些最好的成果,包括人脸识别、手势识别、行人检测、图像搜索等。正如我们刚才提到的,这个行业已经有很多前辈了,比如商汤、face++等等,这些都比我们领先了很多年。我们也希望在商业模式方面不断探索新的道路。现阶段,我们采取了“开源与授权”的差异化方式,并与部分重点客户进行了深入合作。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

所谓的开源意味着我们可以向B端客户提供源代码级的引擎技术。此外,我们可以提供发动机技术来生产这些发动机。一般来说,我们不仅卖鸡蛋,还卖下蛋的鸡。这是一种完全不同的合作模式。去年8月,CTV开启了seetaface人脸识别引擎。虽然它不是行业中最好的人脸技术,但它提供了一个优秀的基准,大大提高了行业中的基准水平,为一些公司提供了参考。许多客户在他们的产品中使用seetaface代码,然后与我们建立了更深层次的合作。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

在这里,我还展示了我们的一些核心技术:

多视角人脸检测技术

在人脸检测中,基于fddb实现多姿态检测是最好的方法之一。事实上,我们都很熟悉人脸检测,也就是说,我们知道这张图片中有多少张人脸。Fddb也被广泛用作该领域的标准评估,当有100个错误检测时,我们的检测率接近93%。此外,我们还实施了许多加速方法来实现快速人脸检测,包括在一些嵌入式设备上进行实时检测。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

面部关键点定位技术

面部关键点定位技术是指基于人脸检测的面部关键点的定位。我们的技术可以定位80多个面部特征点,当然,我们可以定位更多,但数量并不重要。我们已经实现了超实时特征点定位,并在相关数据库中取得了最好的结果。基于这些技术,我们实现了一些人脸识别应用,包括1: 1证人比对、屏幕身份照片人脸验证和人脸考勤系统。与简单的证人比较相比,在公安的应用场景中,身份证检查中心会在照片上添加一个网印,然后发回,但我们需要先去掉网印,然后与现场人员进行比较,看看是否是这个人。目前,我们的算法能够正确判断。在考勤方面,该技术已经成功应用,可以实现1万名员工的考勤和门禁。在错误识别率约为1%的情况下,正确识别率可达95%以上。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

情绪计算和心率估计

另外,我们公司积累了一些情感感知,可以达到85%以上的表情识别率。Seetavision还可以实现精确的心率估计,其中心率估计是指通过用摄像机拍摄人的面部视频来估计人的心跳次数。只要相机条件好,就可以准确估计。

手势识别和视频结构化分析

我们也有一些手势识别和手语实时翻译的技术。手语识别是指用手语输入一个句子,并将其实时翻译成文本。我们与美的合作实现了智能家居控制的一些基本手势的准确识别。

此外,在视频结构分析方面,我们还可以跟踪人和车辆,在tx1上实现了准确率超过85%的实时检测。

无人机视觉技术

另一个方向是做无人机视觉,可以实现地面车辆的目标检测和地面车辆的实时跟踪。左图显示地面车辆目标检测。每个绿盒子都是我们发现的车辆。我们故意选择了交通堵塞的场景。当目标很小很密集时,人体识别存在很多困难,但我们的算法可以达到90%的检测准确率。右边的视频是实现跟踪,可以实现对地面车辆的实时跟踪。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

现在我回到报告的主题,即X数据驱动。我想谈谈关于X是什么的几种不同的情况。

首先,x= big,这是由大数据驱动的视觉引擎的设计。现在,大公司和小公司都在拼命收集数据,优化和培训深度学习模型。我们有数以百万计的人脸数据,每个人都有许多不同的场景和照片。我们也有数以千万计的关于车辆和行人的图像和视频,我们对这些数据做了大量的标注,比如人们头部、躯干和四肢的标注信息。在无人机视觉方面,我们在大约三四个月的时间里积累了数百万的无人机视觉数据,可以实现对车辆目标和车型的检测和估计。在大数据的条件下,人们的经验是完美的,并且是见多识广的,如果你看得多,你可以积累很多经验。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

其次,x=小。在许多情况下,我们获得智力的能力并不依赖于大量的数据学习,而是依赖于一些小数据。所以在小数据的情况下,如何使我们的算法有效。

最常见的想法是进行迁移学习。进行迁移学习的最简单方法是进行微调。我们用少量数据调整和优化一个训练好的模型,使其适应这些小数据所代表的应用场景。例如,2015年,我们参加了感知年龄评估竞赛,并获得了亚军。我们使用的算法是在人脸识别数据库中使用数百万的数据进行训练,然后使用成千上万的真实年龄数据进行微调。最后,我们在竞争对手提供的年龄感知测试数据集上取得了非常好的结果。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

在人脸表情识别方面,我们在2014年参加了一个比赛,由于没有大量的人脸表情数据,所以我们使用人脸识别数据进行训练,直接使用人脸识别的特征,最终获得了第一名。可以看出,我们的许多任务,尤其是相关任务,可以通过使用相关字段中的数据进行迁移。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

另一个例子,例如面部特征点定位,使用面部标志点的数据集。如今,学术界或工业界可能有许多不同类型的数据,例如,一个数据集可能有68个点,而另一个数据集有74个点。他们的定义不同。如何将它们结合起来,使之更大,从而形成更好的算法,也是一个值得关注的方向。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

我们的一位博士生提出了这样一个算法,它使用预测填充和深度回归来解决问题,其背后是深度学习方法和一些适应性调整。

另一个例子是,手机上将会有越来越多的摄像头,可以是彩色的、黑白的、深度的或近红外的。如何共享这些摄像头采集的数据也是一个值得研究的课题。例如,在rgb-d数据集不足的情况下,如何基于大量的rgb数据完成跨模态融合以获得更好的结果。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

首先通过不同的模态数据建立深度学习模型,然后通过共同的网络进行融合,再通过反馈调整各个模块的深度模型,最终实现不同模态数据之间的跨模态比较和融合利用。

实际上,这种方法也是利用小数据和大数据之间的关系,在小数据条件下更好地学习算法模型。这样,我们去年在CVPR 2016发布的模型实现了颜色和深度信息的融合甚至比较。这是第二个x=小数据。

第三,x=脏,在许多情况下,它是脏数据。所谓的脏数据,比如在百度图片中搜索“成龙”,确实会反馈很多成龙的照片,但也会有很多不是成龙的照片。我们不想雇佣1000人来用大量数据来标记它,所以我们简单地实现了基于噪声数据的机器学习。因此,今年我们提出了一种具有“自我纠错学习”能力的深度学习方法。在深入学习的过程中,我们学习算法并估计哪些样本的标签可能是错误的。我们纠正一些可能是错误的标签,以便得到一个更好的算法。使用这种策略,我们发现即使增加40%或60%的错误标签,我们的算法也能达到良好的深度学习效果。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

X=脏,这可能有另一个含义,例如,有闭塞。我们还提出了一种算法。在这个任务中,我们可以填充脸部被遮挡和肮脏的部分,然后实现感知。重复这两个过程,形成联合学习。这项工作发表在cvpr去年,这也取得了很好的结果。

第四,x也可能是无监督的数据。所谓的无监督数据是指可以不用标签使用的数据。想象一个场景,例如,我们有很多东方人的标记数据,但是有相对较少的标记黑色数据,我们可以在互联网上找到很多没有标记的黑色数据。如何利用这些未标记的数据进行识别是一个非常重要的问题。因为只有东方数据被用于训练,识别黑人的效果会很差,反之亦然,所以我们需要调整模型来实现从东方数据到无监督的黑人数据的迁移。我们在这一领域的工作发表在iccv2015上。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

第五,x也可以是扩充数据,也就是说,可以通过修改少量现有数据来生成大量数据。人类有能力从别人那里得出推论,例如,给你一张平面照片,在看到这张漂亮的照片后,你会举一反三。你如何推断?我们可能想知道这个人从侧面看是什么样子,他笑起来是什么样子,戴上眼镜后会是什么样子。我们有这种能力。我们能让机器有同样的能力从一张照片中扩展出大量的数据用于学习吗?这是一个基于3D模型的数据增强效果的例子。我们可以从不同的角度生成这个帅哥的照片。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

完成这项任务的另一个方法是采用在过去两年中非常流行的gan方法。输入最左边的照片,用gan生成不同表情的照片。可能还有更复杂的,比如戴眼镜和留胡子。当然,这也是有条件的,并不是说每张照片都可以做得这么好。基于gan生成的人脸图像能否用于提升算法仍是个疑问。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

总而言之,x等于多少?大数据、小数据、无监督数据、脏数据或扩充方式,实现大量数据收集。事实上,还有一个非常重要的观点,那就是比较人,人们经常自找麻烦,当然不是自找麻烦,而是索要数据。例如,当我们观察一个物体时,如果我们不能从一个角度全面地观察它,我们将从不同的角度收集数据。这种主动收集数据的能力是人工智能系统在现阶段升级到自主人工智能系统的基本能力,特别是对于自主无人机和机器人。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

此外,从视觉智能的宏观角度来看,我们已经清楚地看到,鲁棒性是视觉智能乃至整个人工智能的核心问题之一,即如何做到万无一失。事实上,在一些情况下,像人脸识别,我们已经万无一失,但仍有许多实际应用,如智能驾驶。我们需要万无一失,这意味着我们需要百万分之一的误差率。在这样的条件下,它可以被广泛使用。在这种情况下,大数据本身是否足够令人怀疑。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

我们比较人类的发展和成长过程。人类有两个特点:第一,多模态数据协作;第二,基于小样本的自主学习。

多模式数据协作

人类多模态数据协作意味着什么?对于人来说,除了眼睛,我们还有很多其他信息来帮助我们的智力发展,包括发音、姿势、动作,以及它背后的大量知识库。因此,人类是一个健壮的人工智能,需要一个多模态的系统来协同工作,这就给我们带来了人工智能的成长和发展也需要多模态的思想。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

基于小样本的自主学习

就人类智力发展而言,我们生来就有“大脑”和所谓的智商。从出生开始,我们的神经系统基本上发育几乎,并且在我们3岁的时候基本完成。也就是说,作为一种高级生物,人类在经历了数百万年甚至更长时间之后,已经进化出了这样一种“先天大脑”模型。假设我们把深度学习作为一个类比模型,这意味着当人们出生时,祖先已经通过使用大量的数据帮助我们训练了一个深度学习模型。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

在后期的增长过程中,实际上是基于小数据的深度模型的不断调整和自适应优化。因此,我们认为人工智能开发中非常重要的一点是如何在小数据甚至零数据的基础上完成智能开发和习得性学习。例如,让我告诉你一个人长什么样。你从未见过这个人。你从未见过这个人的照片。我们称之为0数据。如何识别这个人是人工智能面临的一个挑战。在这样的应用场景中,未来会有大量的研究空空间。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

综上所述,从人类智能的角度来看,人工智能要想在更多的场景中获得强大的视觉能力,还需要基于小数据甚至零数据的自学习能力和多模态数据协作能力。这两种能力为人工智能的发展提供了可能,也为人工智能真正了解世界、服务人类提供了可能。

中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

这就是我的演讲,谢谢!

雷锋。com整理和编辑

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:中科视拓CTO山世光:如何用X数据驱动AI成长? | CCF-GAIR 2017

地址:http://www.6st8.com/zbxw/5273.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部