新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

来源:联合早报中文网作者:邵湖心更新时间:2020-09-01 18:56:04阅读:

本篇文章5745字,读完约14分钟

根据雷锋的人工智能技术评论:7月7日,全球人工智能和机器人峰会如期在深圳举行。会议由ccf主办,雷锋和香港中文大学(深圳)主办,聚集了来自世界各地的30多位人工智能科学家和近300家人工智能明星企业。雷锋。com近日将陆续发布峰会的精华,回馈给支持雷锋的读者。好久不见了!

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

本次介绍的嘉宾是微软亚洲研究院高级研究员梅涛博士,他与大家分享的主题是“视频内容的生命周期:创作、处理和消费”。

梅涛博士,微软亚洲研究院高级研究员,国际模式识别学会会员,美国计算机协会杰出科学家,中国科技大学和中山大学兼职教授。他的主要研究兴趣是多媒体分析、计算机视觉和机器学习。他发表了100多篇论文(h指数42),10次获得最佳论文奖,拥有40多项美国和国际专利(18项授权)。他的研究成果已经十多次成功转化为微软的产品和服务。他的研究团队目前致力于对视频和图像的深入理解、分析和应用。他还担任ieee TMM和acm Tomm等学术期刊和模式识别的编委,并担任多个国际多媒体会议(如acm多媒体、IEEE ICME、IEEE MMSP等)的会议主席和项目委员会主席。)。他分别于2001年和2006年获得中国科技大学的学士和博士学位。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

为什么分享“视频内容”的主题?梅涛博士从三个方面解释了他为什么想和大家分享“视频内容”这个话题。首先,与图像相比,视频信息更丰富,处理起来更具挑战性。其次,计算机视觉技术领域有很多研究,如人脸识别、人体跟踪等。,而对互联网视频内容的研究相对较少;最后,他说他十年前开始研究视频,每个人都说视频是下一个出口,这在今天似乎是真的。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

在传统的视觉理解方法中(2012年之前),解决视觉问题基本上有三个步骤:

首先,要理解一个对象,比如识别一个表,我们必须首先检测一个关键点(比如角、边、面等)。);

第二,人为地设计一些特征来描述这些点的视觉属性;

第三,使用一些分类器来分类和识别这些人工设计的特征作为输入。

现在深入学习,尤其是在2012年初之后:

“图像理解的错误率正在下降,深度神经网络已经从最早的8层发展到20层,现在可以达到152层。我们的最新工作还表明,深度神经网络的视频理解也可以实现目前的199层从11层的3d cnn在2015年。”

梅涛博士在讲话中还说,视频内容的生命周期可以大致分为三个部分,即视频创作、处理和消费。

梅涛博士给出了一个关于如何制作视频的基本概念。“视频的生成是将视频一个接一个地切割成镜头,这些镜头可以被看作是一个接一个的断码,然后每个镜头被组合成一个故事或场景,并且每个镜头可以被细分成子镜头,每个子镜头可以由关键帧来表示。”通过这种分层结构,非线性视频流可以像分割文章一样被结构化,这是以后视频处理和分析的基础。通过这种结构将视频分解成不同的单元,我们可以对视频进行自动摘要,即将一个长视频自动剪辑成一个精彩的短视频,或者将一个长视频用一些具有很高视觉表现力的关键帧来表现。这些摘要使用户能够快速、非线性地浏览长视频。”

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

梅涛博士说,微软已经将视频摘要技术应用到必应的视频搜索中,现在全世界有800万必应用户可以通过一种叫做multi-thumb的技术快速预览每个视频搜索结果。

管理(处理)当用户有一个视频时,研究人员应该做的是给视频剪辑加标签,这样下面的搜索就可以根据标签搜索视频内容。“我们最近的工作可以在视频内容上放置1000多个静态标签和500多个动作标签。我们设计的P3d(伪3d resent)是一个专门为视频内容理解而设计的3d残留网络。”

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

目前,用于图像分析的最佳深度神经网络是微软亚洲研究院在2015年提出的152层残差网络(resnet)。目前,最深的神经网络可以达到1000层。但是在视频领域,目前最有效的专门为视频设计的3d cnn只有11层。

为了解决这个问题,梅涛博士说,该团队最近借用了resnet的概念,3d cnn的层数达到199层,在ucf 101数据集上的识别率比以前的3d cnn高6到7个百分点。这种自动视频标记技术将用于微软的azure云服务。

除了实现视频自动标记技术,梅涛博士还解释了该团队的“进一步”研究工作:使用连贯的自然语言,而不是孤立的单个标记来描述视频内容。

“例如,给定这段视频,我们可以生成一个句子来描述这段视频吗?我们以前说这个视频是一个舞蹈,但是现在我们可以告诉你一群人在跳什么样的舞蹈。这种技术被称为视频字幕。这项技术使自动生成视频标题成为可能。”

目前,微软亚洲研究院在聊天机器人的自动评估功能中使用了这项技术,如微软萧冰。当用户上传视频到萧冰时,它会互相称赞。这项技术推出一个月后,视频网站上萧冰的粉丝增加了60%。当然,萧冰仍然可以根据图片写现代诗,我们希望萧冰将来也可以根据视频写诗。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

“我们还可以编辑视频、添加滤镜或转换风格,使自然视频非常卡通化。视频中的角色可以被分割并放到另一个虚拟场景中。你可以想象,当两个人在不同的地方相爱时,我们可以给他们一个房间,让他们在同一个房间里聊天,在明星空的带领下,在一个安静的湖上的小船上。此外,我们还可以提供讲故事的服务,让未经任何编辑和处理的原始图像和视频集合可以变成一个极具吸引力的故事,具有一定的设计感和视觉感,而这个视频演示就是机器自动生成的效果。通过手动处理,视频可以变得更加时尚。”

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

消费视频消费通常与广告密切相关。梅涛提到,视频广告有两个问题需要解决:第一个问题是广告在视频中的位置;第二个问题是选择什么样的广告,以及这个广告是否与你的插入点的信息相关,这使得用户的接受度更高。

他们的解决方案是分解视频并计算两个度量,一个是不连续性,它衡量广告插入点的故事是否连续;另一个是吸引力,衡量原始视频的内容是否精彩。这两种方法的不同组合可以满足广告商或观众的需求。

最后,梅涛得出结论,在研究者眼中,人工智能或深度研究还有很长的路要走。“尽管计算机视觉已经发展了50多年,尽管人工智能现在非常热门,但在进行科学研究和技术开发时,仍然有必要以脚踏实地的方式解决一个场景和一个潜在的基本问题。”

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

以下是梅涛博士的现场分享记录。雷锋。网站在不改变初衷的情况下进行了编辑

我很高兴与你谈论视频内容领域。为什么谈论视频内容?原因有三:第一个原因是视频比图像更深,视频是信息领域的一个东西,所以研究视频是一个很大的挑战。第二,在许多特别的表演中,每个人都看到了在视野、表情和安全方面的进步,而视频领域对每个人来说都是一个相对较新的事物。第三,十年前我做过视频研究。每个人都说视频是下一个出口。今天,这种说法似乎也是正确的。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

计算机视觉可以被认为是人工智能的一个分支。20世纪60年代cv创始人之一马文·明斯基(marvin minsky)说:“把摄像机连接到计算机上,计算机就能理解摄像机所看到的世界。”这是一个成为简历人的梦想。在过去的50年里,cv领域的发展取得了许多成就。综上所述,从视觉理解的角度来看,解决视觉问题基本上有三个步骤:首先,要理解某样东西,比如识别一张桌子,我们需要检测一些线条和边角。其次,一些特征被人工设计来描述检测到的特征。第三,设计一些分类器。这是我们在2012年前做简历的三个步骤。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

你可以从这个图中看到cv的一些进展,例如,尺度不变特征变换已经被引用了55000次。另外,如果你做了人脸识别,你会知道你需要定位人脸区域。2001年,我们有一种方法,boosting +cascade,用于快速人脸定位。到目前为止,虽然我们都知道人脸定位有很多深入的学习方法,但是这种方法仍然是第一个必须的步骤。这篇论文到目前为止已经被引用了3万次,而且有一篇论文在学术界被引用了1万次以上,这是相当了不起的。2012年后,基本上每个人都在使用深度学习。从辛顿的学生在imagenet上使用alexnet,他们可以得到接近15%的错误率。从那以后,所有的视觉事物都在使用美国有线电视新闻网,如谷歌网、阿列克谢网等。我们的任务会越来越多,挑战也会越来越多。例如,我们现在正在做的是从图片中生成语言,而不仅仅是给图片或视频贴上标签。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

我们今天讨论的是视频理解。如果我们理解一个像素或一幅图片或视频,我们可以把这个理解问题分成几个层次。最难的是理解图片或视频中的每个像素代表什么标签。更进一步,我们关心每个物体在哪里,它属于什么类别。第三部分是我不在乎物体在哪里。如果你给我一张图片或视频,我会知道图片或视频中有什么标签。向前迈一步。例如,如果我给你一张图片,它不仅需要生成一个单独的标签,还需要看你能否生成一个非常自然的语言来描述图片。再往上,我给你一张照片。你能给我一个故事吗,比如机器现在是否能产生这样一个故事?

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

看这张照片(见ppt)。图像分类已经从最早的8层发展到20层,现在我们的152层。我们在微软做了很多工作。图像识别中有很多图像识别计算风格的转换,等等。微软有许多相关产品。例如,萧冰不仅可以和你用文字聊天,还可以通过图片和视频与你交流。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

从图像到视频,要理解视频,我们必须理解每一帧的运动。我们今天为什么要谈论视频?

如今,世界上超过50%的人每天都在线观看视频,facebook上有37亿个视频,youtube上每天有5亿个小时的视频。当我们制作视频时,我们首先想到的是广告。视频广告以每年30%的速度增长,youtube上的广告也以每年30%的速度增长。人们花在视频上的时间是花在图片上的时间的2.6倍。视频生成比文本和图片多1200%。2016年,中国有超过7亿视频用户。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

今天,从另一个角度来看,我们将关注视频内容的制作、编辑和管理过程,以及支持这一过程的技术。我们将讨论从创造到治疗到消费的顺序。

如何创建视频?有一个基本概念。视频是通过将视频一个接一个地切割成片段来制作的,这些片段可以被看作是一个接一个的被破解的代码,然后每一个片段被编译成一个故事,这个故事可以用几种语言写成。每个镜头都可以分成子镜头,然后有一个数据,这是我们视频的前提。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

今天,一个视频,也许15分钟,也许1小时,可以给你5个关键帧,你会知道这个镜头。一个8分钟的视频是否能产生30秒的内容,例如,一个体育视频,体育视频的哪一部分应该通过智能分析看得最多,是它的焦点。

另一个主题是视频生成。今天,我会给你一个段落,你会为我生成一个新的视频。这听起来很棒,但是值得挑战。我告诉你生成一个视频,也就是说,一个数字8一直在上面游动。另外,给你数字6和0是非常困难的。你能让数字6和0在里面游吗?最近,我们做了一些研究,发现我们可以做一些简单的事情,比如烤牛肉。事实上,这仍然非常困难,因为我们生成的视频的准确性非常低,所以非常困难。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

当你有一个视频时,你应该标记它。到目前为止,您可以标记1000个静态标签。您可以将这些静态标签设置到内容中。例如,视频中有一座桥,这座桥的位置在哪里?例如,一些我们可以识别的运动,左边是运动的视频,右边是我们日常生活中的一些行为。有两个动作是最难识别的,一个是跳跃,另一个是三级跳远,但是我们现在可以区分这些非常细微的差异。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

这是我们今天要讨论的唯一技术部分。我们最近做的一个非常好的工作是我们可以做深度网络,我们可以在某些方面使深度网络变得可行。例如,到目前为止,这可以达到152层或1001层,其性能超过任何网络。我们能从这个网站的图片扩展到视频吗?我把二维的卷积盒变成三维的,当它旋绕的时候,它沿着x,y,t方向旋绕,C3d模型可以达到13层,非常复杂。我们有办法分解它。一是找出这个物体的数量,使这个过程可行,二是在图像上进行处理。我们已经做了很多工作,比如这个视频是阿泰太极运动,我们可以通过p3d找出4点,这已经很了不起了。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

在这段视频中,我们可以准确地告诉你每个关节是如何运动的。例如,今天作为一个聪明的健身教练,我可以分解你的动作,告诉你哪一个是不准确的。

另一个是视频字幕,给你一个视频。你能造一个句子来描述这个视频吗?我们以前说这个视频是一个舞蹈,但是现在我们可以告诉你它是什么样的舞蹈。

这是我们制作的视频(见ppt)。萧冰可以自动评论,这不仅能告诉你它有多美,还能告诉你美在哪里。后面是一个孩子,他说你的女儿漂亮又时尚。基本上,它可以评论自画像视频、儿童视频和宠物视频。

萧冰也能写诗。最近,我们出版了一本萧冰诗集。萧冰说:“看那些星星,闪烁的星星,西山上的太阳,远处浅水中的青蛙,她嫁给了世界上许多颜色。”。

我们也做风格转换,给你一幅油画或卡通。你能把这种风格转移到视频中并表现出水波的波纹吗?

下图是一个娱乐节目,我们可以把这个角色分成另一个虚拟场景。你可以想象,当两个人在不同的地方相爱时,我们可以给他一个可以聊天的房间。

还有讲故事。我可以为您提供服务,使您的图片和视频更好吗?这些都是机器产生的效果。这种风格被称为时尚。我们只需要增加手工处理,视频可以让你的图片更时尚。这在一些面向消费者的市场场景中很容易使用。

谈到最后一个话题,这个广告是我十多年前加入微软的一个项目。当时,我们制作的视频广告有两个问题需要解决:第一个问题是广告在视频中的位置;第二个问题是选择什么样的广告,以及这个广告是否与你的插入点的信息相关,这使得用户的接受度更高。如何解决这两个问题?当时,我们提出了一个计划。我找到了一个视频并分解了它。我们有几种价值观。第一个是不连续,看看每个段落是否可以广告。它的不连续性使得用户的接受度更高。激动人心的舞台上也有广告。另一个是吸引力,这使得它是可计算的。那时,我们有两条曲线,它们有不同的方式。第一种方式是满足广告商的需求。

微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

在这段视频中,当汽车爆炸时,我们可以识别内容并在这里放置广告,这样广告和内容就可以无缝连接。我们也可以把广告放在故事需要的地方。

刚才我讲了很多场景和技术,但是在研究人员的眼里,人工智能是好的,深度学习是好的,在着陆之前还有很长的路要走,所以我们要脚踏实地的一个一个的去认识。

这是我今天的演讲,谢谢!

雷锋。(公开号码:雷锋。com)

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF-GAIR 2017

地址:http://www.6st8.com/zbxw/4932.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部