本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017
本篇文章3147字,读完约8分钟
国际计算机视觉和模式识别会议(cvpr)是一年一度的ieee计算机视觉和模式识别技术会议,也是世界计算机视觉三大会议之一。2017年cvpr大会将于7月21日至26日在夏威夷会议中心举行,雷锋将亲临现场报道。
李菲菲在斯坦福大学计算机科学系工作,目前是斯坦福大学人工智能实验室、斯坦福大学视觉实验室和丰田汽车斯坦福人工智能研究中心的负责人。他也是谷歌云人工智能和机器学习的首席科学家。
在这次cvpr中,李菲菲的团队成功选择了8篇论文。以下是2017年李菲菲个人简历摘要,由雷锋的《人工智能科技评论》编辑整理。
乔纳森·克劳斯,贾斯廷·约翰逊,兰杰·克里希纳,李菲菲
最新的为图像生成字幕的方法可以生成用自然语言描述图像的句子,但是图像的所有信息都被压缩成一个句子,只能粗略地描述图像的视觉内容。还有一种新的字幕方法:密集字幕方法,它可以通过标记图像中的许多区域来潜在地描述更详细的图像细节,但是这种方法不能为图像产生连贯的故事。在这篇论文中,研究者们通过生成描述图像的整个段落来克服这些限制,该段落可以描述一个详细和统一的故事。研究人员开发了一个模型,将图像和段落分解成它们的组成部分,检测图像中的语义区域,并使用层次循环神经网络来推理语言。语言分析证明了段落生成任务的复杂性,在图像和段落对的新数据集上的实验证明了该方法的有效性。
地址:arxiv/ABS/1611.0611。
通过迭代查询获得视觉问题回答的知识
人类有非凡的能力学习新的技能和知识来解决问题。自动模式也需要这种学习能力来处理视觉世界中任意和开放的问题。研究者提出了一种基于神经的方法来获得视觉问题回答的任务驱动信息。该模型提出了一种从外部辅助数据中主动获取相关信息的查询方法。来自人工计划或自动来源的支持证据被编码并存储在内存中。获取任务驱动的证据有效地提高了模型在visual7w和vqa数据集上的性能;此外,这些查询在迭代qa模型中提供了一定程度的可解释性。
论文地址:people.csail.mit.edu/lim/paper/zlf_cvpr2017.pdf
使用自我中心多模态信号的联合学习能量消耗和活动
生理信号,如心率,可以提供关于个人状态和活动的有价值的信息。然而,现有的计算机视觉工作还没有探索利用这些信号来增强对以自我为中心的视频的理解。以自我为中心的视频是由人类可穿戴设备拍摄的视频。与普通视频不同,该视频具有播放时间长、持久性强(无镜头切换)的特点。在这项工作中,研究人员提出了一个基于多模态数据的推理模型,并联合预测正在进行的活动和能源消耗。研究人员利用心率信号作为自我监控的特权,以获取训练状态下的能量消耗。多任务目标函数用于联合优化这两个任务。此外,研究人员引入了一个包含心率和加速度信号的31小时个人中心视频数据集。这项研究可以带来一些新的应用,如可视卡路里计数器。
论文地址:vision.stanford.edu/pdf/nakamura2017cvpr.pdf
视频长时运动动力学的无监督学习作者:罗泽伦,彭,,,亚历山大阿拉希,
研究人员提出了一种无监督的表示学习方法,该方法可以对视频中的运动相关性进行紧密编码。给定视频剪辑中的图像,我们的框架可以学会预测长期的3d动作。为了降低学习框架的复杂性,研究人员提出将运动描述为通过rgb-d模式计算的原子3d流序列。研究人员使用基于循环神经网络的编码器-解码器框架来预测这些过程序列。为了让解码器重建这些序列,编码器必须学习稳定的视频表示,并捕捉长期运动相关性和空时间-时间关系。研究人员证明了学习时间表征在对多种模式和数据集(如ntu rgb+d和msr每日活动3d)的行为分类中的有效性。该框架普遍适用于任何输入模式,如rgb、深度和rgb-d视频
地址:arxiv/abs/1701.01821
学习从吵吵闹闹的在线视频,由杨小玲,维格内什拉马纳森,奥尔加Russakovsky,李越沈,格雷格莫里,学习
如何理解复杂多样的人类行为是计算机视觉中一个关键的开放性问题。手动标记训练视频对于一些动作类是可行的,但是它不能扩展到具有完全长尾分布的动作。解决这个问题的一个可行方法是使用半监督或“网络监督”方法,通过使用网络查询的有噪声的数据来学习新的动作。然而,这些方法通常不学习特定领域的知识,或者依赖于数据标签策略的迭代手动调整。在这项工作中,研究人员提出了一个基于强化学习的公式,从有噪声的网络搜索结果中选择正确的样本来训练分类器。该方法利用Q学习在一个小的标注训练数据集上学习数据标注策略,然后利用它自动标注有噪声的网络数据,从而获得一个新的视觉概念。在具有挑战性的Sports-1M动作识别基准(Action Recognition Benchmark)和其他细粒度的新动作类中,该方法可以为有噪声的数据学习良好的标记策略,并使用它来学习准确的视觉概念分类器。
论文地址:arxiv/ABS/17280.082000000005
教学视频中的无监督视觉语言参照解析
研究者提出了一种在教学视频中使用无监督方法的参考解决方案,旨在将视频上下文中提到的实体与作用于它们的动作联系起来。人类经常从带解释的视频中学习各种知识,比如如何拿刀切土豆。这些视频通常有语言(字幕)提示来帮助他们学习。为了使机器具有同样的能力,有必要了解视频中的实体和动作。这个问题的关键挑战是视频中实体的外观和引用名称的变化所导致的不可避免的视觉语义模糊。例如,如果你把酸奶倒在蔬菜上,酸奶的外观会改变,酸奶的名字会从“酸奶”变成“调味品”。研究人员希望使用无监督的方法来解决这个问题,这进一步扩大了这一挑战。研究人员通过学习一个联合视觉语言模型来解决这些挑战,在这个模型中,语言线索可以帮助解决视觉歧义,反之亦然。研究人员使用youtube上的2000多个非结构化烹饪视频来研究该模型,以验证该方法。结果表明,与教学视频中参考分辨率最高的语言模型相比,视觉语言模型有了很大的改进。
论文地址:arxiv/pdf/1700.02521.pdf。
克莱夫:贾斯汀·约翰逊、巴拉思·哈里哈兰、劳伦斯·范德·马滕、李菲菲、劳伦斯·兹尼克、罗斯·吉尔希克的《合成语言和基本视觉推理的诊断数据集》
当建立一个能够推理和回答关于视觉数据的问题的人工智能系统时,有必要进行诊断测试来分析研究进展和发现不足。现有的视觉问答基准在这方面是有帮助的,但是有很大的偏差,这导致模型使用偏差来正确回答问题而不进行推理。这些基准还混淆了多个错误源,这使得很难找到模型弱点的来源。研究人员提供了一个诊断数据集来测试一系列视觉推理能力。它包含最小偏差,并有详细的注释,描述每个问题所需的推理类型。该数据集可用于分析各种现代视觉推理系统,并为其能力和局限性提供新的见解。
地址:arxiv/pdf/1612.06890.pdf。
丹·许飞,·朱,克里斯托弗·蔡,通过迭代消息生成场景图
理解一个视觉场景比识别单个物体要困难得多。对象之间的关系也构成了关于场景的丰富语义信息。在这项工作中,研究人员使用场景图(一种视觉图像图结构)来显式地建模对象及其关系。研究人员提出了一种新颖的端到端模型来从输入图像生成这种结构化的场景表示。该模型使用标准的rnn来解决场景图的推理问题,并通过消息传递来学习迭代改进其预测。这种联合推理模型可以利用上下文线索更好地预测对象及其关系。实验表明,该模型明显优于以往利用视觉基因组数据集生成场景图的方法。
论文地址:arxiv/ABS/17020.07200000005
雷锋网(公开号:雷锋网)编译
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017
地址:http://www.6st8.com/zbxw/5853.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。