慧川智能康洪文:AI让视频更简单
本篇文章1668字,读完约4分钟
在人工智能和各行各业融合的背景下,人工智能+视频能碰撞出什么样的火花?
7月8日,在由中国计算机联合会(ccf)主办、雷锋主持的第二届ccf-GaiR全球人工智能与机器人峰会人工智能+特别会议上。汇川智能首席执行官康重点介绍了人工智能在视频创作和内容理解方面的技术,希望能让视频创作者和视频领域其他员工的工作更加轻松。
杭州汇川智能科技有限公司的产品叫做智英。基于计算机视觉、自然语言处理和大规模云计算技术,智鹰目前提供两种功能:一是视频内容理解api能够从结构上理解输入视频,并提供帧级精度的详细标签(时间、地点、人、事物和事件);以及一个基于该技术的云平台,可以快速地将文字转换成视频短片。用户输入一篇文章、一个链接或一个关键词后,它会基于人工智能技术自动搜索合适的图片和视频资料,并将其与人工智能合成语音相结合,最终合并成一个短视频。当然,用户也可以调整在线制作的短片。
在团队方面,首席执行官康毕业于卡耐基梅隆大学,获得计算机和人工智能博士学位。他在微软研究院和英特尔研究院工作。他的视频作品被应用于微软的windows操作系统,并获得了视频分析和合成的美国专利。联合创始人刘茜毕业于卡耐基梅隆大学,获得计算机科学博士学位,并在美国视频大数据公司conviva担任首席架构师。肖恩·黄,联合创始人,美国宾夕法尼亚州立大学计算机科学博士。他为谷歌购物工作,并担任技术领导者。
汇川智能已获得刘清资本数千万元人民币的融资和投资。
在现场,康向雷锋解释。汇川智能如何构建整个网络视频。雷锋。(公开号码:雷锋。com)并没有改变初衷:
雷锋。目前我们主要的盈利模式是什么?
康::目前汇川智能主要为第三方提供api,如媒体平台和个人需求者。让他们直接连接到素材库,我们负责提供视频理解服务。
雷锋。慧川是如何带领团队的?
康:我们的团队成员在一起工作了很长时间,相互了解,合作了10多年。目前,智英的基础系统得益于团队近3年的技术积累。
雷锋。黄健博士的自然语言处理技能是如何融入人工智能+视频的?
康:例如,一篇文章经过自然语言处理后,其存在的关键要素,包括人、时间、地点等,都会得到具体的理解和分析,然后与素材库进行匹配。类似的自然语言处理技术和核心思想已经被用于我们的视频结构化工作中,因为我们注意到视频只是呈现信息的另一种方式。
雷锋。你能谈谈资金的具体使用方向吗?
康:我们是资本投资的。这个方向主要是投资在人员和技术上,以及技术上。目前,它主要用于构建视频理解、数据构建和采集等基本框架。
雷锋。智英的核心支撑技术是什么?
康::我们有三个核心技术支柱——计算机视觉、自然语言处理和大数据云计算平台。
雷锋。通过上传文章或图片来制作视频,视频质量会不会因为缺乏数据源而达不到标准?
康::数据稀缺的问题正是我们能够解决的。例如,当我谈到斯里兰卡拥挤的机场、热带海洋气候和当地鲜艳的服装时,你可以想象你脑海中的具体场景。你可以这样做,因为你以前有过类似的经历。我们的人工智能可以做到这一点,甚至更好。由于机器拥有大数据,它可以从庞大的素材库中搜索彼此的各种特征。
雷锋。当人工智能可以从大数据中获得场景再现时,如果你想给视频添加主观情感色彩,该怎么办?
康::目前,微妙的情绪是有点困难,但他们可以在一定程度上,即情绪分析。例如,当我们谈论特朗普时,他的言论可能有85%是负面的,15%是正面的。这种情感识别和分析在现在的自然语言处理中已经非常成熟。
雷锋。视频生成后,有没有具体的评估机制来判断它的优缺点?
康::我们有一个类似谷歌的标准来定义视频的合成质量——一个是匹配材料的相关性,另一个是整个视频制作后的质量。我们希望在接下来的几个月里,大部分自动生成的视频将是高质量的,并且可以被用户直接使用。
同时,我们目前的系统是一个交互式系统,用户可以在自动视频生成的基础上对其进行修改。作为一个客观的衡量标准,它是观察用户进行了多少修改,我们将有针对性地减少修改的数量。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:慧川智能康洪文:AI让视频更简单
地址:http://www.6st8.com/zbxw/5907.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。
上一篇:小鸣单车融资布局电子围栏