新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

来源:联合早报中文网作者:邵湖心更新时间:2020-09-02 22:04:04阅读:

本篇文章3089字,读完约8分钟

毫不奇怪,阿里发布了智能扬声器。

从三年前亚马逊的无意进入到今天阿里的进入,智能扬声器市场的爆发出人意料,但它确实发生了。

Echo售出了近2000万台,紧随其后的是谷歌、微软和苹果。一段时间后,国内软件制造商、硬件制造商和内容制造商纷纷涌入。

直到本月初,阿里才正式发布智能扬声器Tmall Elf x1,这既出人意料又合情合理,因为阿里的加入,声音进入的战斗变得更加有趣。

事实上,在天猫精灵以499元的价格发布的前一天,雷锋写了一篇题为“为什么《回声》的中文版还没有出来,阿里的新人工智能产品明天能带来惊喜吗?”。

那么,阿里的智能扬声器带来了哪些不同于其他同类产品的惊喜呢?

此刻闪耀的“惊喜”。此前,有媒体称,对于这位聪明的发言人,阿里巴巴甚至暂停了马云投资数亿美元的胡椒机器人项目,并将人员团队拆分为人工智能实验室。然而,以如此高的成本生产的产品似乎与回声和其他扬声器没有本质区别,它们的功能包括播放音乐、点外卖、查看天气、设置闹钟和控制智能电器。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

根据天猫精灵对外宣传的卖点,最重要的一点是回声不具备的声纹识别功能。

阿里说,通过声纹识别技术,说话者可以区分家庭中的每个人,并根据每个人的喜好设置不同的内容。目前,它最多可以识别6个人;此外,用户还可以通过自己的语音完成购物支付验证。Echo需要进一步的操作来获取用户的个人信息,以区分人们的身份。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

什么造就了雷锋。(公开号码:雷锋。奇怪的是为什么亚马逊还没有使用echo。

据报道,亚马逊很早就想应用这项技术,但据亚马逊员工称,声波纹识别领域的硬件和软件公司反馈显示,这些声控设备识别不同用户的声音比想象的要困难得多。

“因为设备需要消除噪音、回声和混响,所以很难识别说话者的身份。”conexant语音部副总裁Vineet ganju说。

那么,具有声纹识别功能的天猫精灵真的能抓住它所关注的卖点吗?

我看到了绞刑。

为什么声纹识别暂停?

首先,在声纹识别算法方面,声音智能技术创始人陈博士在接受雷锋专访时说。声纹识别仍然是一个相对狭窄的学科,应用相对较少。目前,大多数研究都是关于动态实时检测的。动态检测方法自然需要使用静态检测的各种原理和方法,还需要加入许多其他算法,如vad、降噪、去混响等。vad的目的是检测它是否是人的声音,降噪和混响是为了消除环境干扰。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

vad中通常使用两种方法,基于能量检测和ltsd(长期光谱散度)。LTSD现在更常用。另外,特征提取需要动态时间扭曲、矢量量化和支持向量机,模型中需要隐马尔可夫模型和高斯混合模型。

从上述模型中不难看出,声纹识别仍然是一个数据驱动的模式识别问题,因为模式识别中的所有问题都存在,而声纹识别有一些物理和计算上的问题不容易解决。

声纹识别的独特性很好,但实际上,现有的设备和技术仍然难以做出准确的区分,尤其是人的声音也是多变的,容易受到身体状况、年龄和情绪的影响。在嘈杂的环境和混合的说话人中,提取和建模声纹特征也很困难。目前,远场声纹识别理论尚不成熟,研究进展不大。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

陈认为,深度学习极大地提高了模式识别的水平,甚至出现了开源的相关算法,但声纹识别的研究进展仍然不大,仍受制于声纹的采集和特征的建立。

声纹识别提供商speakin的资深科学家陈博士表示,声纹识别作为一项单一技术,在现实环境中容易受到各种影响,包括噪音问题、多人交谈、身体状况、情绪影响等。,现在真的很难。包括他们在内的一些公司也在努力通过软件和硬件算法来优化行业中的这些常见问题。多亏了深入学习的祝福,整个行业比以前进步得更快了。陈博士补充说,声纹识别只是一个环节,效果的判断取决于产品本身和使用场景等因素。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

在产品层面,刚刚发布潇雅智能扬声器的喜玛拉雅表达了自己的观点。喜玛拉雅副总裁李海波表示,公司长期以来一直致力于声纹识别的应用,但不能完全准确。目前,这只是在实验阶段,效果是平均的。

当谈到阿里·天猫精灵时,他说远场语音识别通常在3米到5米内有效,噪音降低约70分贝。如果环境噪音和声音高于这个标准,就很难醒来。在相同距离下,远场声纹识别更加不稳定。目前,客厅、电视机、厨房和床边是智能扬声器的四个常见场景,而除了床边,其他三个常见场景的实际距离通常都在3米以上,因此阿里扬声器声纹识别的具体实用性尚不清楚。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

至于为什么亚马逊echo到目前为止还没有使用这个功能,李海波认为这个技术还不成熟,虽然令人眼花缭乱,但是风险很大。

此外,感官公司的首席执行官托德·莫泽尔也认为,用回声这样的远场语音设备很难辨别谁在说话。随着信噪比的提高,设备的性能越来越差。

“降噪和语音与噪声的分离对用户识别有很大影响。到目前为止,市场上还没有能够同时处理用户识别、远场语音和噪声处理的产品。”莫泽尔说。

从远场声纹识别的实际应用出发,中国科学院自动化研究所高级智能语音算法专家刘斌告诉雷锋。刘博士说,远场语音识别受到噪声、回声和混响的干扰,语音识别和声纹识别都具有挑战性。

目前,远场语音识别的可靠识别距离约为3-5米;识别声纹更加困难。因为语音识别的目的是理解语音信号中的语音内容,所以语音内容信息与主要集中在低频带的共振峰值高度相关,并且语音信号在低频带具有较高的能量,并且相对较少受到外部干扰的干扰,而与说话者相关的特征更多地集中在高频带,并且高频带的能量相对较低,这使得更容易接收各种干扰。因此,远距离声纹识别更具挑战性。他立即表示,由于每个人的语音特征都会随着不同的因素而变化,比如感冒时的发音肯定会与正常人不同,所以近场声纹识别并不一定特别成熟,远场条件下也绝对不容易实用。一般来说,对于大多数用户来说,声纹识别不仅仅是智能扬声器所需要的。从技术角度来看,声纹识别还不成熟。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

那么,与远场语音识别相比,为什么阿里把不成熟的远场声纹识别技术紧急应用到说话人身上呢?

除了利用这一技术满足用户的个性化需求并寻求差异化以抢占市场之外,刘博士还提到,由于阿里在电子商务领域的积累和优势,其在电子商务身份认证中的应用也是阿里的重点方向。

阿里基于淘宝和天猫的巨大资源优势将购物场景引入扬声器听起来可以理解,但从亚马逊之前应用这一场景来呼应来看,用户并不经常使用它购物,他们的体验也不理想。

迅飞CEO胡雨在接受雷Feng.com采访时表示,从整个市场的角度来看,购物场景在音箱中的应用还很不成熟。真正的需求必须是用来满足用户需求行为的功能。虽然echo现在卖得很好,但是经过调查发现,用户真正使用得更多的工具只是设置一个提醒和查看天气。亚马逊推出的回声语音购物功能以前没有实现过。当用户使用语音交互购物时,他们会发现其中的每个环节和场景都相当麻烦,不像直接在屏幕上操作那么方便。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

因此,这也是许多企业一直强调语音交互和视觉呈现的原因,因为当用户面对没有视觉呈现时,你得不到足够的信息,所以很难完成一些复杂的操作。因此,一些功能和场景是我们和空一起想出来的,但是当我们把它们付诸实践时,我们发现用户的思维和行为习惯与产品设计的不同。

阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

从这里可以看出,如果用户还没有养成使用电子商务功能的习惯,而且声纹技术存在很多问题,那么如果在电子商务中加入声纹识别,将很难通过视觉检测来经受住市场的考验。

激进的产品策略总的来说,阿里为智能扬声器添加声纹识别有一个很好的起点:打出回声和京东丁咚所没有的功能营销牌,利用尖端技术在同质化产品浪潮中增强竞争力。

但是在整个技术和市场成熟之前,阿里仍然热衷于移植声纹识别,这个节点的产品策略显然是激进的。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:阿里智能音箱力推的“杀手锏”功能,也许只是个“伪卖点”

地址:http://www.6st8.com/zbxw/5261.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部