新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 体验3款未上市智能音箱:三个女人的美貌声音和智商

体验3款未上市智能音箱:三个女人的美貌声音和智商

来源:联合早报中文网作者:邵湖心更新时间:2020-08-31 08:16:03阅读:

本篇文章7985字,读完约20分钟

最新的三款智能扬声器经历了一场大pk:小米的声音很甜,丁咚学会了耍酷,并问“人很大”。

[聪明的东西,人工智能,汽车科技编辑/记者,实习生开放招聘,我们将一起看未来!简历发至hr@zhidx,详细信息回复至Zhidong公共账户中的“招聘”或查看原始链接]

智慧,东方和西方|杨宇

智能扬声器行业系列报道指南:最近几个月,智能行业的第一媒体已经渗透到智能扬声器产业链中,围绕智能语音交互的进入和智能扬声器的普及之争,已经发布了几篇深度报道。该系列还将涵盖数十家关键公司、核心交易员和行业热点话题。这篇文章是系列报道之一。

体验3款未上市智能音箱:三个女人的美貌声音和智商

党党当当~智能扬声器体验大pk第2季即将来临!!

上月初,智东推出第一季智能音箱体验大pk,使用京东;;iFlytek之家的丁东音箱a1、阿里之家的天猫Elf x1、罗基德之家的若奇、国外的“老大哥”亚马逊echo和谷歌主页(Google Home),都采用了中外音箱“混战”的模式,使得国内外早期的智能音箱“走上舞台”。同时,让我们感叹人类智慧的伟大!

体验3款未上市智能音箱:三个女人的美貌声音和智商

(从左边看,是扬声器a1、亚马逊回声、谷歌主页、天猫精灵x1)

仅在过去一个月,中国又出现了一波新的智能扬声器,即雷军的小米智能扬声器和京东;;丁咚,IFlytek的第二代,以及人工智能创始人莫博伊的问答发言人。

目前,小米ai音箱刚刚开始公开测试,发布日期还没有到。作为丁咚扬声器的最新产品,丁咚II尚未上市。问说话人也在众筹。对不起,你现在不能买这三种型号!

你真的想体验最新一代的产品吗?没问题。这款智能音箱体验大pk将会用这三款最新的国产音箱带给你深刻的体验!顺便说一句,“剧透”,他们的“智商”在不断提高。

首先,每个演讲者“出现在舞台上”

以下是本期智能音箱大pk的三位“玩家”的精彩介绍,他们是小米爱音箱和小米之家的京东;;科达·荀飞的“丁咚2代”和莫博伊的“提克家问说话人”。

(从左到右,是小米ai音箱,第二代,和问音箱)

小米智能音箱是小米的第一款智能音箱产品,7月26日发布,8月22日正式公开测试,以299元的超低价格进入市场。正式发布日期尚未确定。演讲者采用了盛智科技的六麦环阵,采用了nuance、Spirit等10家语音识别公司的技术,采用了小米脑、海智智能、三角兽等语义技能,采用了猎户座空的语音合成技术,被视为拥有数百个家族实力的“小语音怪兽”。

体验3款未上市智能音箱:三个女人的美貌声音和智商

(小米ai扬声器)

丁咚II是玲珑科技推出的第二代智能扬声器产品。在玲珑科技的背后,站着电子商务巨头京东和语音巨头科达讯飞。第二代丁咚的价格约为799元(未上市),远低于丁咚a1。这款扬声器仍然使用顶部带led显示屏的8环阵列,支持声纹识别和自定义唤醒词。

体验3款未上市智能音箱:三个女人的美貌声音和智商

(丁咚2代)

《问扬声器》是Mobvoi推出的第一款智能扬声器,于8月24日发布,售价999元。该产品推出后不久仍在众筹过程中。请扬声器使用柯生勋的2麦克风阵列和联发科技的mt2601芯片。由于扬声器还没有大规模生产,为了让大家看得更快,这种智能的东西经过了移动电话工程机器的测试,所以在稳定性方面可能会有一些问题,这在这里有所解释。

体验3款未上市智能音箱:三个女人的美貌声音和智商

(问演讲者)

为了使它们更好的pk,我们从解包体验、网络分布时间、远场唤醒率、噪声唤醒率、音质、端到端响应时间、语义理解、多轮交互、内容丰富性等方面都有实践经验。,了解每种产品的性能。

所有的测试结果都来自于特定的环境,因此测试结果可能会受到网络环境等因素的制约,并且测试结果没有决定性的比较意义,只能让我们对产品进行深度体验。

第二,拆包的感觉

乍看之下,小米ai音箱是空空气净化器mini的微型版本,采用塑料外壳、立体设计和白色配色,延续了小米产品的简约和时尚。就“尺寸”而言,小米扬声器在三款扬声器中的高度为21.16厘米,略低于问答扬声器(24厘米),但重量与叮咚2代差不多,小米扬声器为636克,叮咚2代为695克。

体验3款未上市智能音箱:三个女人的美貌声音和智商

小米代言人的昵称是“小爱同学”。当你唤醒它的时候,它会用一个甜蜜的“嘿”来回应你!萧艾的同学就像一个邻家女孩,她甜美的声音真的是成千上万宅男的福祉。

丁咚2代的外观类似于谷歌主页。机身是圆柱形的,用编织网材料制成,顶部也是一个倾斜的部分。它配有led显示屏,可显示带有声音的个性化内容。它可以轻敲led屏幕醒来,用手掌盖住屏幕睡觉,在屏幕上滑动调节音量,等等。,从而改善交互体验。

体验3款未上市智能音箱:三个女人的美貌声音和智商

在声音方面,积累了两年多的丁咚音箱有多种“音箱”可供选择,如“友好随和的女声”、“甜美的童声”、“浑厚的男声”等。

与其他两个扬声器相比,扬声器很大,直径为11厘米,高度为24厘米,体积较大,这可能是由于硬件配置的不同。外观为椭圆形,由羊毛混纺材料制成,手感细腻。在顶部,一个类似亚马逊回声的音量旋钮用于阻尼滑动,并使用了36个led珠。

体验3款未上市智能音箱:三个女人的美貌声音和智商

就声音而言,请说话者使用与标准类型更相似的女性声音。所谓的标准类似于“欢迎收听新闻广播”。

第三,一次略微惊讶的有分寸的经历

据说在7月底,我们刚刚有了一个关于5个智能扬声器的实践经验,我们非常担心他们的“智商”。在这次实际的测量中,我已经做出了“滥用扬声器使我的心脏疲惫”的预期,结果让我大吃一惊,虽然才过了一个月,这一代扬声器的智商和经验却有了明显的提高。如果上一代智能扬声器是1.0产品,那么这一代扬声器就是2.0产品。

体验3款未上市智能音箱:三个女人的美貌声音和智商

1.分发时间:大大提高

联网是用户操作智能扬声器的第一步,联网时间的长短直接影响用户体验。该测试的分发时间包括“开始联网-输入wifi密码-连接网络并成功”的过程。

其中,小米音箱采用蓝牙网络分发模式,帮助音箱通过手机蓝牙连接网络,整个过程耗时20.58秒。要求扬声器使用wifi分发网络模式,并通过手机自动连接扬声器的临时热点,从而帮助扬声器连接到互联网。整个配网时间为28.59秒,在wifi配网中已经相对较快。

体验3款未上市智能音箱:三个女人的美貌声音和智商

最后,让我们来谈谈丁咚的第二代分销网络!与丁咚a1的声学分配网络相比,第二代丁咚采用了蓝牙分配网络。与丁咚a1将近一分钟的漫长分销网络“岁月”相比,丁咚II的整个过程是13.52秒!在三位演讲者中,分销网络是最快的,这让人们感到眼前一亮。

体验3款未上市智能音箱:三个女人的美貌声音和智商

总的来说,与上一代相比,三位发言者的发言时间有了很大的改善。一方面,与天猫Elf和丁咚a1的音响分销网络相比,这一代产品更倾向于蓝牙分销网络,此外,在软硬件的配合上也有所优化。

2.觉醒率:两代人都很聪明

唤醒是人机语音交互的第一步,即通过唤醒词(昵称)将设备唤醒到工作状态,这直接影响到用户对它背后的感受。唤醒率测试分为三个部分:安静环境、嘈杂环境和超嘈杂环境。唤醒率测试分别在距离2m、4m和6m处进行。

(1)在安静的环境中

(图为安静环境下5次测试未醒次数统计)

在一个安静的环境中,我们在2米、4米和6米的位置测试了三个相同音量(相对)的智能扬声器5次。在安静的环境中,所有的扬声器都表现得很好,只有小米扬声器和问答扬声器在6米远的地方一次也没有醒来。

(2)在噪声环境下

(图为噪声环境下5次测试的唤醒次数统计)

在嘈杂的环境中,我们将手机的音量调至30%,将其放在扬声器后面作为背景噪音,并分别在2米、4米和6米处用同样的声音测试了5次。

(3)在强噪声环境下

(图为强噪声环境下5次测试的唤醒次数统计)

但是就这样,我还不够!每个智能扬声器的唤醒极限在哪里?为了“滥用”它们,我增加了一个更强的噪音测试,把手机的音量调整到50%,把它放在扬声器后面作为背景噪音,然后用上面的方法测试。(注意:这种噪音相当于非常嘈杂的环境,而不是模拟的家庭环境,仅用于极端测试)

体验3款未上市智能音箱:三个女人的美貌声音和智商

果然,在如此高强度的噪音下,小米扬声器在2米的距离内只醒了三次,其他人都全军覆没。也问问演讲者。它只在2米时醒来两次,然后打开“大睡眠”模式。

然而,让我吃惊的是丁咚两代人的战斗力。在这样嘈杂的环境中,所有人都在2米处醒来,所有人都在4米处醒来,只有一次没有在6米处醒来。我不禁感到,丁咚的第二代人真的很努力地打磨着这种稳定的觉醒。

3.误醒:整体相对稳定

唤醒和误唤醒密切相关,唤醒的灵敏度提高,这很可能伴随着误唤醒的增加。丁咚的第二代具有如此强大的觉醒能力,所以我开始怀疑它的虚假觉醒率会不会很高。

为此,我们将三个智能扬声器放在办公室环境中一天,我们接触到的声源是办公室里的日常对话和每个人对三个扬声器的戏弄。结果发现,在一天内与其他说话人的对话中,只有一个小米ai说话人被误唤醒,其他所有说话人都被无错唤醒。

体验3款未上市智能音箱:三个女人的美貌声音和智商

需要注意的是,办公室场景中的误唤醒不能代表家庭环境中的情况,因为在家庭环境中可能会有更多的声音背景,如电视声音、手机声音和通话声音,相应的误唤醒也可能会略有增加。

4、音质:每个都有自己的侧重点

一个好听的声音当然会受到某些用户的喜爱,比如像萧艾同学隔壁的女孩那样甜美的声音。但作为音箱,音质也是最基本、最重要的功能。

三种扬声器的音质不能太高,这是传统pc多媒体扬声器的水平,但它们也有自己的特点。我们选择了“费里”和“我和你一样”作为高低测试。

其中,小米扬声器的爆发力很强,同音量(例如50%)的声音最大,低音粗高音大。然而,由于机身较轻,当打开音量时,会感觉机身振动明显,不“稳定”。丁咚的第二代是最小的,声音效果相当令人满意,而高音和低音都不显眼。

体验3款未上市智能音箱:三个女人的美貌声音和智商

据说问说话人是最完整的发音单位,但同样的音量比同一首歌小50%,但被调高后,声音的深度更强,声场更宽。毕竟,价格是999元。总的来说,它值每一分钱。

5.端到端响应时间:屏幕变成了一个矛盾

作为一名语音助理,能否快速回答主持人的问题是用户体验的关键。在特定的网络环境中,我们会向三个智能说话人询问天气、百科全书和服务等问题,并测试每个说话人的端到端对应时间(这个时间是从发出指令结束到智能说话人回答之间的时间)。

体验3款未上市智能音箱:三个女人的美貌声音和智商

在这三类问题中,智能扬声器处理天气问题的相应时间明显快于处理百科全书和服务问题的时间。在这三种扬声器中,小米扬声器和问答扬声器比丁咚的第二代更快。

具体来说,小米讲天气问题的平均时间是2.29秒,而百科全书问题(谁是马云?),平均耗时2.63秒。由于目前很少访问小米扬声器的服务等级(订单输出),2.46秒的服务等级响应没有参考价值。

问说话者天气课和百科全书课分别需要2.40秒和2.43秒,而服务课需要2.73秒。其中,查询在百科搜索中更具优势。

丁咚2代在响应时间上比其他两个稍慢。原因可能在于led显示屏的使用。目前,丁栋的第二代使用声音和图像的多维互动。这种组合交互可以更好地调动用户的视觉听觉和体验。但也许正是声音和图像之间的合作缩短了丁咚第二代的反应时间。

体验3款未上市智能音箱:三个女人的美貌声音和智商

6、语义理解:问说话者更好

所谓语义理解是指一个聪明的说话者是否能理解主人的意图,这是一个聪明的说话者必备的素养。我们选择了天气和服务问题,每个问题都以不同的方式被问及,看聪明的说话者是否能理解用户的意图。

天气是最基本的问答内容。围绕“今天的天气怎么样”,我们问三个聪明的演讲者:“今天的温度是多少?”“今天下雨吗?”“今天空的空气质量怎么样?”“今天热吗?”等等。

在这个基本问题上,三个说话人都能识别出用户“问天气”的意图,但小米说话人和问说话人可以根据不同的提问方式优化答案,这在体验上更好。然而,丁咚的第二代经常会用相同的答案来回答不同的问题,用户体验需要优化。

体验3款未上市智能音箱:三个女人的美貌声音和智商

别担心,我不会让他们这么容易就走的!在服务类别中,我们围绕“食物推荐”提出问题,例如“我饿了”、“我想吃东西”、“我的胃在咕咕叫”和“附近有什么好吃的。”

其中,小米扬声器目前不支持外卖和食物推荐服务,会回答你“饿了就吃”和“快去吃”。丁咚二世本身也有食物推荐,但并不“友好”。当你问“我饿了”时,它会告诉你“我可以帮你打听附近的食物”,或者只是说“饿了就吃。”只有当你让它推荐附近的食物时,它才会告诉你附近该吃什么。

体验3款未上市智能音箱:三个女人的美貌声音和智商

并要求说话者在语义理解上表现得更好。无论你问“我饿了”还是“我想吃”,它都会推荐附近的食物。

7.多轮互动:要求演讲者表现出色

多轮互动是指智能说话者可以在理解语境的背景下与用户展开多轮对话。目前,通用语言的多轮交互体验很差,基于特定任务的多轮交互是智能说话人竞争的关键。

我还记得上一季的演讲者在多轮互动中表现得一团糟,这充分肯定了人类智商的伟大。我并没有从这次演讲中期待太多,但是我对智能演讲者的发展速度感到有些惊讶。

这种多轮互动需要用户经常使用的几个场景,如天气、音乐和百科全书。在第一次天气测试中,我们将问三位演讲者“北京的天气怎么样?”“明天怎么样?”和“上海怎么样?”在这方面,小米发言人和提问发言人能够准确识别天气背景,理解我的回答意图。

体验3款未上市智能音箱:三个女人的美貌声音和智商

叮咚说话的人有点尴尬。它无法理解正常模式下的上下文。当你问“明天怎么样?”和“上海怎么样?”,它回答了不相关的问题。但是当你打开它的“aiui”模式时,你可以“强迫”它理解上下文并准确地回答信息。

在第二次音乐广播中,我们承担了以下任务:“我想听听陈奕迅的《红玫瑰》、“换一首歌”和“换另一首歌”,看看聪明的演讲者能否理解我的意图,准确地进行多轮对话。

其中,小米的说话者能够准确识别“他”并完成任务;在第二代中有一个错误,经过一些训练,它被认为是“他”;问说话者,但在这个游戏中有一个小“情况”。它认为认识“他”就是玩“他”。考虑到询问说话者是一个工程机器,它要么是不稳定的,要么需要优化音乐中的语义理解和多轮对话。

体验3款未上市智能音箱:三个女人的美貌声音和智商

在第三轮中,我准备了最难的问题和答案,“谁是李小璐”、“谁是她的丈夫”和“他的女儿叫什么名字”。小米扬声器跟不上这个环节的节奏,也无法回答第二个问题。丁咚的第二代也是如此,但是发生了一件有趣的事情。

还记得上次我们用刘嘲笑a1吗?当我们问它“谁是刘”然后又问它“谁是他的妻子”时,a1不能理解它。只有问“谁是刘的妻子”,它才能正确回答。第二代丁咚很“酷”,这直接表明它不重视这样的问题。

相反,许多关于询问演讲者的对话表现良好。它能准确地回答“她的丈夫是杰瑞”,在“他女儿叫什么名字”这个问题上,它回答“我猜你想问杰瑞的女儿,她叫贾云馨。”可以看出,提问者在语义理解和多轮对话方面做得很好。

体验3款未上市智能音箱:三个女人的美貌声音和智商

然而,我们也采用了一些其他的方法来复制和验证,并且发现当使用“他的孩子叫什么名字”时,答案是错误的。可以看出,在许多回合的对话中,向说话者提问是不成熟的,还需要改进。

8、声纹识别:轻微鸡肋

目前小米音箱不具备声纹功能,而丁咚2和问答音箱具备声纹功能。

但是,由于扬声器还没有正式量产,目前使用的应用版本没有声纹功能,可见声纹识别还不够成熟,Mobvoi还在完善中。

丁咚2代虽然使用了声纹功能,但目前还没有使用场景。设置好声纹后,对它说“你好”,它也可以对你说“你好xx”。此外,目前还没有其他应用程序。

作为家用产品,智能扬声器需要声纹识别来提供个性化服务和增强安全性。然而,从目前的发展来看,声纹识别仍然需要一些时间来完善。

9.内容资源:快速跟进

这三个智能扬声器的功能基本相同,主要用于播放有声书籍,如音乐、设置闹钟提醒、百科问答和家庭控制。

目前,丁咚的第二代拥有近100项技能,而Q扬声器和小米扬声器也有40多项技能。与已经发展了2年多的丁咚扬声器相比,跟进扬声器和小米扬声器的内容更快。

我们主要测试了三个扬声器的音乐库的丰富性,并选择了10首有代表性的音乐进行测试。它们是:陈奕迅的《夸张》、赵蕾的《南方女孩》、五月天的《突然想你》、刘德华的《忘了水》、李宗盛的《青春往事》、酷玩乐队的《这样的事》、魔力红的《地图》、迈克尔·杰克逊的《拯救世界》、愚人花园的《柠檬树》等

体验3款未上市智能音箱:三个女人的美貌声音和智商

通过测试发现,三个说话者都有上述中文歌曲,但由于英语识别的不同或英语音乐库的不同,在内容上存在一定的差异。其中,小米音箱有9首音乐,丁咚第二代有8首音乐,而Ask音箱有7首音乐。

考虑到问答音箱同时连接到qq Music和腾讯云微,音乐资源应该是丰富的。有人可能会问,在英语识别和合成方面还存在一些问题,需要进一步完善。

此外,不同的演讲者也有技巧,如新闻广播,检查极限线,占星术和计算器。一般来说,每个演讲者都很快跟进,并获得了主要类别的技能,但具体的丰富性需要不断积累。

10.新技能

与上一代智能扬声器相比,本次pk的三款扬声器也有一些与众不同的亮点,值得单独介绍。

丁咚II提供了一些独特的功能。目前,您可以自定义唤醒词。例如,你可以将唤醒词设置为你的男朋友或女朋友的名字,这样你就可以“回应一切”。此外,它还可以通过扬声器直接打电话。

小米音箱的内容主要采用与第三方合作的方式,其有趣的功能之一是“问声音”,比如“大象怎么叫”,小爱心学生会发出大象的声音。此外,小米还推出了一个“人工智能培训计划”,用户可以在其中创建自己的培训技能。如果这项技能被小米采用,所有使用小米语言的用户都将使用你的培训技能,这是一家培训粉丝的公司。

体验3款未上市智能音箱:三个女人的美貌声音和智商

询问扬声器中的功能是否更实用。与高德地图、公众评论、滴滴等合作。它知道你的位置,可以帮你叫外卖或者帮你打车。

第四,智能说话人体验的8个结论

通过实际测量,首先我想表达的是,在“前人开路”的基础上,产品和整个产业链已经基本成熟,后期的扬声器玩家可以通过合作快速跟进,小米扬声器是所有玩家合作的代表。

其次,小米人工智能说话人的整体性能良好,在觉醒、远场识别、语义理解和内容资源性能方面都超过了前代产品。虽然没有太多令人惊叹的地方,但凭借其甜美的声音、299元的超低价格和相对较好的体验,未来的竞争力仍然很大。

体验3款未上市智能音箱:三个女人的美貌声音和智商

第三,从产品层面来看,丁咚的第二代产品确实令人惊叹。led显示屏的匹配、强大的远场唤醒能力、自定义唤醒词和扬声器电话都是上一代产品的突破。此外,早期版面丰富的内容资源也值得肯定。

然而,与上一代的丁咚a1相比,丁咚在语义理解和多轮对话方面并没有取得太大的进步。从三个产品的比较来看,丁咚的第二代产品在语义理解和多轮对话方面已经落后于另外两个产品。

第四,刚刚推出的问题说话者在语义理解和多轮对话中是三者中最好的,尽管测试者还存在一些不稳定性。然而,作为一个新的演讲者,它需要在诸如觉醒、音乐和英语识别等各种场景中进行深度润色。

第五,与前代国产产品在语义理解和多轮对话方面的糟糕表现相比,这一代智能说话人在基于特定任务的多轮对话方面取得了显著进步。

第六,虽然很难实现通用语言的多轮对话和语音交互,但特定场景和任务下的多轮对话可以在用户的承受范围内。这也要求相关玩家加深对自然语言领域的理解和知识地图,并进一步完善技术登陆。

第七,虽然声纹识别不像语义理解那样难以突破,但从目前的产品来看,声纹技术还需要进一步完善,声纹的应用还需要进一步探索。

第八,智能音箱产品将会不断涌现,但每个产品的“技能”仍然处于稀缺状态,对高质量“技能”和“技能商店”的需求已经成为亟待解决的问题,需要更多的玩家参与应用服务的深度培育。

结论:快速成熟的智能扬声器行业

经过上个季度对智能扬声器产品的实际测量,我对智能扬声器的体验结果略有失望,并感叹道:“路是堵的,长的。”

然而,在经历了中国最新一代的三款智能扬声器之后,必须说,赶上和跟进国内扬声器的速度是值得称赞的。短短几个月内,这一代产品在产品体验、语义理解和多轮对话方面都有所改善。

这种推动背后是智能扬声器产业链的成熟,产业链中各个领域的参与者向不同的方向发挥力量,形成一种聚集效应。相信随着小米ai音箱299价格的闪亮登场,以及众多其他家用音箱产品的涌入,用户和市场将得到迅速培育,最终将推动整个行业的成熟。

体验3款未上市智能音箱:三个女人的美貌声音和智商

(预览:光有经验是不够的。智能设备将继续拆卸扬声器,并深入挖掘扬声器背后的“世界”

标题:体验3款未上市智能音箱:三个女人的美貌声音和智商

地址:http://www.6st8.com/zbxw/4496.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部