为什么小米AI音箱交互体验更好-VR日报

为什么小米AI音箱交互体验更好

提问者：网易科技

提问

为什么小米AI音箱交互体验更好

回答

2018年是国内智能音箱的火爆元年，市场上短时间涌入了以小米、阿里、百度和腾讯等为首的数十款智能音箱，甚至出现了深圳一条街就有百家智能音箱厂商的盛况。但是迄今为止，市场销量超过百万的智能音箱厂家只有小米和阿里。

去年“双十一”阿里的补贴战略很快就让天猫精灵率先破百万，而小米的小米AI音箱继续沿用小米口碑营销思路，凭借用户体验优势和性价比稳步上扬，在缺货严重且渠道涨价的情况下，也轻松超过百万销量。同时，小米的小爱mini音箱自发布后更是一周之内销量破百万，自此，小米一家就拥有了小米AI音箱和小爱mini音箱两款过百万销量的产品。目前，小米AI音箱依然保持着国内语音交互体验评价更好的优势。

很多人都会好奇这一点，为什么售价只有299元的小米AI音箱会赢得用户口碑?除了小米的产品团队对于用户体验的精准把握，其中智能音箱的灵魂——远场语音交互技术也起到了非常关键的作用。远场语音交互技术涉及到了麦克风阵列、远场语音唤醒、语音端点检测、远场语音识别、语义理解和语音合成等技术。

声智科技独家供应了小米AI产品系列中的麦克风阵列、远场语音唤醒和语音端点检测及识别等技术，并与小米团队密切配合，从用户体验角度重新打造了一整套更适应东方文化场景的新型远场语音交互技术，从技术决定了用户的第一体验以及语音识别的效果。

麦克风阵列技术

麦克风阵列是由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统。麦克风阵列通常包含2个以上的麦克风，2麦通常不称为麦克风阵列，这有点类似于四个轮子的汽车和两个轮子的摩托车之间的比较。

一般认为麦克风阵列的核心技术是降噪，事实上并非这样，2麦在通信领域就能实现比较好的降噪效果。麦克风阵列的主要作用是帮助机器适应更加复杂的场景，尤其是语音交互的兴起，它事实上改变了人类必须学习适应机器的现状，转而强调机器要学习适应人类的语言和习惯，这是一个产品思维的重大转变，将会影响未来众多AI产品的用户体验设计。

麦克风阵列的关键技术包含了通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、识别优化等。除此之外，声智科技所提供的麦克风阵列技术，还独具抗强噪唤醒、90度抗强噪识别、空间感知和认知等新技术，其中的90度抗强噪识别技术则是面向东方文化场景的独特技术。

由于中国和日本的家庭主要以公寓为主，这类居家环境下影响语音交互效果的主要是挂在墙上的电视，当智能音箱放置电视旁边或者前方的时候，这时候噪声源、语音源与智能音箱的夹角一般都会超过90度，当电视音量很大的时候，保证智能音箱的识别精准度就非常困难，目前来看，应用到小米AI音箱的技术体验更为出色。

东西方的文化差异造就了不同的技术导向，当然也带来了不同的技术测试验证体系。所以，当前国内对于远场语音交互技术的测试验证的诸多场景是与国外截然不同的。自然，当问到为什么国内要用60度夹角测试噪声源的干扰情况?很多技术人员就回答参考国外的测试标准，事实上这是不对的。

国外的居住环境以别墅为主，智能音箱的主要应用场景在开放式厨房，噪声来源也主要是厨具设备噪声，这相对电视噪声来说更好处理(电视噪声包含大量人声)，而且由于房子更大相对空旷，国外噪声环境管理更加严格，室内强噪的情况并不多见，因此对于90度抗强噪识别技术的需求也不强烈。自然，总的来看，国内智能音箱对于远场语音交互技术的要求事实上远高于国外的标准。

远场语音唤醒技术

远场语音唤醒的主要作用距离是30CM-500CM，其主要技术指标是唤醒率和误唤醒率，这两个指标是一对跷跷板。声智科技应用到小米AI音箱的技术，具有三个非常独特的优势，也是保证用户体验的关键因素。

其一就是宽场景高灵敏唤醒技术，这是用户的第一体验，小米AI音箱的唤醒词是小爱同学，国内不管任何地区的发音，甚至国外的英式中文基本上都能第一次唤醒小爱同学，最差情况三次之内也能保证小爱同学响应。

事实上这是很难做到的，因为唤醒率和误唤醒率是一对跷跷板，当唤醒效果很好的时候，误唤醒通常也会很高，智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾，通常会有些技巧性方法，比如阿里的天猫精灵，经常第一次很难唤醒，需要第二次才能唤醒，这就是通过工程技巧降低误唤醒率的通常做法。声智科技的技术路线并非这样简单，而是必须优先保证用户的体验，在此基础上再降低误唤醒率，同时还要提升强噪环境下的唤醒率，当前也只有声智科技的技术做到了这点。

其二就是低成本高容错唤醒技术，特别是面向低成本高失真产品的时候，这项技术显得尤其重要。小米的产品一直以性价比为核心占领市场，比如小米AI音箱售价仅为299元，抛去市场的补贴因素，至今还是市面上最便宜的智能音箱。这也意味着小米AI音箱的麦克风、喇叭和结构都会以成本因素为第一考量进行选择，这将带给语音交互技术巨大的压力，特别是自噪声抑制和远场信号处理的难度极具增加。

举个简单例子，比如麦克风器件的选择，信噪比(SNR)70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好，但是选用高信噪比的麦克风，其结果就是成本会高出很多。为了给客户更多产品设计的选择自由度，声智科技的技术必须彻底屏蔽硬件的差异化，并且努力帮助客户降低成本，即便在一致性和失真度非常大的情况下，也要出色的保证用户体验的效果。这是声智科技非常独特的优势，当然在一些特殊场景，也需要一些性能更好的麦克风和芯片才能保证基本效果，所以Google、Amazon等国外的产品通常都会选用更高性能的麦克风。Google、Microsoft等国外公司技术部门为了追求更好的演示效果，尤其不计成本使用高信噪比(SNR>70dB)的麦克风器件和芯片，这也常常会误导国内厂商的判断，声智科技目前的技术几乎做到极致，但是若厂商追求更好的效果，必然也还会增加各个链条的成本。

其三就是低功耗高性能唤醒技术，低功耗唤醒的核心就是算法的复杂度，这包括了麦克风阵列算法和语音唤醒算法，声智科技对于算法的优化一直是非常领先的，目前在智能音箱最复杂的场景，即在立体声回声抵消过程中的打断唤醒，声智科技的算法复杂度也远优于市面上的同类技术。

很多时候大家会对比一家厂商的语音唤醒技术，仅靠评判一个成熟唤醒词(比如Alexa)也是不对的，应该是考验这家厂商定制唤醒词的能力，以及服务的客户数量，这个阶段就极其考验供应商的技术迭代和服务支持能力，AI技术本身就是在不断的演化和迭代。

语音端点检测技术

语音端点检测的目标是要判定语音开始和结束的位置，一般定义在语音识别领域。但是由于语音端点检测决定了语音识别的响应速度，而且并不能向语音识别一样通过增加服务器来解决，必须严重依赖算法来保证，所以当前也成为了远场语音交互领域非常关键的因素。

举个简单例子，我们每个人说话的语速和节奏差异非常大，如何准确判断前端点和后端点以识别成一个句子，并且控制这个时间在几百毫秒以内(人类发一个“啊”音的时间大概是200毫秒)，对于整个语音流程的体验来说至关重要，否则判断的失败，也将会严重影响识别结果和语义理解。VAD判停的时间，长了影响交互体验，短了难以适配复杂场景，还是以符合人类交流的习惯为最佳。

这其中还有一个技术难点，就是小爱同学唤醒之后的随机应答词，包括“我在”，“哎”等，而且小米的应答词还可以根据系统音量自动调整，由于这些应答词会严重干扰语音识别的VAD功能，这是对语音端点检测技术挑战很大的应用场景。

市面上的其他产品，比如天猫精灵系列则是取消了应答词，仅靠灯效来显示唤醒状态，而小度视频音箱则是通过恒定低音量的应答词来绕开这项技术难题，显然这类处理手段给用户的体验都不是太好。目前市面上最为成熟的还是声智科技提供的动态应答词匹配检测技术。

远场语音识别技术

由于远场智能产品的场景特殊性，远场语音识别相对更加垂直，比如智能音箱的识别偏重于音乐和百科领域，智能汽车的识别偏重于地图和音乐领域，而对于地域性的覆盖，则是远场语音识别着重考虑的，并不能简单把方言划归为一个技术系列，特别是消费电子领域的高度标准化思维，几乎不可能存在切换ASR的方法。

所以声智科技的ASR就要在垂直领域考虑更多场景难题，比如老人和小孩的识别怎么办?南方和北方的语言差异怎么办?真正的产品落地需要考虑众多应用场景的难题，而并非只是简单的技术叠加。

场景语音合成技术

语音合成的两个关键点，一个是声线的优美程度，另外一个就是抑扬顿挫的语感流畅程度，这决定了用户对于机器的真实体验。

其中，第一种技术需要选择独特的声优就行声音采集和训练，由声优的声线决定了合成声音的效果，选择声优是一个考验产品经理能力的任务。第二种技术则更为重要，是要保证机器朗读的声音更加符合人类的习惯，但是目前来看所有的产品还远远没有达到这点，声智科技也正在致力研究突破这项技术，估计一到两年时间我们就可以听到几乎和人类声音感觉相同的机器声音。

手机扫描左侧二维码

或微信搜索公众号VR一点通，每日获取精彩的VR资讯

关注VR一点通完整你的虚拟现实梦!

上一篇：共鸣制造机！VR是如何让人们学会换位思考

下一篇：VRcades会是XR下一个重要的市场吗？

分享到

图说VR

更多>>

图说VR——冯鑫

十大热词

关注VR一点通 完整你的虚拟现实梦!

关注VR一点通完整你的虚拟现实梦!