智能语音交互、人工智能语音识别技术_生活资讯_资讯

智能语音交互、人工智能语音识别技术

2023-04-16 00:26 浏览:34

搭建智能语音交互系统重要点那些

序言

随着人工智能命题的提出，近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商，仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。

简单介绍一下什么叫做智能语音交互平台。其实大实话就是在呼叫中心基础上，集成 ASR、 TTS、的呼叫服务平台。

那么如何我们自己去搭建智能语音系统呢？

我们先列出搭建智能外呼系统的搭建需要那些技术和服务：

个人认为：

[if !supportLists]· [endif] 首先最重要的是交换机：

[if !supportLists]1. [endif]PBX也就是交换机，商用设备原厂包括像华为、Av***a、思科、东汇等这些生产硬件交换机，

[if !supportLists]2. [endif]还有就是目前FreeSitch、asterrisk、OpenPBX这些软件交换机。

[if !supportLists]· [endif] 其次是AI技术: 及包含语音识别、语义理解、语音合成这三种技术是核心组成部分。语音识别相当于人的“耳朵”，接进电话后，对人的话语进行处理转义成系统能够识别的数据交由系统处理去识别。在进一步的话，可以转义为文字。语义理解相当于人的"大脑"，根据话语识别人的意图。语音合成，相当于人的”嘴巴“，识别人的意图之后，依照特定的回答方式，去回复和引导对话。

[if !supportLists]· [endif] 再者是前端服务平台：即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表的网站，这个是终端用户唯一可以看到并且操作的界面。

[if !supportLists]· [endif] 最后是外呼线路：其中包括三大运营商以及其他小型的集成线路供应商，主要目的是外呼电话或者是接入电话。

也有人可能有疑问：”智能语音交互系统最重要的不是人工智能么，和交换机有啥关系？”为什么说最重要的是交换机呢，原因是不管我们是外呼还是接入电话、都需要前端服务平台把外呼请求发送给交换机，通过外呼线路而拨出去。换句话说交换机是控制整体的外呼情况。硬件的交换机，比如说像华为的交换机，价格在大约几万到几百万不等的价格。对于想要建立自己的智能语音交互系统来说，价格对于一些小型公司来说承受不起，而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。

什么是FreeSwitch？

FreeSitch是一个电话的软交换解决方案，包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及多媒体服务器等。支持多种通讯技术标准，包括 SIP, H.323, IAX2 以及 GoogleTalk ，同时也可以方便的与其他开源的PBX系统进行对接。而且具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体，提供路由和互连通信协议。

FreeSwitch 的典型功能

[if !supportLists]· [endif]在线计费、预付费功能。

[if !supportLists]· [endif]电话路由服务器。

[if !supportLists]· [endif]语音转码服务器。

[if !supportLists]· [endif]支持资源优先权和QoS的服务器。

[if !supportLists]· [endif]多点会议服务器。

[if !supportLists]· [endif]IVR、语音通知服务器。

[if !supportLists]· [endif]VoiceMail服务器。

[if !supportLists]· [endif]PBX应用和软交换。

[if !supportLists]· [endif]应用层网关。

[if !supportLists]· [endif]防火墙/NAT穿越应用。

[if !supportLists]· [endif]私有服务器。

[if !supportLists]· [endif]SIP网间互联网关。

[if !supportLists]· [endif]SBC及安全网关。

FreeSwitch最典型的功能是作为一个服务器，并用电话客户端软件连接到它。虽然FreeSwitch支持众多的通信协议，但其最主要的协议还是SIP，通过SIP中继发起会话协议。

使用FreeSwitch这种软交换的好处在于，你只需要一台服务器就可以随时搭建自己的外呼中心，而且FreeSwitch支持跨平台运行。能够原生运行Windows、Linux、BSD等诸多32/64位平台。

FreeSwitch内部使用线程模型来处理并发请求，每个连接都在单独的线程中进行处理，不同的线程间通过Mutex互斥访问共享资源，并通过消息和异步事件等方式进行通信。FreeSwitch本身是比较稳定的，它是比较优秀的开源软件。另一方面来讲，FreeSwitch又是比较激进的，它的开发分支里会有大量的新特性加入，因此在测试不全面的情况下，很容易出现不稳定的情况。而在用于生产环境的情况下，系统的稳定性是系统能否正常被使用的关键。之前我们在做项目的过程中，就遇到一些FreeSwitch不稳定的情况，导致外呼情况不理想。举一个例子：我们在进行测试外呼的时候，语音通话断断续续，虽然前端服务平台可以很好的接受到数据的传输，但是，真正在与人工进行沟通的时候，会出现各种各样的沟通障碍，为了解决这一个问题，我们花费了几个月的时间，去研究FreeSwitch的结构特性。终于把这个问题解决掉。我们的项目才得以继续推动，最终得以真正落地部署实施。

也有人可能有疑问：”FreeSwitch软交换虽然重要，但是既然是智能语音交互系统人工智能不重要吗？”，重要，当然重要！容我慢慢道来~

AI 技术

1. 通信原理

先简单解释一下正常打电话这个流程

流程：A→PSTN→B

解释：PSTN是Public

Switched Telephone Network，意思为公共交换电话网络，也就是我们的运营商的网络电话，

那我们平时如何给呼叫中心比如打电话是如何打的？：个人A打电话给呼叫中心1***6 打电话，拨通后听到录音，您好，拨打人工台，请按0键，按键之后，出现盲音，真正接通之后，客服接通了电话。

流程：A→PSTN→PBX→IVR→客服

解释：PBX也叫交换机、相当于整个呼叫中心的出入口

IVR也叫互动/交互式语音应答，语音导航，也就是相当于咨询业务请按键，这一环节，根据业务去分流到客服。

智能语音交互平台（智能机器人）落实到具体具体业务场景是如何实现的：

如：”个人A要在某一个大型酒店预订位子“，

A拨通后先听到了声音，“您好，我是机器人小岳，需要我帮您订位子是吗？

个人A说，“我不要和机器人说话，找个真人来”。

然后听到录音，“为您转接很贵的真人客服，排队中，请稍后”。

几分钟后接通，真人客服接了电话。

流程：A→PSTN→PBX→IVR（TTS→ASR→NLP→TTS）→ACD→客服

解释：在IVR部分：不再需要提示按键，而是直接问来电方需要办理什么业务，然后识别语音、理解意图后，根据用户的需求，回答后转入对应的业务队列排队。

上边是接通的流程，呼出的流程与之相反，就不在赘述了。

2. 现在市场上的AI技术的运用

目前市场上的不管是ASR、TTS、NLP都被阿里百度科大讯飞等巨头公司所占据，这些技术在国内基本已经成为定局。像ASR这类引擎市场上大部分都是用的阿里云和讯飞云的，要不就是百度云。阿里云和讯飞云的识别率高一些，可以达到97%左右、百度的差一些，识别率在80%左右，我们当初在做项目的时候选择ASR做过测试，事实证明阿里云识别率更高同时也可以识别方言。因此，我们在做项目的时候，当仁不让的选择了阿里云的

TTS我们选择的是讯飞的，选择的理由很简单，毕竟科大讯飞是人工智能领域巨头级的公司，质量当然有的保证。

3. AI 能力对接

在具体落地中，这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种，而主要的对接点也就在于AI能力与呼叫中心设备去对接，而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。

媒体资源控制协议（Media Resource Control

Protocol, MRCP）是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议，版本2使用SIP作为控制协议，版本1使用RTSP。

实际对接的时候，会遇到不少技术问题，当我们ASR/TTS引擎做私有云部署，为了避免了内外网穿透时防火墙的诸多设置和语音流的时延。这在我们当时对接的时候也花费了好大一番功夫。

前端服务平台：

其中最重要的就是配置呼叫流程这一块儿了，

这一块儿很容易被忽视，但是这反而是可以出成绩的地方。一般来说一套***话术模板，可以以一敌万。心理学基础必须要有，一句话怎么说能让接电话的人***概率的顺着自己的思路走，达成目的，从而形成特定细分领域机器人话术模板，得到***的外呼效果（接通率、通话时长、电销意愿、催收意愿）或者是接通效果（满意度）

其余的基本就是web端的东西了，具体功能点呢，即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表，这些功能点基本实现就可以，因为站在产品角度，产品最重要的价值就是可以呼通或者接通用户的电话，并且能够准确的识别用户的意图，并且准确的回答用户。这就是智能语音交互系统的最终目标，也一直是我们的最终目标。

外呼线路厂商：

一般如果是购买系统的话，是给提供线路的，只需交一些线路费用。如果是自己做项目的话，网上、淘宝上一大堆，费用可以谈，也给提供线路对接的接口。

结语

虽然现在市场上做智能语音交互系统的比较多，但一般只限于各个行业的电话销售，真正意义上的智能语音交互还是很少的。原因很简单，虽然原理不是很难但是真正落地实施的时候，遇到的困难非常的多，几乎是一步一个坑。好在现在已经真正的落地实施了，方方面面的效果都还是很不错的。一年多的辛苦没有白费。哈哈~

写这篇文章尝试给大家简单介绍一下智能语音交互系统，然才疏学浅，疏漏和不当之处在所难免，权当给大家抛砖引玉。

诸多细节限于主题和篇幅的要求不做详细记述，如有问题，欢迎随时交流。

ai语音的特点

AI语音是一种智能技术，可以实现自然语言处理，使机器与人的交互变得更加自然灵活。它的特点包括：

1. 自然语言处理：AI语音可以理解自然语言，并能够翻译成机器识别的语言，从而实现机器之间的交流。

2. 语音识别：AI语音可以识别说话者的声音，从而实现与说话者的交互。

3. 语音合成：AI语音可以将机器识别的语言翻译成自然语言，从而实现机器与人之间的交流。

4. 场景理解：AI语音可以理解说话者的场景，从而更加贴近实际使用情况，更好地实现智能服务。

5. 异常处理：AI语音可以处理异常情况，提供针对性的个性化服务，从而更好地满足用户的需求。

总之，有：自然语言处理、语音识别、语音合成、场景理解和异常处理等，使机器与人之间的交流变得更加自然灵活。

4音区智能语音交互系统是什么意思

靠近车窗位置都可单独控制语音系统。

车内四个区域的语音系统识别均可控制汽车应用是4音区智能语音交互系统。

国内搭载该技术的车型为小鹏G9。

ticwatch智能手表怎么连手机

ticwatch智能手表链接手机方法：

1.长按表冠开机

2.开机后进入欢迎页面，点蓝色按钮右箭头，开始连接手机向导

3.手机扫码，如果手机没有安装Ticwear助手，则打开网址，下载Ticwear助手，安装过程很简单，跟其他软件一样。打开软件开始使用。

4.完成注册后，开始连接手机（这里注意手机要打开蓝牙），Ticwear助手扫描手表上的二维码，开始连接。

5.完成连接后，开始设置使用习惯和密码，过程很简单，按照提示操作即可，Ticwear助手设置比较人性化，入门很简单，没有太大的难度，设置完成后，手机的通讯录就都同步到手表了。

拓展资料：

TicWatch是由出门问问公司历时一年多研发生产的一款智能手表。由全球顶尖设计公司frog挑梁设计，具有优雅纯圆，并搭载全球首款中文智能手表操作系统Ticwear、具备真正的智能语音交互、革命性的创新交互方式等特点。

Ticwatch拥有4种交互方式：智能语音交互，用户只要抬手对手表说“你好问问”，即可唤起语音交互界面；触控交互，屏幕的划动、点击等动作都可被识别；“挠挠”，比如听音乐时，在手表右侧轻滑就可以改变音量；“摇摇”，摇晃手腕即可交换名片或更换表盘。

参考资料：百度百科 TicWatch

智能音箱调研报告|语音交互功能详析

2014年11月发布亚马逊低调发布智能音箱Echo，内测半年后于2015年正式发售，当年销量为250万台，16年销量520万台，超越传统音箱领头羊Sonos ，成为在线音箱行业霸主，一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo 受到市场强烈反响以后，google在2017年5月发布google home，苹果在2017 年WWDC 发布智能音箱HomePod，国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局，争夺语音交互流量入口，带动了AI落地的一轮热潮。

智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果home pod发布以来，下半年至今，每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米，老牌电器厂商联想、苏宁，语音技术企业科大讯飞、思必驰，硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。

智能音箱的爆发离不开语音技术的支撑，掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等，二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品，或对外输出技术，赋能传统智能音箱厂商、内容和互联网服务厂商，获取用户和数据，建立平台生态。

1.Amzon Alexa

基本信息： Amzon Alexa是亚马逊的智能虚拟助理和开放平台，2010年启动研发，于2014年11月和Echo同时发布。Alexa 具备语音技术能力，并通过运行独立的程序，称为“技能”（Skills）来实现不同功能应用(类似手机里在操作系统上运行APP)，支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品，不论是从产品搭载数量和智能水平上，alexa都已远超其他技术厂商(CNET在CES2017的统计)。

开放情况： Alexa 2015年6月，亚马逊将Alexa开放给第三方开发者，发布了 Alexa Skills Kit（ASK）和Alexa Voice Service （AVS）两套开发工具包，让开发者能够更加容易开发Alexa的“技能”；并设有了风险投资基金alexa found专门扶持语音交互领域的初创企业，以及大学生开发竞赛Alexa prize。从2014年发布时的29余项技能，到如今近4w项技能，积极开放政策和不断优化的开发工具，使得Alexa拥有了远超其他技术厂商的海量技能。

应用范围：截止目前Amzon Alexa已陆续在全球38个国家开通（中国暂未开通），涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言（暂不支持中文）。除了搭载自家echo系列音箱产品外，Alexa也赋能sonos、联想、哈曼卡顿等音箱产品，amzon fire TV 等智能电视，amzon fire、华为mate9、HTC等平板电脑和智能手机，华硕、惠普、联想等笔记本电脑和PC，智能冰箱、智能灯、智能开关等智能家居产品，智能耳机、智能手表等可穿戴设备，以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。

2.Google Assistant

基础信息： Google assistant是谷歌的虚拟助理，于2016年5月在谷歌开发者大会正式发布，支持语音交互，搭载在Google的智能手机和智能音箱中。

开放情况： 2016年12月，Google推出开发者平台Actions on Google，2017年4月发布了SDK（软件开发工具包）以便第三方开发者为Google assistant开发应用程序，并进一步扩展支持智能汽车和其他智能家居设备。Google assistant支持语音输入和视觉响应，可通过设备的相机识别物体并收集视觉信息。

应用范围：当前Google assistant已支持英语、日语、法语、德语、西班牙语等8种语言，预计2018年底将支持30多种语言，覆盖95%的Android手机(暂不支持中文)。除了搭载自家Google home系列音箱和Pixel系列智能手机外，Google assistant还赋能索尼、诺基亚等智能手机，松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品，联想、爱可视等电脑及沃尔沃等智能汽车产品。

3.Microsoft Cortana

基础信息： Cortana是微软的虚拟智能助理，于2015年1月正式发布，逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能，并使用bing的搜索引擎信息回答问题，能够调用应用程序、查询天气、提供餐厅和景点推荐，控制智能家居。

开放情况： 2017年的build开发者会议上，微软退出Cortana技能开发平台，允许第三方开发者为cortana开发技能。

应用范围：截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品，如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务)，并赋能微软与harman kardon合作的智能音箱invoke等。

4.Apple siri

基础信息： Siri（Speech Interpretation and Recognition Interface）是苹果的虚拟助理。Siri 公司创建于2007年。起初 Siri 只是 iOS 平台的一个应用程序，苹果在 2010 年 4 月收购了 Siri 公司并重新开发后，Siri 成为了苹果设备的内置软件，于2011年重新发布，并只允许在 iOS、macOS 中运行。Siri支持语音交互，可以完成数据搜索、天气查询、设置闹钟等许多服务。

开放情况： 2016年6月苹果开发者大会上开放了Siri接口，在IOS开发平台中新增Sirikit，支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。

应用范围：截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言，并赋能苹果全线产品，如iPhone、iPad、iPod、Apple watch、mac等。

1. 科大讯飞

基本信息：科大讯飞成立于1999年，是国内***智能语音技术厂商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果，与中国官方关联密切，堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额，语音合成产品市场份额达到70%以上。

开放情况：讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台，基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。

应用范围：科大讯飞支持34种语言，包括中文各地方言，目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备，奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车，智能音箱（京东叮咚音箱）、聊天机器人（小鱼在家）等智能硬件产品，窗帘、空调等智能家居产品，为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务，覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。

2.百度DuerOS · 小度

基本信息： DuerOS是百度的对话式人工智能系统，于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力，用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务；同时支持第三方开发者的能力接入。

开放情况： DuerOS开放平台包括智能设备开放平台和技能开放平台，分别适应不同类型的硬件厂商和为开发者。为方便“上手”，百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件，并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案，上线了技能商店APP“小度之家”。

应用范围： DuerOS支持普通话、英语、粤语、四川话等多种语言，已赋能智能音箱、电视、冰等大小家电与智能家居产品，智能手机、手表等随身设备，车机、智能后视镜等智能车载产品，累计搭载5 000万设备，日活超过1000万，有1600万DuerOS合作伙伴，落地80多家主控设备，积累了超过10000名DuerOS开发者，DuerOS累计回答问题数已达24亿。

3.小爱开放平台·小爱同学

基本信息：小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK，基于小米的硬件生态和海量数据，提供全球领先的语音识别、NLP等多项人工智能技术，为开发者提供一站式的人工智能服务。

应用范围：小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成，为小米生态链中8500万台IoT连接设备赋能，虚拟助手小爱同学的日活跃用户也达1000万。

4.AliGenie 语音开发者平台·天猫精灵

基本信息： AliGenie开放平台于2017年10月12日云栖大会发布，由阿里巴巴人工智能实验室发起的，面向企业/机构/创业者/开发者，将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台，目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。

应用范围: AliGenie开发者平台主要包括三大部分：精灵技能市场、硬件开放平台、行业解决方案，全面赋能智能家居、制造、零售、酒店、航空等服务场景

5.腾讯云·小微

基本信息：腾讯云的智能服务系统和智能服务开放平台，帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自 2012 年起，就将语音输入、语音识别、语义分析技术等功能应用到微信中，腾讯云小微将微信的语音技术作为底层能力，故命名为“小微”，于2017年6月腾讯“云+未来”峰会上正式对外发布。

应用范围: 腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台，结合腾讯社交关系链，覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。

6.思必驰·DUI开放平台

基本信息：思必驰2007年成立于英国剑桥，创始人均来自剑桥，2008年回国落户苏州，是国内少有的拥有人机对话技术，国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(Dialogue User Interface)开放平台，以任务式对话为核心，兼具闲聊与问答功能，打造人性化交互。作为一个全链路智能对话开放平台，DUI开放基于思必驰智能语音语言技术的对话功能，并提供GUI定制、版本管理、私有云部署等开发服务。

DUI具备青囊(服务与研发支撑)、天机（大数据）、紫微（丰富的第三方资源）、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容，内置国内最专业的语音语言技能商店，具备深度数据可视化、个性化自定义、零门槛操作，开发者通过DUI可实现全链路的高度定制，几乎可自定义每个模块。

应用范围: 平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景，提供智能车载、智能家居、智能机器人等解决方案，赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。

1.出门问问

出门问问是Google(谷歌)投资的一家中国人工智能公司，由硅谷华人科学家李志飞于 2012 年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。

2. 猎户星空

猎户星空拥有全套远场语音技术，自研全链路的远场语音交互系统“猎户语音OS”，已赋能喜马拉雅“小雅”音箱，美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视，也应用猎户星空的TTS（语音合成）技术以及ASR（语音识别）技术。猎户星空自己音箱小豹AI音箱，接入微信支付、银联支付、融合区块链技术。

2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类（只使用竞赛提供数据）的***名。2018年3月21日，猎户星空正式对外发布人工智能领域的机器人产品矩阵，在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台 Orion OS ,集合了自研的多芯片系统，摄像机+视觉算法，麦克风阵列，猎户TTS，室内导航平台和七轴机械臂等，形成了完整的机器人技术链条。Orion OS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。

3. 若琪Rokid

Rokid公司成立于2014年7月，隶属于杭州灵伴科技有限公司。总部位于中国杭州, 北京和旧金山分别设有研发中心，致力于机器人领域研究，专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE • 月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN·外星人等产品，Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。

4. 聚熵智能·DeepBrain

DeepBrain 2012年成立于上海，致力于研发人工智能产品，核心团队是来自于国内外名校的技术研究人才，为超过100家厂商提供深度人机对话能力，并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱，比 Echo 的推出还要早半年。其语义技能平台已进驻上千名开发者，开发了超过 1000 种以智能家居为主的语义技能。

5. 搜狗语音

搜狗由搜狐公司创建于2004年8月3日，域名为Sogou.com，目的是增强搜狐网的搜索技能。2013年9月，腾讯注资搜狗，并将腾讯旗下的搜搜业务，输入法业务注入搜狗。2017年11月，搜狗在纽交所上市，腾讯目前持有搜狗45.37%的股权；搜狐持有搜狗股权比例为39.21%。搜狗语音技术研究于2012年启动，并在2013年6 月正式上线搜狗语音云开放平台，接入搜狗包括输入法、地图在内的全线产品，并推出搜狗语音助手，与Siri一样，搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性，产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」，2017年12月与四维图新、飞歌展开合作，推出飞歌智能车联网软硬件解决方案G8Ⅱ 后装智能车机，为2018年3月发布的小米电视 4A提供ASR语音识别能力，为会议平板厂商视源股份发布的首款智能语音平板 MAXHUB提供语音技术。

销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地，极其依赖用户数据的喂养，越使用才能越智能。

根据笔者估算，截止2018年Q1，全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品，一骑绝尘，占领了71%的份额，Google以其完备的低-中-高产品矩阵和用户基础，抢夺12%的份额，天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额，京东涉足智能音箱较早，品类丰富，也占据了3%的市场份额，apple的homepod在今年 2月9日才正式发售，且定价偏高，仍旧占据了1%，其他所有品牌占据3%。

作为智能音箱品类开创者，Amzon不断地优化音箱产品新能，持续创新。从场景和形态出发，陆续推出小巧低价的echo dot，带屏音箱echo show、闹钟音箱echo spot。既有促销爆款铺量，又有高端品类防守，具备了高、中、低三个档位完善的产品矩阵，各型号累计销量在3千万以上，是目前唯一销量破千万的智能音箱厂商，引领着全球智能音箱市场。

京东与科大讯飞联合成立的灵隆科技推出叮咚音箱，作为国内较早涉足智能音箱的厂商，从2015年5月开始，京东已经发售了一系列新品。整体产品线与Amzon相似，不断探索更多形态与场景，持续提供更多自定义功能，并以儿童教育音箱，切儿童早教市场。随着小米、阿里、百度的强势入局，京东也推出了高端带屏音箱叮咚PALY，低价叮咚mini2，抢夺国内市场。

2016年5月，在Amzon几乎垄断智能音箱市场之时，Google入场搅局，推出Google home，凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异，曾一度占据了20%以上的市场份额，并在2017年10月推出低价的Google home mini和高价的Google home max，不断支持更多新技能和场景：接入更多智能家居设备、支持500w个菜谱抢占厨房，支持语音购物等。

小米作为国内领先的智能家居生态构建者，产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学，并在2017年9月正式发布了智能音箱小爱同学，除了强大的小米家居生态背景，小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。

阿里对新技术研发极为重视，在17年7月发布了天猫精灵x1，同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室，17年10月云栖大会正式宣布成立达摩院，网罗各个重点技术领域的专家人才，进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇，火眼支架，6月推出天猫精灵方糖，持续探索更多音箱形态，花式输出AI技术，包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比，紧守音箱低价冲量的战场。依托阿里强大的电商网络，天猫精灵已成为国内销量***的智能音箱品牌。

2017年2月百度全资收购渡鸦科技，11月发布了RavenH智能音箱，形状新奇色彩绚丽，带有可拆卸点阵触控板，对标高端音箱Sonos、Bose 和哈曼卡顿，售价1699。18年初联合老牌音响制造商DOSS（德仕）推出DOSS智能音箱，3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱，在京东和天猫发售，凭借极高的性价比，在国内音箱价格战中尚有一席。

除了销量可见的主流智能音箱，国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke，搭载了微软Cortana，Line与高通合作推出的Clova，以及国内中小创业团队的系列智能音箱，出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟，各类音箱或者会找到自己的位置，或者无声寂灭。

智能音箱除了提供核心内容资源消费功能，各品牌还深挖居家场景，开放平台，吸引第三方开发者，提供了越来越多的技能。智能音箱界独领***的Amzon Echo已经具备了超过3w项技能，从技能增长梯度看，2016年开始爆发式增长，随着Echo销量的增加，至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。

如同智能手机操作系统的app一样，海量的语音操作系统技能中，真正获得关注的还是少数，大量的技能成为僵尸技能，无人问津。因此其他智能音箱品牌，只要覆盖了高频、核心功能，提供更多资源、家控和创意功能，则无需畏惧Amzon恐怖的技能数量。

智能音箱产品功能趋同，主要分为内容技能、工具技能、互动娱乐三个大方向；功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。

用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐，其次是教育内容、趣玩搞笑、新闻，再其次是新闻、财经类功能；

工具技能用户口碑偏低，但有不可替代性；互动娱乐技能可替代性强，口碑和体验好的功能更受欢迎；内容技能评价均匀，重点在优质资源可得性。

摘录自eb***、Walmart、京东、天猫等电商平台的用户评论数据。

用户体验总结：

1）智能音箱产品整体受欢迎程度很高、用户接受度较高，评价矩阵皆为70~80%的5星好评；

2）用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大（可能由于个人拥有音箱品牌数量少于1个，对比不明显）；对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。

3）老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。

4）海外用户对音质要求更高，对音箱的使用场景区分更鲜明，倾向于为不同居所场景配备多个音箱产品，对是否自带电池等要求不多；国内用户音质要求和鉴别水平不足，期望自带电池便携便移动。

5）用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。

1 ）音箱销量： 2017年全球智能音箱出货量3200w台，其中Amzon与Google以大约9:1的比例瓜分市场。Amzon 音箱销量量级已超2000w，铺货量和活跃设备数全球遥遥领先。截止2018年4月底，国内厂商销量以天猫、小米为首，量级在200w左右，百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向，以低价占据迅速用户市场。据C***ys分析公司保守预测，2018年全球音箱销量将增长到5630台，美国作为主战场销量将达3840台，中国作为第二大市场销量可达440万台。

2 ）功能覆盖：智能音箱产品功能同质化明显，主要分为内容技能、工具技能、互动娱乐三个大方向；具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统，吸引更多智能硬件厂商、独立开发者入驻；鉴于技术水平差距不明显和技能开发者的可转移性，技术、技能都不会是决胜的关键因素。

3 ）用户反馈：智能音箱产品整体市场接受度较高，评价矩阵皆为70~80%5星好评；用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大，对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感；同时用户期望仍处于不断攀升的阶段，对音箱产品提出了越来越多个性化要求。

语音识别可以应用到哪些场景？

语音识别可以应用到的场景：

1. 智能家居

相对于传统的控制、交互形式，在智能家居领域中使用语音交互对于用户会更加便捷。亚马逊、谷歌、百度、小米、阿里巴巴等企业都先后发布了自己的智能音箱产品。目前，智能音箱作为所有智能家居交互的入口，扮演着一个非常重要的角色，且不用附加在一些重服务家电上。除了常规的日程设置、音乐播放、天气等信息查询，智能音箱还可以控制灯光、空调、电视、窗帘、门窗、安防与监控等。未来的家居场景，是全屋产品的智能化，届时语音与其他技术会更加深度地融合。图1-4展示了几种智能音箱的形态。

2. 智慧生活与办公

智慧生活是一个比较宽泛的场景，包括语音控制硬件、可穿戴设备和语音助手等。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口，无论是眼镜、耳机，还是手表、手环，语音交互会更方便也更自然。语音助手更是语音识别深度学习时代最早的落地产品，根据Strategy Analytics的预计，到2023年，90%的智能手机都会配备AI语音助手。

其他的消费级产品还包括翻译机、录音笔、语音输入法等，这些产品强依赖于语音识别技术本身的准确率，在办公、教育、旅游等领域的应用也都越来越广泛。

3. 智能汽车

另一个正在飞速发展的智能语音落地场景，是智能汽车。除了L4，L5级别的自动驾驶，车载语音交互作为智能座舱中的一部分，在未来汽车形态中扮演着更加重要的角色。与传统车载系统通过按键或者屏幕操控不同，多模态融合检测、智能语音交互、多屏互动手势操作等一系列技术，将成为下一代智能座舱的标配。由于车内环境相对稳定，语音识别率较高，因此座舱内是部署语音交互的极佳落地场景。由此带来的司机双手的解放不仅能增强安全性，也能极大地提高用户驾驶体验。

4. 语音质检

语音质检普遍被应用在智能外呼和客服领域。通过语音识别与声纹识别的相关技术，不仅可以对客户说话的内容进行语音语义分析，挖掘客户潜在需求，进行用户画像，提供个性化的客户服务与产品的精准营销，还可以对对话内容的合规性进行稽核与审查，进一步提升服务满意度。

5. 智慧物流

拣货是物流仓储作业中成本***的一项任务，占总体作业量的50%～70%。语音拣货是仓库作业人员通过蓝牙耳麦与语音系统对话推进拣货工作的方式。传统的语音拣选是人与人沟通，指示拣货员挑选货物，耗时长，成本高。而通过语音识别和合成技术，可以使仓库作业人员直接与仓库管理系统进行对话沟通。系统通过语音指导作业员到指定区域的库位拿取或放置货品；作业员通过语言进行动作确认，仓库管理系统直接识别作业人员的语音进行相应的数据处理。

智能语音交互的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于人工智能语音识别技术、智能语音交互的信息别忘了在本站进行查找喔。

打赏