当前位置： > 服务器 > Mail服务器 > 文章内容

智能机器人语音交互,智能机器人语音交互问题

http://www.itjxue.com 2023-01-21 00:46 来源:未知 点击次数:

什么是智能语音机器人

说通俗点，就是一个机器人，语音识别技术比较好，带有一定的思维逻辑性，可以和使用者进行语音对话，并根据语音指令进行一些基本操作或者动作。

小谷智能机器人互动语音怎么是翻译

翻译机器人的翻译平台GE-CCT 2009通过提供海量词库、支持用户词库、支持交互翻译、术语自动抽取和术语冲突处理等方式解决术语翻译问题。

1.第一阶段：从语音信号转化到文本的过程

一般在电销行业中，智能语音机器人会接收到客户说的话语等音频，音频通过语音识别系统进行检测，将其转化为可信息化编辑的二进制数字数据和文本，通俗点来讲，就是让机器听得懂人话，这就是智能语音机器人的语音识别功能。

在机器听懂“人话”之后，就需要进行后续的交互应答，这就需要机器人根据语音识别系统的语义分析和语句逻辑等做出响应的应答。这不仅仅是智能语音机器人与人交互的前提，更是人工智能研究的一项基础研究。

2.第二阶段：处理文本、识别意图等响应过程

把人类的语音翻译成机器能看懂的语言这才是第一步，下一步就是如何理解语言了。在计算机领域，自然语言处理技术就是让机器理解人类的语言，并在理解语义之后，在提前收集设置的话术库中搜索与之匹配的回答，触发预先设置好的话术录音，做出应答。

扩展资料：

人机互动过程实际上是一个输入和输出的过程，人通过人机界面向计算机输入指令，计算机经过处理后把输出结果呈现给用户。人和计算机之间输入和输出的形式是多种多样的，因此互动的形式也是多样化的。

主要有以下交互形式：

1.问答式对话数据输入交互

2.菜单选择数据输入交互

3.填表数据输入交互

4.直接操纵数据输入交互。

5.关键词数据输入交互

6.条形码数据输入

7.光学字符识别（OCR）

8.声音数据输入交互

9.图像数据输入

简单说，就是计算机根据人的行为，去理解图像，然后作出反映。这里面，让计算机具备视觉感知能力是首要解决的问题。目前人们研究的机器视觉系统可以分为三个层次：图像处理（最低级层次）--图像识别（较高级层次）--图像感知（最高层次）。

参考资料：百度百科-人机互动

智能机器人语音交互,智能机器人语音交互问题

智能语音机器人应用实践思考

智能语音机器人呼叫流程的交互时序流程（以呼入为例），如图2所示，主要流程为：

1.客户拨打电话给智能语音机器人。

2.智能语音机器人接听电话后，呼叫中心平台调用业务流程管理接口，启动并初始化对话流程状态图。

10.根据配置好的业务流程状态图，重复6-9步骤，直至呼叫对话流程结束。

11.业务对话流程结束后，呼叫中心通知ASR服务结束当前的语音转写时间请求。最终通知业务流程对话管理模块挂机操作，并向呼叫管理平台上报呼叫结果。

1.语音识别ASR

语音识别能够将用户的语音转换成文字。针对语音识别应用中面临的方言口音、背景噪声等问题，在实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据的基础上通过先进的区分训练方法进行语音建模，能够使语音识别在复杂应用场景下均有良好的效果表现。

模型优化包括声学模型优化和语言模型优化。由于声学模型训练需要大量的数据（客户的标注数据不足以训练声学模型），并且同时需要音频及对应的标注文本，声学训练又是一个高计算的任务，需要多台高性能服务器及GPU构成的硬件系统，所以给客户做声学优化不可行。语言模型优化相对声学模型优化，其生成模型方式及硬件要求，可在利用客户标注数据进行，以下是语言模型优化的流程：

语言模型优化主要分为需求评估、数据准备、模型训练、测试评估、迭代优化五个部分，其中标绿框表示不一定能做（有时候拿不到客户的样本数据），标蓝框表示第一次优化工作需要做的。

2.前端语音处理

前端语音处理，利用信号处理的方法对说话人的语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音，其主要功能包括端点检测VAD、流式语音智能断句和噪音消除。

语音端点检测是对输入的音频流进行分析，确定客户说话的起点和终止点的处理过程。一旦检测到客户开始说话，语音开始流向识别引擎，直到检测到客户说话结束。这种方式能够使得识别引擎在客户说话的同时开始进行识别处理，做到最大限度的即时处理。

n 端点检测过程：

n 端点检测目的：

随着语音识别应用的发展，越来越多的系统将打断功能作为一种方便有效的应用模式。而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如，提示音被很强的背景噪音或其它人的讲话打断，是因为端点检测错误的将这些信号作为有效语音信号造成的。反之，如果端点检测漏过了事实上的语音部分，而没有检测到语音。系统会表现出没有反应，在用户讲话时还在播放提示音。端点检测对识别系统的识别效果影响也很大。语音信号的起始点和结束点判断有误，有可能影响整个信号的完整性，在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时，很可能对识别的准确度有特别大影响。不完全的信息会使识别率降低。

n 商用端点检测应具备的特性：

基于可靠的端点检测技术和智能反馈，智能打断功能不仅应该在一般的环境下工作出色，而且能有效的拒绝环境噪声，非语音的高强噪声(呼吸，关门等) 环境中其它人的声音。

流式语音智能断句

现有的语音处理方案是先用语音活动检测模块对语音进行断句，再将断开的语音进行自动语音识别。但是，在电话语音交互场景中，VAD面临着两个难题：

漏检反应的是原本是语音但是没有检测出来，而虚检率反应的是不是语音信号而被检测成语音信号的概率。相对而言漏检是不可接受的，而虚检可以通过后端的ASR和NLP算法进一步过滤，但是虚检会带来系统资源利用率上升，以及造成响应不及时。

流式语音智能断句模块是主要由语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块构成。其中，语音识别模块用于接收并识别语音实时流，并按照指定的频率输出带有时序的语音识别结果；信息流聚合模块用于对带有时序的语音识别结果进行优化处理，并整合经过优化处理后的带有时序的语音识别结果，以形成语音识别结果序列；动态窗口设定模块用于从语音识别结果序列中选择指定范围的文本，进而将指定范围的文本用于断句分析；断句识别模块用于分析指定范围的文本的语义，并根据语义确定是否进行断句。

参考：

搭建智能语音交互系统重要点那些

序言

随着人工智能命题的提出，近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商，仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。

简单介绍一下什么叫做智能语音交互平台。其实大实话就是在呼叫中心基础上，集成 ASR、 TTS、的呼叫服务平台。

那么如何我们自己去搭建智能语音系统呢？

我们先列出搭建智能外呼系统的搭建需要那些技术和服务：

个人认为：

[if !supportLists]·????????[endif] 首先最重要的是交换机：

[if !supportLists]1.??? [endif]PBX也就是交换机，商用设备原厂包括像华为、Avaya、思科、东汇等这些生产硬件交换机，

[if !supportLists]2.??? [endif]还有就是目前FreeSitch、asterrisk、OpenPBX这些软件交换机。

[if !supportLists]·????????[endif] 其次是AI技术: 及包含语音识别、语义理解、语音合成这三种技术是核心组成部分。语音识别相当于人的“耳朵”，接进电话后，对人的话语进行处理转义成系统能够识别的数据交由系统处理去识别。在进一步的话，可以转义为文字。语义理解相当于人的"大脑"，根据话语识别人的意图。语音合成，相当于人的”嘴巴“，识别人的意图之后，依照特定的回答方式，去回复和引导对话。

[if !supportLists]·????????[endif] 再者是前端服务平台：即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表的网站，这个是终端用户唯一可以看到并且操作的界面。

[if !supportLists]·????????[endif] 最后是外呼线路：其中包括三大运营商以及其他小型的集成线路供应商，主要目的是外呼电话或者是接入电话。

也有人可能有疑问：”智能语音交互系统最重要的不是人工智能么，和交换机有啥关系？”为什么说最重要的是交换机呢，原因是不管我们是外呼还是接入电话、都需要前端服务平台把外呼请求发送给交换机，通过外呼线路而拨出去。换句话说交换机是控制整体的外呼情况。硬件的交换机，比如说像华为的交换机，价格在大约几万到几百万不等的价格。对于想要建立自己的智能语音交互系统来说，价格对于一些小型公司来说承受不起，而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。

什么是FreeSwitch？

FreeSitch是一个电话的软交换解决方案，包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及多媒体服务器等。支持多种通讯技术标准，包括 SIP, H.323, IAX2 以及 GoogleTalk ，同时也可以方便的与其他开源的PBX系统进行对接。而且具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体，提供路由和互连通信协议。

FreeSwitch 的典型功能

[if !supportLists]·????????[endif]在线计费、预付费功能。?

[if !supportLists]·????????[endif]电话路由服务器。?

[if !supportLists]·????????[endif]语音转码服务器。?

[if !supportLists]·????????[endif]支持资源优先权和QoS的服务器。?

[if !supportLists]·????????[endif]多点会议服务器。?

[if !supportLists]·????????[endif]IVR、语音通知服务器。?

[if !supportLists]·????????[endif]VoiceMail服务器。?

[if !supportLists]·????????[endif]PBX应用和软交换。?

[if !supportLists]·????????[endif]应用层网关。?

[if !supportLists]·????????[endif]防火墙/NAT穿越应用。?

[if !supportLists]·????????[endif]私有服务器。?

[if !supportLists]·????????[endif]SIP网间互联网关。?

[if !supportLists]·????????[endif]SBC及安全网关。?

FreeSwitch最典型的功能是作为一个服务器，并用电话客户端软件连接到它。虽然FreeSwitch支持众多的通信协议，但其最主要的协议还是SIP，通过SIP中继发起会话协议。

使用FreeSwitch这种软交换的好处在于，你只需要一台服务器就可以随时搭建自己的外呼中心，而且FreeSwitch支持跨平台运行。能够原生运行Windows、Linux、BSD等诸多32/64位平台。

FreeSwitch内部使用线程模型来处理并发请求，每个连接都在单独的线程中进行处理，不同的线程间通过Mutex互斥访问共享资源，并通过消息和异步事件等方式进行通信。FreeSwitch本身是比较稳定的，它是比较优秀的开源软件。另一方面来讲，FreeSwitch又是比较激进的，它的开发分支里会有大量的新特性加入，因此在测试不全面的情况下，很容易出现不稳定的情况。而在用于生产环境的情况下，系统的稳定性是系统能否正常被使用的关键。之前我们在做项目的过程中，就遇到一些FreeSwitch不稳定的情况，导致外呼情况不理想。举一个例子：我们在进行测试外呼的时候，语音通话断断续续，虽然前端服务平台可以很好的接受到数据的传输，但是，真正在与人工进行沟通的时候，会出现各种各样的沟通障碍，为了解决这一个问题，我们花费了几个月的时间，去研究FreeSwitch的结构特性。终于把这个问题解决掉。我们的项目才得以继续推动，最终得以真正落地部署实施。

也有人可能有疑问：”FreeSwitch软交换虽然重要，但是既然是智能语音交互系统人工智能不重要吗？”，重要，当然重要！容我慢慢道来~

AI 技术

1. 通信原理

先简单解释一下正常打电话这个流程

流程：A→PSTN→B

解释：PSTN是Public

Switched Telephone Network，意思为公共交换电话网络，也就是我们的运营商的网络电话，

那我们平时如何给呼叫中心比如打电话是如何打的？：个人A打电话给呼叫中心1***6 打电话，拨通后听到录音，您好，拨打人工台，请按0键，按键之后，出现盲音，真正接通之后，客服接通了电话。

流程：A→PSTN→PBX→IVR→客服

解释：PBX也叫交换机、相当于整个呼叫中心的出入口

IVR也叫互动/交互式语音应答，语音导航，也就是相当于咨询业务请按键，这一环节，根据业务去分流到客服。

智能语音交互平台（智能机器人）落实到具体具体业务场景是如何实现的：

如：”个人A要在某一个大型酒店预订位子“，

A拨通后先听到了声音，“您好，我是机器人小岳，需要我帮您订位子是吗？

个人A说，“我不要和机器人说话，找个真人来”。

然后听到录音，“为您转接很贵的真人客服，排队中，请稍后”。

几分钟后接通，真人客服接了电话。

流程：A→PSTN→PBX→IVR（TTS→ASR→NLP→TTS）→ACD→客服

解释：在IVR部分：不再需要提示按键，而是直接问来电方需要办理什么业务，然后识别语音、理解意图后，根据用户的需求，回答后转入对应的业务队列排队。

上边是接通的流程，呼出的流程与之相反，就不在赘述了。

2. 现在市场上的AI技术的运用

目前市场上的不管是ASR、TTS、NLP都被阿里百度科大讯飞等巨头公司所占据，这些技术在国内基本已经成为定局。像ASR这类引擎市场上大部分都是用的阿里云和讯飞云的，要不就是百度云。阿里云和讯飞云的识别率高一些，可以达到97%左右、百度的差一些，识别率在80%左右，我们当初在做项目的时候选择ASR做过测试，事实证明阿里云识别率更高同时也可以识别方言。因此，我们在做项目的时候，当仁不让的选择了阿里云的

TTS我们选择的是讯飞的，选择的理由很简单，毕竟科大讯飞是人工智能领域巨头级的公司，质量当然有的保证。

3. AI 能力对接

在具体落地中，这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种，而主要的对接点也就在于AI能力与呼叫中心设备去对接，而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。

媒体资源控制协议（Media Resource Control

Protocol, MRCP）是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议，版本2使用SIP作为控制协议，版本1使用RTSP。

实际对接的时候，会遇到不少技术问题，当我们ASR/TTS引擎做私有云部署，为了避免了内外网穿透时防火墙的诸多设置和语音流的时延。这在我们当时对接的时候也花费了好大一番功夫。

前端服务平台：

其中最重要的就是配置呼叫流程这一块儿了，

这一块儿很容易被忽视，但是这反而是可以出成绩的地方。一般来说一套最佳话术模板，可以以一敌万。心理学基础必须要有，一句话怎么说能让接电话的人最大概率的顺着自己的思路走，达成目的，从而形成特定细分领域机器人话术模板，得到最佳的外呼效果（接通率、通话时长、电销意愿、催收意愿）或者是接通效果（满意度）

其余的基本就是web端的东西了，具体功能点呢，即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表，这些功能点基本实现就可以，因为站在产品角度，产品最重要的价值就是可以呼通或者接通用户的电话，并且能够准确的识别用户的意图，并且准确的回答用户。这就是智能语音交互系统的最终目标，也一直是我们的最终目标。

外呼线路厂商：

一般如果是购买系统的话，是给提供线路的，只需交一些线路费用。如果是自己做项目的话，网上、淘宝上一大堆，费用可以谈，也给提供线路对接的接口。

结语

虽然现在市场上做智能语音交互系统的比较多，但一般只限于各个行业的电话销售，真正意义上的智能语音交互还是很少的。原因很简单，虽然原理不是很难但是真正落地实施的时候，遇到的困难非常的多，几乎是一步一个坑。好在现在已经真正的落地实施了，方方面面的效果都还是很不错的。一年多的辛苦没有白费。哈哈~

写这篇文章尝试给大家简单介绍一下智能语音交互系统，然才疏学浅，疏漏和不当之处在所难免，权当给大家抛砖引玉。

诸多细节限于主题和篇幅的要求不做详细记述，如有问题，欢迎随时交流。

萤石儿童陪护机器人RK2——功能篇

RK2是一台实用价值明显的AI智能机器人。RK2搭载了卡通交互引擎，并集遥控行走、安防监控、语音交互、绘本伴读、海量儿童内容点播、双向视频通话功能与一身。是行走的儿童和家庭看护员，充电状态下支持IPC全部安防功能。市面上确实没有一个安防能力和运动能力比这款强的机器人。并且它支持多达36项语音技能，可替代传统智能音箱。市面上现有的儿童机器人交互呆板、动作生硬，功能单一，同质化严重，最重要的是孩子并不喜欢。RK2是一个趣味、灵性的伙伴，为孩子们打造一个出现在现实世界中的卡通形象。

▼主要功能：

1.远程临场

RK2是爸爸妈妈在家中的卡通替身。家长可随时使用手机远程遥控RK2和孩子进行互动。流畅、稳定的视频传输和超低延迟控制，保障了远程互动的稳定性和体验感。同时RK2内置生动的卡通趣味动作，即使隔着屏幕，家长也可以体会到和宝贝互动的乐趣。

2.双向视频通话

除了家长的主动操控，当宝贝想念爸爸妈妈时，可以向RK2发出语音指令“你好萤石，打电话给妈妈/爸爸”也能轻松开启视频通话。点击头部传感器接听，点击胸前传感器挂断。

3.智能语音交互

RK2拥有4mic环形阵列，能够听到你的声音就精准的朝向你的方位。它有36项语音技能，譬如可以控制设备、比如你对它说：“你好萤石，播放一首歌。”或者“声音太小了。”、”屏幕太暗了。”、”拍张照片。“、”玩个成语接龙吧。“等等它都可以回应你。孩子可以和RK2进行聊天、对诗、成语接龙，百科问答、中英互译等，充分满足孩子的求知欲。

4.人脸识别

RK2可以通过人脸识别，准确的识别每个家庭成员，实现主动对话，只需要对着RK2说：”你好萤石，记住我。我是XX。“设置成功后RK2每次见到你，都会主动打招呼。当新成员对着RK2看的时候，系统会给出你是谁的询问以及拍照录入新人脸的提示，以后RK2识别到相关的家庭成员时，甚至能根据不同的时间段给出“早上好，XX”的语音问候，充满了灵性。

5.拍照录像

RK2在与孩子的交互过程中，会自动抓拍照片并保存。可以根据语音指令让RK2拍照。它会进行画面自动构图。同时，家长和孩子还可通过视频留言功能进行互动，不错过每一次与孩子的交流。

6.绘本阅读

RK2还带有绘本阅读功能，我们只需要将绘本放在机器人的面前就能识别，它会识别书上的内容，并通过语音朗读出来，随便翻哪页都能读，官方数据宣传其支持的绘本数量超过50000+。课本也可以读。不需要爸爸妈妈的帮助，宝贝语音控制就可开启绘本阅读功能，平时孩子一拿到手机玩的话，就会很沉迷了，有这个伴读功能的话，就可以开启教他阅读绘本，分散他沉迷机器的注意力，把注意力拉回到实体书本上，培养他良好的阅读习惯。

7.内容点播

RK2提供有中英互译、英文对话、故事点播、歌曲点播、数字运算等实用工具，并且在APP中还设置有专门的内容点播频道，在里面提供有海量儿童教育语音资源。

8.人体跟随

RK2还具备跟随模式，利用履带行进，由于采用双履带设计，RK2可以进行复杂的动作，底座能360度旋转同时配合前进后退动作，头部的双云台其水平及垂直旋转角度分别达到了120°和60°，RK2可实现灵活转动，穿梭自如。一句“跟随我走”，它就会跟着我们的路径前进，并且体验后发现它有一定的越障性。在有小坑的路面和草地上都游刃有余。

9.专业安防监控

RK2头部双向云台可以左右、俯仰运动，履带运动底盘可 360 度旋转。标准版摄像头 200 万分辨率，Pro 版 400 万像素，均搭载红外夜视灯，可实现黑夜中视频监控，充当安防监控摄像头。机器人支持移动画面 / 人形检测，可自动报警以及消息推送，支持云录像以及 SD 卡录像。RK2的遥控行走功能可以实现全屋看护，用手机可以自由控制行走路径和拍摄角度。因此，借助APP的移动遥控和摄像头实时画面回传功能，能遥控RK2到家里的任何地方进行拍摄，譬如看看宝贝是否睡着了、被子是不是盖好、或者家里有老人的，看看爸妈是不是照顾好自己了……

下图是RK2白天与黑夜分别截屏的监控画面。标准版的分辨率还是挺优秀的。在完全无光的环境中，夜视监控能看到图片还是非常清晰。

总结

▼优点：

1.RK2针对儿童在内容端有一系列针对性的设计，内容也涵盖了儿歌、诗词、英语等领域，并针对儿童交互还提供了海量成语、英语等相关学习游戏资源。

2.RK2在“情感陪护”方面设计得也很出色，是有“情感”的小伙伴，它具备丰富的面部表情和肢体动作、以及听声辩位等设计，让我们能真切感受到作为家庭成员的那种陪伴感。

3.RK2可以实现超越传统摄像机的移动拍摄功能，同时远程视频通话、语音聊天和家庭相册等功能，让宝贝和父母的联系变得无时无刻。

如果你想为宝贝找一款能交互、有趣好玩且看娃看家的智能机器人，RK2是个不错的选择。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：backcoveropen是什么意思,backcover什么意思中文翻译

下一篇：恶狼游戏第一章攻略,恶狼游戏攻略第五章图文

智能机器人语音交互,智能机器人语音交互问题

什么是智能语音机器人

小谷智能机器人互动语音怎么是翻译

智能语音机器人应用实践思考

搭建智能语音交互系统重要点那些

萤石儿童陪护机器人RK2——功能篇

(责任编辑：IT教学网)

相关Mail服务器文章

阅读排行

专题教程

推荐Mail服务器文章

最新更新Mail服务器