智能语音识别功能,智能语音识别功能怎么用

http://www.itjxue.com  2023-01-08 13:30  来源:未知  点击次数: 

人工智能—语音识别过程与识别方法

语音识别是完成语音到文字的转换。自然语言理解是完成文字 到语义的转换。语音合成是用语音方式输出用户想要的信息,用语音实现人与计算机之间的交互,主要包括语音识别、自然语言理解和语音合成。

相对于机器翻译,语音识别是更加困难的问题。机器翻译系统的输入通常是印刷文本,计算 机能清楚地区分单词和单词串。而语音识别系统的输入是语音,其复杂度要大得多,特别是口语 有很多的不确定性。人与人交流时,往往是根据上下文提供的信息猜测对方所说的是哪一个单 词,还可以根据对方使用的音调、面部表情和手势等来得到很多信息。特别是说话者会经常更正所说过的话,而且会使用不同的词来重复某些信息。显然,要使计算机像人一样识别语音是很困难的。?

语音识别过程包括从一段连续声波中采样,将每个采样值量化,得到声波的压缩数字化表 示。采样值位于重叠的帧中,对于每一帧,抽取出一个描述频谱内容的特征向量。然后,根据语音信号的特征识别语音所代表的单词,语音识别过程主要分为五步,如下:

01

语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为 电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声 卡是计算机对语音信进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功 能。而且,现代操作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。

对于现场环境不好,或者空间受到限制,特别是对于许多专用设备,目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。

02

语音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理, 然后才能进入识别、合成、增强等实际应用。

滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/:为采样频率),以防止 混叠干扰;二是抑制50 Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。

A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信 号值与原信号值之间的差值为量化误差,又称为量化噪声。

预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带 中,能用同样的信噪比求频谱,便于频谱分析。

端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减 少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方 法。时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不 同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语 音检测,计算量较大。

03

语音信号的特征参数提取

人说话的频率在10 kHz以下。根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠。例如,当使用20kH*的采样频率时,标准的一帧为10 ms,包含200个采样值。

话筒等语音输入设备可以采集到声波波形。虽然这些声音的波形包含了所 需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能 够帮助辨别单词的特征信息。在语音识别中,常用线性预测编码 技术抽取语音特征。

线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线 性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。

语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。

04

向置量化

向量量化(Vector Quantization,VQ)技术是20世纪W年代后期发展起来的一种数据压缩和 编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。

在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入 的标量信号,量化时落入小区间的值就用这个代表值[戈替。因为这时的信号量是一维的标量,所 以称为标量量化。

向量量化的概念是用线性空间的观点[,把标量改为一维的向量,对向量进行量化。和标量量化一样,向量量化是把向量空间分成若干个小区域,每个小区域寻找一个代表向量,量化时落入 小区域的向量就用这个代表向量代替。

向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的 特征向量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。

05

语音识别

当提取声音特征集合以后,就可以识别这些特征所代表的单词。本节重点关注单个单词的 识别。识别系统的输入是从语音信号中提取出的特征参数,如LPC预测编码参数,当然,单词对 应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础上的。

( 1 ) 模板(template)匹配法

在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板 库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将 相似度最高者作为识别结果输出。

( 2 ) 随机模型法

随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足 够短的时间段上的信号特征近似于稳定,而总的过程可看成是依次相对稳定的某一特性过渡到 另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。

( 3 ) 概率语法分析法

这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变 化发现,虽然不同的人说同一些语音时,相应的语谱及其变化有种种差异,但是总有一些共同的 特点足以使他们区别于其他语音,也即语音学家提出的“区别性特征”。另一方面,人类的语言 要受词法、语法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关 信息。于是,将语音识别专家提出的“区别性特征”与来自构词、句法、语义等语用约束相互结 合,就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用 若干规则来描述。

除了上面的三种语音识别方法外,还有许多其他的语音识别方法。例如,基于人工神经网络 的语音识别方法,是目前的一个研究热点。目前用于语音识别研究的神经网络有BP神经网络、 Kohcmen特征映射神经网络等,特别是深度学习用于语音识别取得了长足的进步。

找我获取IT技术干货

什么是自动语音识别功能?

自动语音识别功能ASR(Automatic Speech Recognition)即语音识别技术,是指将人说话的语音信号转换为可被计算机程序所识别的文字信息,从而识别说话人的语音指令以及文字内容的技术。如果用户在IVR语音流程中设置了产品查询,而用户的产品种类可能有十几种,如果只是设置按键确认的方式的话,来电者要听很久才知道按什么键才可以查找自己要查询的产品,很容易让人没有耐性听下去。有了语音识别功能,来电者就可以不需要听产品提示,直接呼叫产品名称就可以了,系统会自动识别来电者所呼叫的语音,然后把来电者所需要的内容播放出来。无需来电者按键,更节省了来电者大量的查询时间,提升来电者对企业的满意度。语音识别功能还可应用于“语音查找联系人”。(上述内容仅适用于广东联通用户)

什么手机软件可以识别视频中的声音

快影手机软件可以别视频中的声音。

快影是快手平台新推出的一款快速制作视频的软件。拥有智能语音识别功能,能快速识别视频中的话并自动转为字幕加入到视频中。同时搭配十多款精美的滤镜以及超有趣的镜头剪辑、变音变速和倒放,可以让用户轻轻松松完成视频创意。

主要功能:

1、分割:随意分割,一键剪掉视频中任意部分。

2、修剪:灵活的视频修剪功能,让用户轻松剪掉视频两端不想要的视频画面。

3、复制一键复制功能,可复制多段视频。

4、旋转::修改作品方向,90度旋转视频或照片。

5、拼接:通过添加视频进行视频拼接,将多段视频合并成1个长视频。

6、倒放:一键倒放功能,让作品实现时光倒流。

7、变速:变速功能可以改变视频作品的节奏,其中慢动作最慢0.2倍,快动作最快4倍。

什么是智能语音识别系统

语音识别:给机器装上耳朵,使其能够听懂人的语音指令。

智能语音识别系统:能够对语音识别到的信息进行进一步的处理,一般来说是将语音识别、NLP自然语言理解、知识库三方面与应用向结合。使用户通过自然的语言来控制相应设备。

智能电视:长虹ciri、联想K91、海信xt770、康佳9000、创维E700、750、800等

智能手机:小米1S、金立、步步高、康佳等

智能车载导航:上汽ivoka

硅基智能语音识别有哪些功能?

录音文件识别:支持长时长录音文件识别,离线版本不限制时长,取决于终端设备的内存大小。适用于长语音、实时性要求不高的场景,如智能质检等。

语言支持:暂只支持中文普通话

音频格式:支持wav、pcm等音频格式

音频编码:支持8k、16k的单声道音频流,支持16bit的数据采样精度

音频数据长度:音频流中每个数据包的音频分片为20-200ms(建议为20的倍数)

实时语音识别:对实时音频流进行识别,达到“说完即出文字”的效果。适用于实时性要求较高的场景,如语音输入、电话机器人等

语言支持:暂只支持中文普通话

音频格式:支持wav、pcm等音频格式

音频编码:支持8k、16k的单声道音频流,支持16bit的数据采样精度

音频数据长度:音频流中每个数据包的音频分片为20-200ms(建议为20的倍数)

一句话识别:对一句话短音频文件进行识别,离线版本支持超过1分钟时长的识别

语言支持:暂只支持中文普通话

音频格式:支持wav、pcm等音频格式

音频编码:支持8k、16k的单声道音频流,支持16bit的数据采样精度

音频数据长度(大小):音频流中每个数据包的音频分片为20-200ms(建议为20的倍数)

语音识别可以应用到哪些场景?

语音识别可以应用到的场景:

1. 智能家居

相对于传统的控制、交互形式,在智能家居领域中使用语音交互对于用户会更加便捷。亚马逊、谷歌、百度、小米、阿里巴巴等企业都先后发布了自己的智能音箱产品。目前,智能音箱作为所有智能家居交互的入口,扮演着一个非常重要的角色,且不用附加在一些重服务家电上。除了常规的日程设置、音乐播放、天气等信息查询,智能音箱还可以控制灯光、空调、电视、窗帘、门窗、安防与监控等。未来的家居场景,是全屋产品的智能化,届时语音与其他技术会更加深度地融合。图1-4展示了几种智能音箱的形态。

2. 智慧生活与办公

智慧生活是一个比较宽泛的场景,包括语音控制硬件、可穿戴设备和语音助手等。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口,无论是眼镜、耳机,还是手表、手环,语音交互会更方便也更自然。语音助手更是语音识别深度学习时代最早的落地产品,根据Strategy Analytics的预计,到2023年,90%的智能手机都会配备AI语音助手。

其他的消费级产品还包括翻译机、录音笔、语音输入法等,这些产品强依赖于语音识别技术本身的准确率,在办公、教育、旅游等领域的应用也都越来越广泛。

3. 智能汽车

另一个正在飞速发展的智能语音落地场景,是智能汽车。除了L4,L5级别的自动驾驶,车载语音交互作为智能座舱中的一部分,在未来汽车形态中扮演着更加重要的角色。与传统车载系统通过按键或者屏幕操控不同,多模态融合检测、智能语音交互、多屏互动手势操作等一系列技术,将成为下一代智能座舱的标配。由于车内环境相对稳定,语音识别率较高,因此座舱内是部署语音交互的极佳落地场景。由此带来的司机双手的解放不仅能增强安全性,也能极大地提高用户驾驶体验。

4. 语音质检

语音质检普遍被应用在智能外呼和客服领域。通过语音识别与声纹识别的相关技术,不仅可以对客户说话的内容进行语音语义分析,挖掘客户潜在需求,进行用户画像,提供个性化的客户服务与产品的精准营销,还可以对对话内容的合规性进行稽核与审查,进一步提升服务满意度。

5. 智慧物流

拣货是物流仓储作业中成本最高的一项任务,占总体作业量的50%~70%。语音拣货是仓库作业人员通过蓝牙耳麦与语音系统对话推进拣货工作的方式。传统的语音拣选是人与人沟通,指示拣货员挑选货物,耗时长,成本高。而通过语音识别和合成技术,可以使仓库作业人员直接与仓库管理系统进行对话沟通。系统通过语音指导作业员到指定区域的库位拿取或放置货品;作业员通过语言进行动作确认,仓库管理系统直接识别作业人员的语音进行相应的数据处理。

(责任编辑:IT教学网)

更多

推荐Freehand教程文章