语音识别,语音识别歌曲

http://www.itjxue.com  2023-01-16 16:45  来源:未知  点击次数: 

语音识别的过程是什么?语音识别的方法有哪几种?

语音识别的过程和方法具体如下:

语音识别过程

1、语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声卡是计算机对语音信进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功能。而且,现代操作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。

对于现场环境不好,或者空间受到限制,特别是对于许多专用设备,目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。

2、语音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理,然后才能进入识别、合成、增强等实际应用。

滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/:为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。

A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。

预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,便于频谱分析。

端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方法。

时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测,计算量较大。

3、语音信号的特征参数提取

人说话的频率在10kHz以下。根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。

一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠。例如,当使用20kH的采样面率时,标准的一帧为10ms,包含200个采样值。

话筒等语音输入设备可以采集到声波波形,虽然这些声音的波形包含了所需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能够帮助辨别单词的特征信息。在语音识别中,常用线性预测编码技术抽取语音特征。

线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。

语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。

4、向置量化

向量量化(Vector Quantization,VQ)技术是20世纪W年代后期发展起来的一种数据压缩和编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。

在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标量信号,量化时落入小区间的值就用这个代表值[戈替。因为这时的信号量是一维的标量,所以称为标量量化。

向量量化的概念是用线性空间的观点,把标量改为一维的向量,对向量进行量化。和标量量化一样,向量量化是把向量空间分成若干个小区域,每个小区域寻找一个代表向量,量化时落入小区域的向量就用这个代表向量代替。

向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的特征向量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。

语音识别

1、模板(template)匹配法

在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2、随机模型法

随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足够短的时间段上的信号特征近似于稳定,而总的过程可看成是依次相对稳定的某一特性过渡到另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。

3、概率语法分析法

这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变化发现,虽然不同的人说同一些语音时,相应的语谱及其变化有种种差异,但是总有一些共同的特点足以使他们区别于其他语音,也即语音学家提出的“区别性特征”。

另一方面,人类的语言要受词法、语法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。

于是,将语音识别专家提出的“区别性特征”与来自构词、句法、语义等语用约束相互结合,就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用若干规则来描述。

语音识别系统可分为哪几类

语音识别系统根据对输入语音的限制,可分为特定人语音识别系统、非特定人语音系统和多人的识别系统三类;

根据说话的方式可分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统;

根据词汇量大小可分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。

语音识别系统根据对输入语音的限制加以分类:

可以将识别系统分为3类:

(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;

(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;

(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

语音识别简述

一、概念

语音识别是指将声音内容转换成文字的技术。

它是一门交叉的、非常复杂的学科,需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识。

二、发展

随着科技的发展,语音识别技术在理论和应用方面都取得了重大突破,越来多的应用到了日常生活中。比如智能家居,车载娱乐,语音识别听写器、语音寻呼答疑平台、智能客服等。

三、简单应用原理

通常语音识别有两种工作模式,唤醒模式和识别模式。所谓唤醒模式,即应用处于待唤醒状态,此种状态引擎会一直在后台录音,用于判别是否有【唤醒词】,如果识别到唤醒词,即转为识别模式。所谓识别模式,是指我们说出的语音被转为文字以及带有特定格式的一段数据,即对于所识别到的语音进行结构化处理。处理后通常会以json的形式提供给外部应用进行再次解析处理,用于满足应用自身功能。

比如一些支持语音功能的智能家居,首先把应用唤醒(比如,小爱同学),然后说指令(比如,开空调)。语音识别引擎识别出语义,把结果(json数据)给到APP,APP把结构化的语义进行分类处理。再比如,如果想查询天气,语音说“明天天气如何”。识别引擎会根据位置信息,联网检索相关天气信息提供给APP。

注:

唤醒词:用于唤醒应用的特定语音,例如“hi,siri”,通常用户可以自定义

(责任编辑:IT教学网)

更多

推荐网站策划文章