10.一种针对儿童的语音识别装置,包括: 模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型; 接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理; 特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征; 识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本; 语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中 所述模型建立模块还配置为通过以下步骤建立声学模型: 对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征; 根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
[0029] 本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。

10.一种针对儿童的语音识别装置,包括: 模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型; 接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理; 特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征; 识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本; 语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中 所述模型建立模块还配置为通过以下步骤建立声学模型: 对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征; 根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
[0034] 在步骤S201中,对语音语料库中的全部语音语料进行特征提取处理。例如,对语音语料中的全部语音语料进行梅尔域倒普系数(Mel Frequency CepstrumCoefficient, MFCC)特征的提取。其中,语音语料库中的全部语音语料包括成人的语音语料以及儿童的语音语料。在对全部语音语料进行特征提取时,在处理过程中加入声道长度归一化(Vocal Tract Length Normalization,VTLN)技术。声道长度归一化技术是语音识别的经典算法,通过该技术能够对语音信号的频谱进行调整,进而修正声道长度,以避免声道长度不同带来的特征差异,进而能够避免后续操作中对儿童语音的识别过程造成不良影响。在对非特定人进行语音识别的过程中,不同的人的语音信号之间的差异主要是声道形状,尤其是声道长度。例如,成年男性的语音信号的声道长度平均值为18厘米,成年女性的语音信号的声道长度平均值为13厘米,而8岁儿童的语音信号的声道长度平均值为10厘米。现有技术中,训练声学模型的语音语料以成人的语音语料为主,这种儿童语音语料的缺乏导致,在使用该种语音语料训练得到的声学模型对儿童的语音信号进行识别时,识别率将会下降,无法保证识别的准确性。为解决儿童与成人声道差异导致的发音变化问题,在对语音提取特征时,采用VTLN技术,通过对声道长度的修整来调节儿童语音的特征,使得儿童的语音信号更容易被识别。
[0029] 本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。
×