[0034] 在步骤S201中,对语音语料库中的全部语音语料进行特征提取处理。例如,对语音语料中的全部语音语料进行梅尔域倒普系数(Mel Frequency CepstrumCoefficient, MFCC)特征的提取。其中,语音语料库中的全部语音语料包括成人的语音语料以及儿童的语音语料。在对全部语音语料进行特征提取时,在处理过程中加入声道长度归一化(Vocal Tract Length Normalization,VTLN)技术。声道长度归一化技术是语音识别的经典算法,通过该技术能够对语音信号的频谱进行调整,进而修正声道长度,以避免声道长度不同带来的特征差异,进而能够避免后续操作中对儿童语音的识别过程造成不良影响。在对非特定人进行语音识别的过程中,不同的人的语音信号之间的差异主要是声道形状,尤其是声道长度。例如,成年男性的语音信号的声道长度平均值为18厘米,成年女性的语音信号的声道长度平均值为13厘米,而8岁儿童的语音信号的声道长度平均值为10厘米。现有技术中,训练声学模型的语音语料以成人的语音语料为主,这种儿童语音语料的缺乏导致,在使用该种语音语料训练得到的声学模型对儿童的语音信号进行识别时,识别率将会下降,无法保证识别的准确性。为解决儿童与成人声道差异导致的发音变化问题,在对语音提取特征时,采用VTLN技术,通过对声道长度的修整来调节儿童语音的特征,使得儿童的语音信号更容易被识别。
第二,不同类型的设备产品需求是不一样的。举个例子,儿童手表更多是孩子自己主动调用,但是对于故事机,更多地是家长把它拿过来按键,调出他想给孩子放的歌曲。正是因为有不同的产品差异,必须面向场景做非常精细化的运营才有可能实现更好的体验。我有一个印象深刻的例子,一个家长在后台跟我反馈了一个信息,他在APP里面看到孩子问巴迪龙,说爸爸妈妈离婚了我该怎么办,这个家长刚刚经历了家庭变动,通过这样的问题家长意识到了自己没有顾及孩子的感受,他开始反思自己对孩子的培养。原来我做的这样一个小功能,竟然给了家长这样一个机会,发现他和孩子之间沟通上的不足。另外一点,有一些场景我们做得还不够,我们针对孩子生活场景可以更精细化地运营,把孩子的家庭变故、家庭矛盾包括学习被老师批评等等场景全部做到,从投入产出的角度来说这些场景可能是孩子非常低频的场景,但是这些低频的场景只要涵盖到了,可以给孩子非常大的帮助。这个投入仍然是值得的。
×