1、一种儿童语音情感识别方法,包括训练语音库建立、分类器训练和情感识别,其特征在于,所述分类器训练包括以下步骤: (S10)提取儿童语音情感特征,该步骤包括: 前端处理:对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理;之后对经过预处理的情感语句做HHT变换,获得情感语音的Hilbert谱; 根据HHT变换和所述情感语音的Hilbert谱进行以下特征提取:音强特征提取、语调特征提取、音色特征提取和节奏特征提取,获得情感特征; (S20)对提取到的情感特征进行降维,获得不同情感空间的四元特征; (S30)四元特征情感转换计算,对训练语音库样本集都做上述计算,得到一系列的自然情感状态的四元特征在情感空间i上的投影,从而构成情感特征投影集; (S40)用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。
[0014] 本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。[0015] 综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。

其中,步骤S11的前端处理中,预处理的方法中可包括利用FIR低通滤波 器进行滤波,以滤除信号中的高次谐波和随机干扰成分,被滤除的成分是奇异 模态,从而避免了随后EMD筛选中因奇异模态影响造成的模态混叠,以便在被 筛选出的模态信号中得到完整的有用信号。预处理的实现方法亦可使用现有技 术语音识别方法中的预处理通用方法,例如,普通PC机的声卡即可用于实现预 处理。设对每条(句)语音信号,预处理后得到原始语音信号时间序列义(O, HHT变换首先对语音情感信号进行EMD(经验模态分析,Empirical Mode Decomposition)分解,把非平稳的语音情感信号X(O分解成为六个平稳的IMF(固 有模态函数,Intrinsic Mode Functions )窄带信号分量。关于HHT变换的详细内 容可参见文献[l]: Norden E. Huang, Zheng Shen, Steven R. Long, The empirical mode decomposition & the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceed of the Royal Society of London Series A: Mathematical
第二,不同类型的设备产品需求是不一样的。举个例子,儿童手表更多是孩子自己主动调用,但是对于故事机,更多地是家长把它拿过来按键,调出他想给孩子放的歌曲。正是因为有不同的产品差异,必须面向场景做非常精细化的运营才有可能实现更好的体验。我有一个印象深刻的例子,一个家长在后台跟我反馈了一个信息,他在APP里面看到孩子问巴迪龙,说爸爸妈妈离婚了我该怎么办,这个家长刚刚经历了家庭变动,通过这样的问题家长意识到了自己没有顾及孩子的感受,他开始反思自己对孩子的培养。原来我做的这样一个小功能,竟然给了家长这样一个机会,发现他和孩子之间沟通上的不足。另外一点,有一些场景我们做得还不够,我们针对孩子生活场景可以更精细化地运营,把孩子的家庭变故、家庭矛盾包括学习被老师批评等等场景全部做到,从投入产出的角度来说这些场景可能是孩子非常低频的场景,但是这些低频的场景只要涵盖到了,可以给孩子非常大的帮助。这个投入仍然是值得的。
×