1982年正式成立了汉语拼音正词法委员会。该委员会提出,汉语拼音正词法应该以现代汉语语法中定义的词作为正词法的拼写单位,同时也要照顾到阅读和理解的方便,并且要照顾到某些国际上拼写的习惯。该委员会同时也开始研制汉语拼音正词法的基本规则,参考过去个人研制的和集体草拟的正词法规则,《汉语拼音方案》公布以来出版的各种拼音读物,各种以《汉语拼音方案》为基础并以词为拼写单位的词书,各种信息处理用的汉语拼音分词连写的实践经验,广泛听取了个方面人士的意见,并请教育界、出版界、信息处理界和语文界的专家学者进行了讨论,又与有关单位协作,进行了10万多词的拼写试验。在这些工作的基础上,1984年10月,中国文字改革委员会发表了《汉语拼音正词法基本规则(试用稿)》。1988年7月1日,国家教育委员会、国家语言文字工作委员会发出《关于公布〈汉语拼音正词法基本规则(试用稿)〉的联合通知》。1996年1月22日,国家技术监督局发布《汉语拼音正词法基本规则》,把它当作国家标准。
10.一种针对儿童的语音识别装置,包括: 模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型; 接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理; 特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征; 识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本; 语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中 所述模型建立模块还配置为通过以下步骤建立声学模型: 对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征; 根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
[0029] 本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。
[0060] 本发明实施例中,由于在训练语言模型的文本语料库做了文本变形处理,因此,在最终的儿童语音识别结果的文本中,通过改进的语义理解模型进行相应的文本变形后处理。优选地,本发明实施例中,对识别文本进行语义理解处理的步骤包括下列至少之一:首先,通过对识别文本进行常规词语法分析,去除识别文本中连续出现重复的词,以获得所述语义理解结果;例如“今天妈妈买的苹果苹果真好吃”变成“今天妈妈买的苹果真好吃”。其次,通过对识别文本进行常规词语法分析,去除识别文本中词尾重复的叠词,以获得语义理解结果。例如,“今天妈妈买的苹果果真好吃”变成“今天妈妈买的苹果真好吃”。最后,通过对识别文本进行常规词语法分析和句法分析,去除识别文本中词与词之间多余的语气词,以获得语义理解结果。例如“今天妈妈买的苹果嗯真好吃”变成“今天妈妈买的苹果真好吃”。本发明实施例中,在对识别文本进行语义理解处理时,对识别文本进行常规语法分析以及基础的句法分析,并找出句法主体结构之外的组词等无意义的词,加以去除,并获得语义理解结果。另外,语义理解模型还可以根据训练语言模型的儿童语料库,分析特征提取模式规则,并结合应用规则和统计模型的方法,对语音识别的文本进行分析和处理,得到准确性更高的语义理解结果,进一步提高儿童的语音识别的准确性。
[0013] 依据本发明的另一方面,还提供了一种针对儿童的语音识别装置,包括:模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型;接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理;特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征;识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中所述模型建立模块还配置为通过以下步骤建立声学模型:对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征;根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
×