关键词 声调识别, 自动声韵切分, 基音提取, RBF神经网络
汉语是一个声调语言,正确的识别声调具有重要的意义。声调是汉语主要属性之一,正确的识别声调具有重要的辩义作用。声调识别对语音合成、识别和理解也有重要意义。近年国内外已报导许多声调识别方法[7][8][9],都有很高的识别率,孤立字声调识别开始进入实用[10]。需要指出,某些方法缺乏模型描述,不能达到最佳效果。有的需先进行特征训练来建立训练模板,否则性能会下降,有些方法因计算复杂和计算量大使之难于实时处理。
2 声韵切分的算法的实现
声母的音长比较稳定,不太因人而异[1][2]。因此,如果声韵切分准确,就可以对可靠的声母信息进行分析,从而得到良好的判别结果。
从语言学的角度来看,声母韵母之间有一定的界线,但在声学信号上这一界线并不很清楚。往往要采用专家系统的方法才能获得较为准确的分割,文献[3] [4]给出了人工方法切分的声母长度的分布情况。但是,一方面:有手工进行大量数据语音库的标注是一件费事而又枯燥的工作,长时间的连续的工作又会造成标注人员生理,心理的疲劳,从而在切分过程中引入不可预测的随意性误差;同时标注人员对语言学的理解和把握的不一致,经常是标注人员对自己的判断更为认同,自己的标注结果“更准确”。这样就引入了主题判断造成的倾向性误差,因而使得切分结果的可重复性无法得到保证,不同人所得的切分结果的可重复性就更差。另一方面,在自动语音判别系统中(普通话标准测试中),这一切分过程要求自动实现。目前尚没有一种供人满意的声韵切分的算法,大致的有用小波变换进行切分的[5],有用声母音长分布[2],有用基于多尺度分形维数的汉语语音声韵切分[6],有用基于听觉模型的耳语的声韵切分。
汉语的22种声母中,除了零声母,l,m,n,r外,其余都是清辅音,根据这一特点,我们做出的声韵切分规则为:
令音节的总长度为 ,声母类单元长度为 ,韵母类长度为 ,音阶中的清音段长度(或浊音起始位置)为 ,则
(1) 式(1)意义是:把语音分割为声学单元和韵母单元两大类,声母单元的长度为Ti ,包括清音部分(可能没有,
)和浊音之间的一段过渡部分(固定长度);韵母单元的长度为Tf ,它可能包含了从音节的浊音开始至音节结束的部分。
)和浊音之间的一段过渡部分(固定长度);韵母单元的长度为Tf ,它可能包含了从音节的浊音开始至音节结束的部分。
图1(声韵切分的流程图)
韵母的音长Tf 的分布很宽,可能在150ms至1000ms内。声母单元的音长 Tf由Ton 和C两部分构成, Ton 为音节前端的清音部分(对零声母,浊声母, 可能为零)而C所表示的音长段对不同的声母具有不同的意义:(1)对零声母,C为韵母的头部分:(2)对于浊声母,C为声母的前面一段:(3)对于不送气爆破音,C包含爆破音及声韵过渡段,有时还包括了一部分喉结韵母的韵头部分:(4)对于其他声母,C包含了声韵过渡段,有时也包括一部分或声韵母过渡段。可见,清浊声母和零声母以外的声母而言,声母单元一段包含声母部分外,还包含了声韵过渡段,是声韵切分的流程图。(图1)

图2 (七字)声韵切分效果图
3 基音检测[10][11]
汉语声调信息载于音节的基音曲线上,并主要在韵母段,常用的基音检测自相关法具有物理意义明确和方法简便等优点,但其繁重的计算量影响在实时处理中的应用。为了提高计算速度和加快基音提取,本文采取下列措施。
3.1 一电平中心消波
一般汉语基音频率下限可取60Hz(16.7ms),自相关计算至少要包含两个完整的基音周期语音,实际只要选取的帧长为30ms,就可找出所有高于67Hz的基音频率。已有的中央削波法可以有效地解决声道响应的谐波影响。本文在此基础上提出一电平削波.图3为一电平削波函数。削波器输出在z(n)<C1 时为0,C1 为分析帧中前后各100样点的最大值中较小的一个68%,自相关计算如下式:
![]() ![]() |
经过一电平削波后,自相关函数的峰值十分突出,得到的基音频率较准,我们进一步降低采样率,对削波器输出序列y(n)进行三分频。为保留信号的周期性,在3个连续采样中取l点,抽取的规则如下:


图4(信号中心消波与自相关图)
3.3 基音检测的后处理[12]
无论采用哪一种基音检测算法都可能产生基音检测的错误,使求得的基音周期轨迹中一个或几个基音周期的估计值偏离了正常的轨迹(通常是偏离到正常值的两倍或1/2),此时为了去除这些野点,可以采用各种中值平滑算法
(1)中值平滑处理
中值平滑处理的基本原理是:设x(n)为出入信号,y(n)为中值滤波器的输出,采用一个滑动窗,则以 出的输出值 就是将窗外的中心移到 处时窗口输入样点的中值。及 点的左右各取L个样点。连同被平滑点中心共同构成一组信号采样点(共(2L+1)个样值),然后将这(2L+1)个样点按大小序列排成一排,此序列中中间者作为平滑器的输出。L值一般为1或2,即中值平滑起的“窗口”一般套住3个或5个样点。中值平滑的优点是既可以有效地除去少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。
(2) 线性平滑处理

图5(基音曲线平滑的效果)

