找论文网 > 计算机论文 > 计算机应用 >

基于RBF神经网络的四声自动识别及应用(2)

线性平滑使用滑动窗进行线性滤波处理,即:
其中{w(m), L为2L+1点平滑窗。满足

 
      例如三点窗的权值可以去{0.25,0.5,0.25}. 线性平滑在纠正输入信号中部平滑处样点值的同时,也使附近各点的值作了修改。所以窗的长度加大虽然可以增加平滑的效果,但是也可以导致两个平滑段之间的阶跃模糊程度加重。
4 RBF网络对声调的自动识别 4.1 概述
      RBF神经网络除了具有一般神经网络的优点,如多维非线性映射能力,泛化能力,并行信息处理能力等,还具有很强的聚类分析能力,学习算法简单方便等优点;它能将语音的动静态特性和听觉感知特性融合到网络特性之中,用于对基音曲线数据聚类时,能使客观评测的结果与主观感知更接近。因此,本文采用径向基函数(RBF)神经网络完成语音基音数据曲线到声调四声的映射,得到对声调识别结果。
4.2 RBF神经网络结构及算法
      RBF神经网络的工作原理分为两个阶段。其一:是学习阶段,选定充分和质量好的基音曲线数据样本。RBF神经网络学习结果以权值的形式存储在网络结构之中。其二:是工作阶段,当测试语音样本输入RBF神经网络时,训练好的具有一定泛化性的网络将进行内插和外推的方式进行自适应完成特征匹配过程。给出客观声调评价结果。其中训练集与测试集语音样本均选自苏州大学普通话测试中心的考试语音。
      根据声调的特点,采用一个具有十四个输入节点(基音曲线数据归一化),四个隐含节点(分别代表四声),一个输出节点的三层RBF神经网络如图6
                                         图6(三层RBF神经网络 )                 
      在图中,第j个隐含层节点到第m个输入节点的连接权值为 Wjm, rJ为隐含层第j个节点的高斯核宽度;输出节点到第j个隐含层节点的连接权值为Uj ;L(.)为线性函数; fj (.)为隐含层第j个节点的激励函数,取高斯型函数,其表达式为
      (2)
网络的最终输出 有下式求出
                 (3)
       为了提高RBF神经网络的收敛速度,将隐含层参数 Wjm,rJ 和输出层权值Uj  分开进行训练.对隐含层参数 Wjm和rJ 的训练采用一种新的聚类算法,即改进最近邻聚类学习算法,此算法具有学习时间短、计算量小、网络性能优良等优点[13]。针对语音参数处理的特性,对文献[13]中的自适应最近邻聚类学习算法进行改进;对输出层权值Uj  的训练采用梯度下降算法。
梯度下降算法过程
<1>.给Uj 赋随机初值,j=1,2,…,J;由改进最近邻聚类算法得到隐含层参数Wjm 和rJ  以及采用式(2)和式(3)计算神经网络的输出 Oi 
<2>.计算理想值 Yi与RBF神经网络的输出 Oi 之间的误差为:
            (4)
<3>.定义目标函数为
                        (5)
<4>. 在t+1时刻,输出层权值Uj  按照如下的规则更新,其中为训练系数
               (6)
4.3 输出的客观识别结果
      客观识别性能的好坏,主要以其客观识别结果与理想值的相关性高低来衡量。相关系数 由下列式子算出
       (6)  
(7) 
实验结果如表一
七(字)
训练集1
测试集1
训练集2
测试集2
0.9265
0.9058
0.9224
0.8894
0.2021
0.2453
0.1068
0.1492
表一
 
5  结论
本文提出采用RBF神经网络对声调进行自动识别的一种新方法。首先进行声韵的自动切分,提取出韵母类,在进行基音曲线特征的提取,然后利用RBF神经网络的多维非线性映射原理完成特征参数到理想值得映射。实验表明,单采用训练样本相关度达到0.92 而采用测试集使相关度达到了0.88 ,表明了此方法具有明显的优越性。
参考文献
1 朱维彬, 张家禄.  汉语语音资料库的语音标记及人工切分. [J] 声学学报, 1999. 5 (24)
2 关存太, 陈永彬, 吴伯修.全音节汉语语音识别系统的声学模型研究.[J]声学学报, 1994.9 (19)
3 陈永彬,王仁华.语言信号处理.[M]合肥:中国科学技术大学出版社,1990
4 齐士铃,张家禄.汉语普通话辅音音长分析.[J]声学学报,1982.7 (1)
5 李永光, 李雪耀.基于小波变换的自动声韵切分的研究.[J]哈尔滨工程大学学报, 1998.6 (19)
6 王帆 ,郑 方, 吴文虎. 基于多尺度分形维数的汉语语音声韵切分.[J]清华大学学报 , 第42卷
7 赵鹤鸣, 周旭东, 金延庆, 翁桂荣.基于小波变换的重叠语音基频提取及声调识别.[J]声学学报, 1999.1(24)
8 黄泽镇,杨行竣.普通话孤立字发声的一种模式识用方法. [J] 声学学报, 1990.1
9 徐士林. 四声模糊识别方法.[J]电子学报,1996(1)
10 赵力. 语音信号处理.[M]机械工业出版社
11 Y.Ying,S,xu..A fast method of pitch detection for Chinese four tones recognition. Proceeding of ISCP’93  Oct 1993  Bei jin  
12 周俊武,孙传尧,王福利.径向基函数(RBF)网络的研究及实现[j].矿冶,2001,10(4):71—75.

共2页: 上一页 [1] 2


基于网页结构挖掘算法研究
连锁销售决策支持系统解决方案研究
工商管理 | 工科论文 | 财务管理 | 管理学 | 公共管理 | 财政税收 | 证券金融 | 会计审计 | 计算机 | 法律论文 | 医药学 | 汉语言文学
社会论文 | 工科论文 | 理科论文 | 文化论文 | 艺术论文 | 文学论文 | 哲学论文 | 政治论文 | 英语论文 | 写作指导 | 计算机应用
www.zlunwen.com 找论文网 ® 版权所有 网站地图