(5) 其中yij为yi的估计值。设定一阈值rg,去掉那些r>rg的拟合方程,筛选出较好的模型输出构成中间变量,作为下一层的输入,并记录该层的最小方均根rmin。
5)若该层最小方均根rmin比上一层小,则以该层模型的输出作为下一层的输入,转向步骤3)继续计算,否则转向步骤6)。
6)当rmin由下降变为上升时,用上一层最好的模型作为最终模型,设第k代的rmin达最小,则用第k代方均根最小的那个序列的二次函数循原路径往回代,就可得到最高阶次为2k的非线性回归模型。
2 GMDH方法用于电信数据预测
GMDH网络特别适用于数据预测,目前GMDH方法已成功应用于股票市场,降雨量,天气预报等的预测。本文给出了两个用GMDH网络预测电信数据的例子。
表1 某市各月份电信欠费金额(元)
|
年月 |
实际值 |
用GMDH计算值 |
用IM
计算值 |
|
2000,8 |
3.96628E7 |
—— |
4.53419E7 |
|
2000,9 |
4.46599E7 |
—— |
4.76537E7 |
|
2000,10 |
5.46209E7 |
—— |
5.00832E7 |
|
2000,11 |
4.89902E7 |
—— |
5.26367E7 |
|
2000,12 |
6.05368E7 |
5.73955 E7 |
5.53203E7 |
|
2001,1 |
7.20029E7 |
6.56621 E7 |
5.81407E7 |
|
2001,2 |
6.84462E7 |
7.98948E7 |
6.11051E7 |
|
2001,3 |
6.36706E7 |
7.32368E7 |
6.42204E7 |
|
2001,4 |
6.08451E7 |
6.40432E7 |
6.74947E7 |
|
2001,5 |
6.64965E7 |
6.16582E7 |
7.09358E7 |
|
2001,6 |
6.58098E7 |
7.01210E7 |
7.45524E7 |
|
2001,7 |
7.03115E7 |
7.01950E7 |
7.83534E7 |
|
2001,8 |
8.04067E7 |
7.37680E7 |
8.23482E7 |
|
2001,9 |
8.96519E7 |
8.47849E7 |
8.65467E7 |
|
2001,10 |
9.53095E7 |
9.34776E7 |
9.09592E7 |
|
2001,11 |
1.00881E8 |
9.88436E7 |
9.55967E7 |
|
2001,12 |
1.07273E8 |
1.04933E8 |
1.00470E8 |
|
2002,1 |
1.16102E8 |
1.12140E8 |
1.05593E8 |
|
2002,2 |
1.17929E8 |
1.22060E8 |
1.10976E8 |
|
2002,3 |
1.03757E8 |
1.25507E8 |
1.16635E8 |
|
2002,4 |
1.10771E8 |
1.10749E8 |
1.22581E8 |
|
2002,5 |
1.27080E8 |
1.19842E8 |
1.28831E8 |
|
2002,6 |
1.33788E8 |
1.33149E8 |
1.35399E8 |
|
2002,7 |
1.50232E8 |
1.41848E8 |
1.42302E8 |
|
预测值: | |||
|
2002,8 |
1.70022E8 |
1.64741E8 |
1.49558E8 |
|
2002,9 |
1.85796E8 |
1.81216E8 |
1.57183E8 |
电信行业的业务量、收入总量等指标,往往会受到诸如优惠政策的实施、市场的波动、竞争对手的策略、节假日的安排、社会经济的发展等等各种各样因素的综合影响,既呈现一定规律,又有一定随机性,各数据间关系非常复杂,因而,它们所构成的时间序列可看成是一复杂时间序列。我们用GMDH方法对这类序列进行拟合预测,收到了良好效果。
表1列出了某市电信部门统计的2000年8月至2002年9月该市的实际欠费金额。我们用2000年8月到2002年7月的数据建立模型,并用所建模型对2002年8和9月欠费金额进行外推预测。选择4输入端GMDH网络,即利用前四个月数据预测后一个月数据,计算时,先将数据排列成矩阵(3)的形式,可得到20组数据样本,将前17组数据作为训练用,后3组数据作为选择评价用,最后一次迭代结束时多项式中最好的一个是 y=A+Bu+Cv+Du2+Ev2+Fuv,
式中A=32474076,B=1.25,C=-1.032,D=0,E=0,F=0。
拟合和预测的结果见表1和图1。可以看到,用GMDH方法得到的结果与实际符合得较好,尤其是2002年8月和9月的数据,既未参加训练,也未参加选择,但预测的结果却很好,预测8月份欠费额的相对误差仅为3.1%。同样这组数据,用目前广泛使用的挖掘软件IBM Intelligent Miner分析时,由表和图中可看到其拟合效果不如GMDH方法,由于样本数据并不充足,Intelligent Miner在用传统方法预测时,将模型建成一个指数方程,其整体拟合误差达到8.9%,预测8月份欠费额的相对误差为12%,预测精度远不如GMDH方法高。

图1 欠费额模型计算值与实际值对比曲线
1)
实际欠费金额
实际欠费金额 2)
GMDH模型的计算值
GMDH模型的计算值 3)
IM模型的计算值
IM模型的计算值 因为GMDH在建立网络模型时,是通过在样本拟合精度和新数据集预测精度之间寻找平衡点,确保了即使是在小样本或数据噪声较大时,算法仍能最大程度上反映系统真实的内部关系。从而确保了所建模型的最优性和泛化能力。
图2 是分别运用GMDH方法和Intelligent Miner工具对某地区2000年6月28日到7月19日每日话务量的拟合预测结果。其数据具有一定的周期性,由图中可看到,拟合和预测的结果也令人满意。IM工具拟合的整体误差为2.8%,而GMDH方法拟合的整体误差为2.7%,其预测误差也仅为3.4%。

图2 某地区通话时长拟合预测结果图
1)
实际通话时长
实际通话时长 2)
GMDH模型的计算值
GMDH模型的计算值 3)
IM模型的计算值
IM模型的计算值 由此可见,对于电信行业中的复杂时间序列,无论是类似于图1那样无明显规律的,还是如图2的有一定周期性的,GMDH模型都能较准确的拟合数据间的关系及变化。采用GMDH方法进行建模预测,能够得到较高的精度,其准确率普遍比IM工具要高。GMDH方法完全适合于电信数据的预测分析。
3 结束语
GMDH网络通过自组织来优化网络结构,在建模过程中需要的先验知识很少,网络的结构也可随时改变,有很高的灵活性。GMDH预测方法在建模思想和解决实际问题的能力上,都比传统的回归拟合方法要优越得多。本文针对电信领域数据特征,提出了基于数据处理组合GMDH的预测方法,计算表明,其拟合和预测的精度都令人满意,将GMDH用于电信数据的预测是可行且有效的。
参考文献
[1] 孙枫林.预测技术再电信业务发展规模决策中的应用[J].湖南大学学报,2001,(12):117-121.
[2] 刘光中,颜科琦,康银劳.基于自组织理论的GMDH神经网络算法及应用[J].数学的实践与认识,2001,(7):464-469.
[3] 易顺民,赵文谦,蒲迅赤.河流水环境有机污染物的自组织预测模型及应用[J].环境科学研究,1999,(12):46-49.
[4] A.G.Ivakhnenko and G.A.Ivakhnenko. The review of problems solvable by algorithms of the group method of data handling. [J]Pattern Recognition and Image Analysis.Vol.5,No.4,1995,527-535