(1)回归。除了发现可解释的模式之外,数据挖掘的另外一个重要的任务就是预测,即通过数据库中的一些变量发掘其超未来的趋势值。传统的线性回归需要先假设这些属性间没有相关性,而遗传算法则可以很好的处理有相关性的变量。Xu[20]曾设计了一个多输入单输出的系统,应用遗传算法从训练数据集中进行非线性多元回归。
(2)关联规则。遗传学习首先创建一个由随机产生的规则组成的初始群体。每个规则可以用一个二进制位串表示的if-than类型。通过全局搜索,形成由当前群体中最适合的规则组成新的群体。遗传算法可以单独用于数据仓库中关联规则的挖掘,还可以和其他的数据挖掘技术相结合,例如,用于进化神经网络结构以得到结构简单、性能优良的神经网络结构[21];用于特征子集选择[22];应用于决策树、分类器和模糊规则的获取等等。
2.4 粗集
粗集理论由波兰逻辑学家Pawlak教授在20世纪80年代提出,是一种处理含糊和不确定问题的新型数学工具。粗集理念基于给定训练数据内部的等价类的建立。给定现实世界数据,通常有些类不能被可用的属性区分。粗集可以用来近似定义这种类,将问题的数据集进行划分,然后对划分的每一部分确定其对某一概念的支持程度:即肯定支持此概念,肯定不支持此概念,并分别用下近似和上近似集合来表示为正域、负域。它能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识和潜在的规律。同时,粗集理论在处理大数据量,消除冗余信息等方面有着良好的效果,因此广泛应用于数据挖掘的数据预处理、规则生成等方面。
(1)数据约简。粗集理论可提供有效方法用于对信息系统中的数据进行约简在数据挖掘系统的预处理阶段,通过粗集理论删除数据中的冗余信息(属性、对象以及属性值等),可大大提高系统的运算速度。文献[23]使用粗集方法对信息系统进行属性及属性域的约简,然后使用神经网络对约简后的数据进行分类,从而在网络分类精度没有明显下降的前提下使网络的学习速度提高到约简前的4.72倍。
(2)规则抽取。与其它方法(如神经网络)相比,使用粗集理论生成规则是相对简单和直接的,信息系统中的每一个对象既对应一条规则。粗集方法生成规则的一般步骤为:①得到条件属性的一个约简,删去冗余属性;②册去每条规则的冗余属性值;③对剩余规则进行合并目前己经产生了许多基于粗集理论的方法用于从信息系统中抽取规则[ 24]。
粗集理论存在对错误描述的确定性机制过于简单,而且在约简的过程中缺乏交互验证功能,因此,粗集理论与其它方法如神经网络、遗传算法、模糊数学、决策树等相结合可以发挥各自的优势,大大增强数据挖掘的效率。文献[25]提出了一种融合粗集理论和神经网络的数据挖掘新方法,应用于大型数据库的分类规则挖掘。其主要思想是首先由粗糙集理论对数据库进行初步约简,然后借助于神经网络在自学习过程中完成对数据库的进一步属性约简,并过滤数据中的噪声数据,最后由粗糙集理论对约简后的数据库进行规则抽取。粗集理论的使用提高了系统的运算速度,同时神经网络则使产生的规则集泛化能力提高。
2.5 混合方法
综合软计算的主要算法可产生在并行化、容错、自适应性和不定性管理方面更好的系统。混合系统可使许多应用中的自动化自适应系统成为现实。模糊系统的推理能力,当与神经网络和遗传算法的学习能力结合时,导致得到体现合理有效的认识系统(可学习和推理的系统)的新产品和新过程。Banerjee[25]利用粗糙集、神经网络和模糊逻辑相结合的方法设计了数据挖掘系统,其中用粗糙集方法在决策表中进行约简。而用模糊集方法挖掘出未经加工的知识,最后由神经网络根据依赖度进行取舍。
3 结束语
目前,数据挖掘中算法和可视化的研究越来越显得重要。因为从数据库中很容易就可以发现大量的模式,而这些模式中很多是很显而易见的、冗余的、无用的,或是对用户来说没有趣的。现在就需要能够过滤这些模式而提供给用户有用或有趣的模式的挖掘技术。软计算方法包括模糊逻辑、神经网络、遗传算法、粗集和混合方法近来用于解决这些问题。
软计算具有以低求解成本、快速的方法解决复杂问题。本文对数据挖掘中软计算方法及应用作了一个综合性阐述。对它们的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。模糊集为这个过程中的处理不确定性提供了一个自然框架,神经网络和粗集广泛应用于分类和规则生成。遗传算法应用于各种优化和搜索过程中,如优化排序和模式选择。
参考文献
[1] U. Fayyad and R. Uthurusamy, “Data mining and knowledge discovery in databases,” Commun. ACM, vol. 39, pp. 24–27, 1996.
[2] W. H. Inmon, “The data warehouse and data mining,” Commun. ACM,vol. 39, pp. 49–50, 1996.
[3]杨会志.数据挖掘技术的主要方法及其发展方向.河北科技大学学报[J].2000,21(3):77-80.
[4] J. A. Major and D. R. Riedinger, “EFD—A hybrid knowledge statisticalbased工作system for the detection of fraud,” Int. J. Intell. Syst., vol. 7, pp.687–703, 1992.
[5] R. Heider, Troubleshooting CFM 56-3 Engines for the Boeing 737—Using CBR and Data-Mining, Spinger-Verlag, New York, vol. 1168, pp. 512–523, 1996. Lecture Notes in Computer Science.
[6] Zadeh L.,Fuzzv logic,neural network and soft computing. Communications of the ACM,1994, 37(3):77-84.
[7] D. Nauck, “Using symbolic data in neuro-fuzzy classification,” in Proc.NAFIPS 99, New York, June 1999, pp. 536–540.
[8]汤效琴,戴汝源.数据挖掘中变量聚类方法的应用研究.计算机工程与应用[J].2004,40(24):171-173.
[9] 范明,孟小峰译. 数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
[10] Q. Wei and G. Chen, “Mining generalized association rules with fuzzy taxonomic structures,” in Proc. NAFIPS 99, New York, June 1999, pp. 477–481.
[11] J. Kacprzyk and S. Zadrozny, “Data mining via linguistic summaries of data: An interactive approach,” in Proc. IIZUKA 98, Fukuoka, Japan, Oct. 1998, pp. 668–671.
[12] 吴瑞.基于FLAAT模糊的WEB挖掘算法.武汉科技大学学报(自然科学版)[J].2005,28(3):270-272.
[13] S.I.Gallant. Neural Nework Learning and Expert Systems. Cambridge, MA:MIT press, 1993.
[14] Rudy Setiono, Liu H. Understanding neural networks via rule extraction. In: Proc of the 14th International Joint Conference on Artificial Intelligence, Montreal, 1995. pp.480-485
[15] Sestito S, Dillon T. Knowledge acquisition of conjunctive rules using multilayered neural networks. International Journal of Intell Sys, 1993, 8(7): 779~805
[16]M.W.Craven, J,W,Shavlik . Using sampling and queries to extract rules from trained neural networks. In: Proc of the 7th Int'l Conf on Mathine Learning, New Brunswick, 1994. pp.37~45
[17] M.W.Craven, J,W,Shavlik. Extracting tree-structured representations of trained networks. Cambridge, MA:MIT press, 1996.
[18] M.W.Craven, J,W,Shavlik. Using neural networks in data mining. Future Generation Computer Systems.1997.13.pp.211-229.
[19]T. Ryu and C. F. Eick, “MASSON: Discovering commonalties in collection of objects using genetic programming,” in Proc. 1st Annu. Conf. Genetic Programming 1996, Stanford Univ., CA, July 28–31, 1996, pp. 200–208.
[20] K. Xu, Z. Wang, and K. S. Leung, “Using a new type of nonlinear integral for multiregression: An application of evolutionary algorithms in data mining,” Proc. IEEE Int. Conf. Syst., Man, Cybern., pp. 2326–2331, Oct. 1998.
[21]郑志军,林霞光.一种基于神经网络的数据挖掘方法.西安建筑科技大学学报[J] .2000,32
[22]刘勇国,李学明,张伟基.于遗传算法的特征子集选择.计算机工程[J].2003,29
[23] Jelonek J,Krawiec K. Rough set reduction of attributes and their domains for neural networks[J]. Computational Intelligence.1995.11(2):339-347.
[24] Kryszkiewicz M. Rules in incomplete systems[J]. Information Sciences, 1999,113(4): 271-292.
[25] Banerjee M. Pal K. Rough fuzzy MLP: knowledge encoding and classification[J]. IEEE Trans. Neural Networks, 2002.9:1203-1216.