(1)
(2)式中, 表示词条在文档 中的出现频数,N表示分类体系数目, 表示词条的文档频数。
经过以上步骤,得到的特征向量的维数是非常高的,如此高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间而产生与小得多的特征子集相关的学习分类结果。这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数,对每个特征进行评估,选取评估分值高的、预定数目的最佳特征作为特征子集. 文[5]介绍了一些评估函数,我们在系统中简单地选取了权值前50位特征组成最终的特征向量。
2. 3 特征匹配与分类
文本转化为向量形式并经特征提取以后,便可以进行分类挖掘了,即特征匹配。机器学习领域常用的分类算法有:朴素贝叶斯分类法、K-最近邻参照分类法。我们在系统中采用了文献检索技术中的相似度方法。假设样本文档为U,待学习文档为V,两者的相似程度可用向量的夹角来度量,夹角越小则相似度越高。相似度的计算公式为(3)。在大于给定阈值情况下,取相似度高的类别作为文档V的类别,若均低于阈值,则提交给用户请求人工分类。
(3)2. 4 文本分类系统
我们采用Visual Basic6.0在Windows2000下开发了一个简单的文本分类系统(STCS),并以Access数据库的形式保存词典、特征向量等。系统采用开放式的结构,分类体系能较容易地进行扩充,针对计算机专业技术文档有较高的分类精度,能满足特定专业领域的应用需求。
我们将从网上(http://www.computerapplications.com.cn)下载的500篇计算机类文档作为训练文档和测试文档实验,实验结果表明,当分类体系数目为5时,STCS完成一篇长度为10K的文本的分类大约需要8秒(PC233/256M/windows2000环境下),分类的精度达到79%。
3 结束语
本文介绍了数据挖掘中的新的分支—文本挖掘,结合我们所设计的分类系统,重点分析了文本分类的若干关键技术。现阶段我们的系统仅处理文本文档,如何将分类对象扩展到数量巨大的Web文本,这是我们下一阶段工作所要研究的内容。
参考文献
1 王继成.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520
2 Feldman R, Dagan I. Knowledge discovery in textual databases [C].In: Proc of the 1st Int’l Conf on Knowledge Discovery.Montreal,1995:112-117.
3 Wuthrich B, Permunetilleke D, Leung S et al. Daily prediction of majorstock indices from textual WWW data.
In: Proc of the 4thInt’l Conf on Knowledge Discovery. New York,1998:47-49
4 邹涛.WWW上的信息挖掘技术及实现[J].计算机研究与发展,2000,36(8):1020-1024.
5 Koller D, Sahami M. Hierarchically classifying documents using very few words[J].ICML97,1997. 170-178.