基于支持向量机集成的电子商务环境下客户信用评估模型

在电子商务飞速发展的今天,参与到电子商务活动中的人也越来越多。为了能够给电子商务活动的开展营造一个良好的氛围,国家相关部门对与电子商务相关的配套设施和法律法规等进行了不断优化与完善,但由于执行力度不够,从而导致仍有很多问题制约了电子商务的发展,信用问题就是其中最主要的一项。通过对基于支持向量机集成的电子商务环境下客户信用评估模型的研究,可以为日后电子商务客户信用的评价工作提供一定的参考依据,进而更好的促进我国电子商务行业的可持续发展。

1 基于模糊积分支持向量机集成

1.1 Bagging个体生成

Bagging个体生成主要是以可重复采样为基础,对训练集的选取通常是在原始训练集中随机抽取产生的,训练集的规模与原始训练集相当,训练集允许重复选取。这样一来,同一示例就会在不同的训练集中出现,同样也会有一部分示例没有出现的情况。随着训练集选取内容的不断增加,Bagging分类器集成的差异度也会随之增加,从而促进了泛化能力的进一步提升。

1.2 基于模糊积分的结论生成

模糊积分基本理论是基于支持向量机集成的客户信用评价模型的基本理论。所谓模糊积分理论,主要指的是设X为一有限集合,若集合函数g:2X→[0,1]满足g(X)=1、g(A)≤g(B),那么我们便将g视为一个模糊测度。如果g在满足上述条件的基础上,还满足等式g(AUB)=g(A)+g(B)+λg(A)g(B),那么我们就将其称为测度或Sugeno,记为gλ。在模糊积分理论下,对模糊积分的计算,首先需要明确模糊密度。通常情况下,模糊密度的产生是由专家设定的,也可以通过训练数据产生。

2 模糊密度确定方法

通过模糊积分理论的介绍我们能够看出,在基于模糊积分的多分类集成中,对于各个子支持向量分类器重要性的模糊密度值的确定是非常重要的。鉴于此,本文采用混淆矩阵的方法来对评估模型中所涉及的模糊密度值进行确定,用子分类器各自的训练集对各个子分类器进行测试,进而得到与之相对应的混淆矩阵。比如说一个K类分类问题,对于子分类器SVCK,其混淆矩阵可以定位为,该矩阵的有效利用可以将顺利获取到各个支持向量机的模糊密度,为利用模糊积分进行支持向量机集成奠定了坚实的基础。

3 实证分析

3.1 支持向量机集成过程

本次实验是在Libsvm软件上进行的,验证平台和操作系统分别是256MB内存在AMD Athlon 1800+和Windows 2000。具体实验过程共分为6个步骤:(1)通过Bagging方法的应用,选取支持向量分类器的训练集,并对其进行相应的训练;(2)根据各分类器的训练结果输出模型;(3)采取上文介绍的方法对模糊密度进行确定;(4)当给定一个测试样本,得到各子支持向量分类器对该测试样本的类概率输出;(5)根据计算模糊积分,集成各子支持向量机;(6)确定测试样本的最终类别。通过上述6个步骤的合理操作,便可以实现支持向量机的有效集成。

3.2 样本数据的选择处理

本文所选取的是某电子商务公司400家客户的数据资料,其中322家客户的数据资料结果显示为“状态良好”,剩下的78家客户的信用状况则相对较差,很容易出现违约现象。由于这两类客户的数据资料存在很大差距,如果直接将其用于SVM的学习,那么势必会降低最优分类面的准确性。如果将其应用到未来的预测工作中,必将带来较大误差。鉴于此,为了能够进一步确保样本数据处理的有效性,对样本数据进行预处理是非常重要的。本次实验中所采取的预处理方法主要是在322家状态良好的客户中抽取80家,与78家信用状态差的客户构成一个规模为158家客户的样本集,并在此基础上将该样本集分为训练样本集和测试样本集两个部分。此外,为了更好的将SVMs的泛化能力充分体现出来,在确保两类样本数量相近的前提下,随机抽取一部分作为训练样本集,剩下的一部分则用于检验模型的泛化能力。

3.3 实证结果分析

本次实验在多类别分类方面采用的是一对一策略,在158个训练集上训练出5个SVMs。各子支持向量分类器使用RBF核函数,每个SVM通过10重交叉验证的方法来选择相应的参数,进行了10次实验。表1给出的是训练样本精度,从表1中我们能够看出,应用该模型可以对客户信用进行分类,并可以达到最佳的精度。由此可见,与传统的客户信用评价方法相比,基于支持向量机集成的电子商务环境下的客户信用评估模型具有更好的泛化能力,同时应用起来简单有效。可以预见,在未来的时间里,该评估模型在电子商务行业的发展中,势必会得到更加广泛的应用。

4 结语

综上所述,随着我国电子商务行业发展脚步的不断加快,对客户信用的评估也引起了企业的高度重视,其不仅关系着电子商务活动的顺利开展,而且对企业可持续发展目标的实现也具有重要意义。从本文的分析我们能够看出,基于支持向量机集成的电子商务环境下客户信用的评估模型,不仅简单有效,而且具有更好的泛化能力,能够将客户的信用真实的反映出来,为电子商务活动的开展提供参考。