找论文网 > 计算机论文 > 计算机理论 >

基于粗糙集的人力资源评价的规则挖掘(1)

摘  要  应用粗糙集理论和区分矩阵来挖掘各因素规则的方法对一个人力资源评价的例子进行分析和处理,挖掘评价规则,并从客观的数据中得出了各主要因素的客观权重。
    关键词  粗糙集;  人力资源;  规则;   权重 
1 前言
    粗糙集(Rough sets)理论是一种处理模糊、不精确的分类问题的新型数学工具。粗糙集理论已成为当前数据挖掘的主要方法之一,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。该理论已被成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘领域。
   人力资源是指社会所拥有的能为社会创造价值的人力或劳动力,其本质是人的能力而不是人本身,人力资源的价值在于人掌握的知识和技能,在于人为社会创造价值的能力。人力资源评价就是通过分析影响人力资源价值的主要因素,结合一定的评价方法,进而得出一个综合评价值的过程。
2  粗糙集处理的基本步骤及算法
    ⑴ 收集和整理数据,组成信息表。
    ⑵ 数据预处理。将数据库中的初始数据信息进行分类、聚类分析以及使某些属性的连续值离散化,转换为粗糙集形式,明确条件属性和决策属性。
    ⑶ 属性约简,根据预处理后的数据信息表生成区分矩阵,利用区分矩阵法生成约简属性集。
区分矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家skowron提出来的,是近年来在粗糙集约简上出现的一个有力工具。利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。
    定义1:设有信息系统S,a(x)是记录x在属性a上的值cij表示区分矩阵中第i行,第j列的元素,这样区分矩阵的定义是:
(cij)=
    其中i,j=1,2,3,…,n,这里n=
    在获得区分矩阵的时候,还有一种情况没有列出来,就是a(xi)=a(xj),D(xi)≠D(xj)的情况,在有些资料中,将这种情况下的cij赋了一个-1;有些则不讨论这种情况,因为他们认为在数据表的预处理阶段会对数据表中冲突的记录做处理,使其不加入到数据中,并且将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。本文遵从后一种处理方法,对冲突的记录不予讨论,认为数据表中没有冲突的记录。
    定义2:区分函数是从区分矩阵中构造的,方法是把cij的每个属性“或”起来,然后再“与”其所有的cij,其中i,j=1,…, ,用p来表示。
    区分矩阵是一个对称 × 矩阵。在实际应用中,只计算它的上三角矩阵或下三角矩阵。
    根据区分矩阵的概念,有三点值得注意:
    ① 区分矩阵中条件属性组合数为1的元素项,即Card(cij)=1,表明除该属性外其余条件属性无法将决策不同的两条记录区分开来,即该属性必须保留,这个与决策表中核的概念一致。因此,矩阵中所有条件属性组合数为1的属性均为核属性。
    ② 区分矩阵中凡是条件属性组合中包含有核属性的矩阵元素都可以仅用核属性就把决策不同的记录区分开来,也就是说属性组合中凡是包含有核属性的区分矩阵项的其它条件属性都是多余的。
    ③ 对于不包含核属性的属性组合必然每个组合都至少有一个元素成为约简后的一个条件属性,否则决策表中的某些记录将无法识别。
    属性约简的基本过程如下:
    第一步:生成区分矩阵,将矩阵中属性组合数为1的属性列入最终的属性约简集合,即Red=Core={ cij∣Card(cij)=1,i,j=1,2,3,…, }。
    第二步:从区分矩阵中找出所有不包含核属性且cij≠0属性组合Q,即:Q={ cij∣cij∩Core=ф,且cij≠0,i,j=1,2,3,…, }
    第三步:将所有不包含核属性的条件属性组合表示为合取范式的形式,即:P=∧(∨cij),cij∈Q。
    第四步:将P转换为析取范式的形式,并进行化简。
    第五步:根据需要选择不同的属性组合作为约简。
    ⑷ 选取约简属性后的信息表,对每个规则求出其核属性,得到各规则的核值。
    定义:具有相同条件属性而有不同决策属性的对象成为不可分辨的对象。
    基本思想:考虑依次去掉各个属性,若存在不可分辨对象,则说明该属性为必要属性,即核值。若去掉该属性时,无不可分辨对象,则说明该属性为冗余属性,可省略。
    ⑸ 根据核值表产生约简规则。
    基本算法:
    输入:信息系统S=(U,C∪D, V, f )
    输出:约简后的决策规则集。
    步骤:
    ① 计算区分矩阵;
int i=1,j=0;                     
int k=card(U);                   
M=Φ;                           
 while(1≤i≤k)                   
 for(i=0;i++;i≤k)
    for(j=i+1;j++;j≤k)
      if  (D(xi) D(xj))                           
mij={a C:a(xi) a(xj)}        
      else
            M=M ∪{mij
    ② 得到CORE;
i=1;
CORED(C)=Φ;
从头取M中元素,若为单一属性组合则将该属性加入CORED(C),
    ③ 进行属性约简
从M中删除含有核属性的组合。
Q={ cij∣cij∩CORED(C)=Φ,且cij≠0}
P=∧(∨cij
将P转换为析取范式的形式
P=∨(∧ci*
ci*为约简的属性集合
    ④      一约简的属性集合ci*,对每一个规则求核属性
         for(j=1;j++;j≤m)  (m 为每个规则的属性个数)
        每次假设从规则中去掉一个属性aj
        if 不存在不可分辨的规则
     then 去掉该属性
        else aj为该规则的属性核值     
    ⑤ 根据每一规则的核值,列出约简的规则集合。若对每一个对应的决策值该规则组合是既约的且在系统中为真时为约简规则。
    ⑹ 求出各约简属性的权重。
    通常情况下,决策者会拥有对各个条件属性的先验知识,权重用来衡量属性的相对重要性。在不同的决策环境下,相同的属性对决策输出会有不同的影响,即权重对环境敏感。粗集理论中的属性重要度表达了当前数据环境下属性对决策的影响,但它不能反映决策者的先验知识。因此,将二者结合起来确定属性的权重可以得到比较理想的结果。这样我们将粗集理论同决策者的先验知识结合起来,即将由大量的历史数据确定出来的客观的属性重要度同由主观的先验知识确定的属性权重结合起来确定最终的综合权重,从而实现主观先验知识同客观情况的统一。
    我们假设系统中的条件属性为C,决策属性为D。在C中有n个属性a1,a2,…,an。由决策者先验知识给定的权重分别为p(a1), p(a2), …, p(an)。然后收集大量的评价样本,由这些样本数据来考察所有条件属性将样本划分为决策类的分类能力,并由决策属性对条件属性的依赖度rC(D)=Card(posC(D))/Card(U),其中Card表示集合的基数。然后去掉条件属性i后,在重新考虑分类情况,求出rC-i(D)=Card(posC-i(D))/Card(U),则属性i的重要度为rC(D)-rC-i(D),以此类推。在此基础上将各个属性的重要度进行归一化处理并把处理后的结果q(ai)作为属性i的客观权重。即
q(ai)= 。显然,q(ai)在0和1之间取值。得到各个属性的主观和客观权重后,由于客观权重是由历史数据处理后得到的,我们赋予其较大的权重为60%,相应地,赋予主观权重为40%,那么,由此确定的综合权重P(ai)=0.6×p(ai)+0.4×q(ai)。
3 应用实例
    ⑴ 数据采集。在人力资源评价中,各属性值用3,2,1分别表示“优,中,差”。

知识
量a
创新
能力
b
交流
能力
c
适应
能力
d
毕业
院校
e
健康
状况
f
心理
承受
能力
g
进取
欲望
h
评定
结果
i
1
1
1
2
2
2
3
3
3
2
2
1
1
1
2
1
1
3
2
1
3
2
3
2
1
1
2
1
2
3
4
1
2
1
2
1
2
1
1
1
5
3
1
2
2
2
3
3
3
3
6
2
2
3
2
2
3
3
3
3
7
2
2
1
1
3
1
2
2
2
8
2
3
3
3
1
2
2
3
3
 

共2页: 1 [2] 下一页



一种改进的SUSAN角点检测算法
事务处理技术在城域点播系统中的研究与实现
工商管理 | 工科论文 | 财务管理 | 管理学 | 公共管理 | 财政税收 | 证券金融 | 会计审计 | 计算机 | 法律论文 | 医药学 | 汉语言文学
社会论文 | 工科论文 | 理科论文 | 文化论文 | 艺术论文 | 文学论文 | 哲学论文 | 政治论文 | 英语论文 | 写作指导 | 计算机应用
www.zlunwen.com 找论文网 ® 版权所有 网站地图