关键词 不完备信息系统; Rough集;模型拓展
1 引言
由Pawlak等人在20世纪80年代提出的经典Rough集理论在知识获取方面取得了很大的成功。但遗憾的是在传统的Rough集理论中,存在一个明显的假设,即所有可以获得的个体对象由这个属性集合给出完全描述。换句话说,用
表示个体对象集合,
表示属性集合,则对于任意
,
,属性值
总是存在的,即
。这个假设虽然是合理的,但是与很多现实情况有差异。在这些情况下,由于不可能得到一部分属性值,或者有些对象的某个属性值是肯定不可能得到的,这导致关于对象集合U 的描述是不完全的。因此,就导致了不完备信息系统的出现。然而,对不完备信息的理解存在两种语义解释,遗漏(missing)语意和缺席(absent)语意。遗漏语意下,认为遗漏值(或空值)将来是可以得到的并且可以与任意值相比较;而缺席语意下,认为缺席值(或空值)是无法再得到的,不能与任意值相比较。
表示个体对象集合,
表示属性集合,则对于任意
,
,属性值
总是存在的,即
。这个假设虽然是合理的,但是与很多现实情况有差异。在这些情况下,由于不可能得到一部分属性值,或者有些对象的某个属性值是肯定不可能得到的,这导致关于对象集合U 的描述是不完全的。因此,就导致了不完备信息系统的出现。然而,对不完备信息的理解存在两种语义解释,遗漏(missing)语意和缺席(absent)语意。遗漏语意下,认为遗漏值(或空值)将来是可以得到的并且可以与任意值相比较;而缺席语意下,认为缺席值(或空值)是无法再得到的,不能与任意值相比较。 为了使Rough集理论能适应于对不完备信息系统的处理,目前主要有两类方法。一是间接处理方法,这种方法有两种情形:第一种情形是删去带有缺失值的实例,但是将会丢失数据中很多有用的知识;第二种情形是通过一定的方法(通常是基于概率统计)把不完备信息系统转化为完备信息系统,即数据补齐,但是,补齐处理只是将未知值补以我们的主观估计值,或多或少改变了原始的信息系统,因此不一定完全符合客观事实。二是直接处理方法:其特点是对经典Rough集理论中相关概念在不完备信息系统下进行适当扩充。本文就直接处理方法目前的情况进行阐述与总结,有利于对不完备信息系统的Rough集扩充方法的认识,对在不完备信息系统下拓展Rough集有所帮助和参考。
2 不完备信息系统的扩充方法
2.1 容差关系
基于遗漏(missing)语意,Kryszkiewicz给出了容差关系的定义。给定信息系统
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“*”,
,容差关系 T 定义如下:
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“*”,
,容差关系 T 定义如下: 定义2.1.1 容差关系 T 定义为:

显然,T 是自反且对称的,但不传递。进一步,用符号
表示在属性集合 B 上满足关系 T(x,y) 的个体对象y的集合,即对象x 的容差类。根据定义2.1.1得到上、下近似的定义:
表示在属性集合 B 上满足关系 T(x,y) 的个体对象y的集合,即对象x 的容差类。根据定义2.1.1得到上、下近似的定义: 定义2.1.2 不完备信息表
中对象集合X 关于属性集
的上近似
和下近似
分别定义为:
中对象集合X 关于属性集
的上近似
和下近似
分别定义为:
,
。 容差关系是目前面向不完备信息系统中应用最为广泛的一种Rough集扩充模型,它将缺失值的可能范围最大化,从而保证了后续算法可以挖掘到尽可能多的知识。但这种最大化的前提假设也同时增加了后续算法的难度和复杂度,在数据量较大,缺失值较多的情况下难以应用。
2.2 非对称相似关系
Stefanowski和Tsoukias认为空值不是不确定的,而是当前不存在的,从而不允许比较空值,即缺席(absent)语意。基于这种观点他们给出非对称相似关系如下:
定义2.2.1 给定信息系统
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“?”,
,非对称相似关系S 的定义为:
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“?”,
,非对称相似关系S 的定义为:
显然,S 是自反且传递的,但不对称。实际上,非对称相似关系可以认为是包含关系的一个代表,因为只要 x 的描述包含在 y 的描述中,就认为 x 与 y 相似。对于任意对象
,可以定义两个非对称相似集合:
,可以定义两个非对称相似集合: 定义2.2.2 非对称相似于 的x 对象集合 J(x) ,x 与之非对称相似的对象集合
的定义为:
,
。
的定义为:
,
。 一般地,
。因此,
。因此, 定义2.2.3 不完备信息表
中对象集合 X 关于属性集
的上近似
和下近似
分别定义为:
,
。
中对象集合 X 关于属性集
的上近似
和下近似
分别定义为:
,
。 这种关系乍看起来似乎有点奇怪,但我们总是认为孩子象父母,复制品象真品,反过来人们难于接受。如果系统环境如此,非对称相似关系是合理的。
2.3 量化容差关系
为了进一步刻画容差关系和非对称相似关系中两个实例之间的“相似”程度Stefanowski和Tsoukias在研究了容差关系和非对称相似关系后提出了量化容差关系。