找论文网 > 计算机论文 > 计算机应用 >

Web挖掘个性化模型研究(1)

摘  要  本文对个性化建模技术进行了研究,提出一个基于用户兴趣挖掘的个性化模型,并将其用于个性化元搜索引擎中,为个性化分析提供依据。该模型基于客户端,将用户的访问页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。模型中将用户的兴趣分时分段,分层分类的进行记录、管理,并仿照人类记忆的遗忘规律对用户兴趣进行有选择、非平等的遗忘,通过不断的更新与优化模型,使模型能准确反映用户的兴趣特征。
关键词  个性化;用户兴趣挖掘
 
1        引言
随着互联网内容指数级的增长,如何满足各种用户不同的个性化需求等,是新的信息服务系统面临的挑战性课题。个性化服务是Internet信息增长的必然结果。一个好的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。作鲂曰竦幕『秃诵模没P偷闹柿恐苯庸叵档礁鲂曰竦闹柿俊?lt;/FONT>
 
2        相关技术研究 2.1       用户兴趣挖掘技术
       在Web挖掘系统中对用户兴趣的挖掘所采取的途径主要有下面三种:
⑴从表达用户个性化的文件中获取用户的兴趣。该文件可包括两种信息:一种是用户主动填写的需求信息;另一种是用户提交的背景信息、注册信息等。
⑵监视用户的信息搜索与浏览过程,分析用户的兴趣爱好,然后根据用户的兴趣爱好进行信息推荐(如letizia[1] 、WebWatch[2]等)。
⑶从用户的浏览行为中推断出用户的兴趣,主要采用Web使用挖掘技术,通过感知用户的反应,分析用户行为的意图,获取用户感兴趣的相关信息及其感兴趣的感性程度。
2.2       用户建模技术
根据建模过程中用户的参与程度,用户建模技术可以分为:用户手工定制建模、示例建模和自动用户建模[3]。
⑴ 用户手工定制建模
用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法。用户手工定制建模的典型代表是My Yahoo和WebWatcher。
⑴ 示例建模
示例建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。
示例建模对用户的依赖很少,构建的模型也更能全面地反映用户的兴趣爱好,但需要用户在浏览的过程中标注页面以得到示例,这就严重干扰了用户的正常浏览。
⑶ 自动用户建模
自动用户建模是指根据用户的浏览内容和浏览行为构建用户模型。此方法改进了示例建模方法中的示例获取途径,将其转化为无需用户标注的自动示例获取方法。这种方法容易引入噪声,不利于构建高质量的模型。此外,对用户访问日志进行挖掘也是一条实现自动建模的途径。通过日志挖掘可以发现用户的访问模式、购买习惯等特点,构建用户模型。
3        Web挖掘的个性化模型总体设计
Web挖掘个性化模型主要由四个模块组成:页面预处理模块,页面分类模块,兴趣生成模块,更新与优化模块。它们之间的关系如图1所示。

图1  Web挖掘个性化模型设计
 页面集合中存储了用户最近访问的页面,这些页面隐含着用户的兴趣,是该模型挖掘的起点。首先清除无用数据,只保留用户感兴趣的内容页面,并对这些内容页面进行特征提取等工作。随后,页面分类模块根据用户的个性化模型和分类参考模型将各个页面归类。兴趣生成模块负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。各个模块的功能具体介绍如下:

⑴ 页面预处理模块
该模块主要完成两部分工作:一、对WWW缓冲区中的数据进行净化,清除与用户兴趣挖掘无关的文件;二、对保留的内容页面进行格式转换,切分出页面中所有的特征词,滤除词条中判断能力较差的停用词、超高频词和超低频词,然后根据词在页面中出现的位置,分别乘以不同的加权系数,得到最终的权值,构成页面特征向量。
⑵ 页面分类模块
得到页面特征向量后,可通过计算页面与主题概念类之间的相似度来判断页面属于哪一类。计算相似度时,我们综合考虑了个性化模型中的用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者的相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类到相似度值最大的主题类。
⑶ 兴趣生成模块
所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。
⑷ 更新与优化模块
更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中的重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能及时体现用户兴趣的变化,准确反应用户的真实兴趣信息。
 
4        个性化模型分析设计
根据用户的兴趣需求信息建立个性化模型,首先要获得用户兴趣信息;然后才能对用户的兴趣特征进行形式化的描述,从中归纳出可计算的模型;并能跟随用户兴趣的变化,不断地对模型进行更新与维护。
4.1       用户兴趣类向量表示
更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程
用户兴趣类向量是用一个加权关键词向量来表示,特征词权值的计算过程如下:
1)统计兴趣类中所有内容页面的数目N;
2)求出所有页面的特征词的并集K={K1,K2,…,Km}作为用户兴趣类向量的候选特征词;
3)统计特征词Ki在多少篇文档中出现,将其数目记为Ni;
4)利用TF-IDF方法计算各个特征词的权值:
其中,tfij(I =1,2,…,m; j =1,2,…,n)表示特征词Ki在页面Pj中的权值;
依次计算了各个特征词的权值后,就可得用户的兴趣类向量。
定义:兴趣类特征向量由一组特征词及其权值构成,表示为:uc={(K1,W1),…,(Ki,Wi),…,(Km,Wm)},其中Ki∈ K(K为兴趣类特征词全集),Wi表示其对应的权值。
4.2       用户兴趣存储方式
为了区分用户的不同兴趣类别,我们将用户的兴趣表示成与兴趣分类参考模型相一致的类似于树的结构形式,称为用户兴趣树。在大多情况下,用户兴趣树只是兴趣分类参考模型的部分映射。这种树形结构可以保存用户的兴趣类型信息,也可以保存用户兴趣特征词的信息,如图2示:

 

共2页: 1 [2] 下一页


循环中值平均滤除遥测地形粗差
基于PCANN的说话人识别方法研究
工商管理 | 工科论文 | 财务管理 | 管理学 | 公共管理 | 财政税收 | 证券金融 | 会计审计 | 计算机 | 法律论文 | 医药学 | 汉语言文学
社会论文 | 工科论文 | 理科论文 | 文化论文 | 艺术论文 | 文学论文 | 哲学论文 | 政治论文 | 英语论文 | 写作指导 | 计算机应用
www.zlunwen.com 找论文网 ® 版权所有 网站地图