关键词 Web挖掘; Web日志; 远程教学
1 引言
在网络远程教育模式下,学生学习的过程就是在远程教育网站页面中跳转活动的过程,他们的每个活动都是对教学网站上的一个页面对象的点击操作,这些点击操作都能被完整地记录在系统日志中,通过对日志的分析挖掘,可以找出学生行为模式;在另一方面,远程教育网站的结构组织是不是符合学生和教师学习和教学的规律,通过对网站日志的分析也可以得到。所有这些都离不开数据挖掘技术,本文就是通过对远程教育Web服务器日志文件进行分析,从而进一步指导网站建设。
2 Web挖掘技术介绍
Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为3类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘(如图1所示),针对这3种不同的处理对象,能够挖掘出许多有用的信息。

图1 Web挖掘分类
2.1 Web内容挖掘
Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。
2.2 Web结构挖掘
Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。
2.3 Web使用记录挖掘
Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式,目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户[1];可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。
3 Web日志挖掘步骤
Web日志挖掘流程如图2所示:
|

图2 Web日志挖掘流程
3.1 Web日志记录的主要内容
Web服务器日志记录用户访问该教学网站时每个页面的请求信息。
3.2 数据预处理
Web日志挖掘首先要对日志中的原始数据进行预处理,包括依赖于域的数据净化、用户识别、会话识别和路径补充等。预处理过程是保证 Web日志挖掘质量的关键步骤。
(1)数据净化。指删除 Web服务器日志中与挖掘算法无关的数据。大多数情况,只有日志中 HTML文件与用户会话相关,所以通过检查 URL 的后缀删除认为不相关的数据。例如 ,对于一个主要包含图形文档的站点,此时就不能将图形文件删除,而是自定义一套规则将它对应到一定的HTML文件,这样就不会将一些重要的用户会话丢失。
(2)识别用户。由于本地缓存、代理服务器和防火墙的存在,使得识别用户的任务变得很复杂。一般最常被 Web日志挖掘工具使用的技术就是基于日志/站点的方法,例如可以使用了一些启发式规则帮助识别用户。1)如果IP地址相同,但是日志中表明用户的浏览器或操作系统改变了,则认为不同的代理表示不同的用户。2)将日志和网站拓扑结构结合,构造用户的浏览路径。如果当前请求的页面同用户已浏览的页面间没有链接关系,则认为存在IP地址相同的多个用户。
(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面。我们可以获得他在网站中的访问行为和浏览兴趣。日志文件中不同的页面当然属于不同的会话。当用户的页面请求在时间上跨度较大时,就可能是该用户多次访问同一个网站。这里可以利用超时,如果两页间请求时间的差值超过一定界限就认为用户开始了一个新的会话。
(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录 .这就是路径补充所做的工作,解决的方法类似于用户识别中的方法。如果当前请求页与用户上一次请求页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。
3.3模式发现
模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等等。
3.4 模式分析
该阶段实现对用户访问模式的分析,基本作用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。