随着网络技术的日益发展,网络信息资源正以人们难以想象的速度增长,网络也日渐成为人们获取信息的主要途径之一。搜索引擎为人们从海量网络信息资源中查找所需信息提供了便捷途径,但由于其返回的信息资源在查准率和查全率上都无法得到保证,人们经常会得到许多无用信息,反而降低了信息资源的使用效能。因此学科信息门户顺应时代发展需要应运而生,用户可通过学科信息门户快捷、有效地发现高质量的网络信息,同时使他们尽可能多地获得有价值的信息和信息资源。本文认为高质量学科信息门户建设应注重深层网页资源的收集与整合利用,并应重视深层网页资源采集的方法与策略。
1 学科门户网站建设现状
学科信息门户(Subject Information Gateway,SIG)是“提供可检索和可浏览的互联网资源目录的联机服务系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。”[1]它致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准规范资源的选择,并提供对资源的丰富描述;提供依据学科体系结构和资源类型分类的浏览和检索入口;有对资源的管理和长期发展的政策、元数据应用与标引规范、资源共享与互操作机制等[2]。
自1996年DESIRE一期工程开始,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE项目进入第二期时,学科信息门户已经在世界范围内呈“燎原”之势,在美洲、欧洲、大洋洲广泛实施。并且在2000年以后逐渐从单个的研究项目向大规模的建设项目转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业模式上同其他的企业信息门户、知识门户相互交融,出现了形式和内容的统一态势[3]。国际上比较权威的学科信息门户网站有英国的RDN、SOSIG,欧洲的RENARDUS,美国的LII等。
随着国外大规模的学科信息门户建设以及国内学者对学科信息门户的研究,学科信息门户建设的思想和理念逐步为国内业界接受。国内最早是上海图书馆于1999年开始建设的“数字图书馆资源总汇表”,现在已发展成为“数字图书馆”资源门户。2002年3月开始至今,在中科院知识创新工程科技基础设施建设专项“国家科学数字图书馆(CSDL)项目”的子项目资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户[4]。热点门户是国家科技图书文献中心组织建设的一个网络信息资源门户类服务栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有武汉理工大学图书馆的“材料复合新技术信息门户”,中国林业科学研究院科技信息所和中国林科院图书馆合作建设的“林业学科信息门户”等。
国内学科信息门户在软件平台的完善性、数据标准化、数据共享性、高质量信息资源数量、描述对象数量等方面存在着一定的不足[5],有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、服务和信息资源开发,不能适应数字图书馆集成服务的发展方向,也不能满足用户对信息资源一站式服务的要求。
2 深层网页资源的价值
由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进行搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络[6](invisible web,hidden web)、深层网页资源(Deep Web,Deep Internet)[7]。
自1994年Dr.Jill Ellswonh提出Invisible web这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2004年9月14日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息[7]。雅虎推出了“内容获取项目”,该项目意在为公共数据库中的数十亿个网页提供搜索索引[8]。与此形成鲜明对比的是,国内学者并不太重视这个问题,相关论述较少,极少有学科信息门户网站将这部分极具学术研究价值的网络信息资源作为特色信息资源加以收集整合。
根据Bright Planet对深层网页资源的范围、数量及相关性调查结果表明,深层网页资源有以下特点[9]:
(1)信息量大。深层网页的信息量达7500TB,是WWW资源的400~550倍。它拥有近5500亿个文档,而表层网络只有10亿个。2000年深层网页站点已超过20万个,2004年达到30.7万个,其中60个最大的深层网页站点收集的信息约有750GB,超过表层网络范围40倍。
(2)利用率高。深层网页站点的访问率很高,月访问量是表层网络站点的150%,且经常被其它网络资源链接;但是许多典型的深层网页站点不为大众所熟知。
(3)发展迅速。深层网页资源是互联网上新生信息增长最大的一个种类,2000年~2004年间增长了3-7倍。
(4)信息质量高。深层网页站点倾向于学科范围更狭窄、内容更深入的方向发展。信息内容与每个所需信息、市场及领域具有较高的关联性,且大部分(54%)深层网页资源存放在专题数据库(topic-spe-cific databases)中,经统计分析其高质量内容比表层网络多1000-2000倍。
(5)免费开放。95%的深层网页资源对公众免费开放,即无需支付费用或订购使用。付费资源前3位分别是DBT Online、Lexis-Nexis和DIALOG,占付费资源的71%;免费开放资源的前3位分别是美国国家气象数据中心(National Climatic Data Centre)、美国国家航空与宇航局(NASA)和美国国家海洋数据中心(National Oceanographic Data Center),占开放资源的92%。
因此,将这部分资源收集整理到学科信息门户网站中来,有利于进一步提升学科信息门户网站的学术指导价值、利用价值,对于当前学科门户网站的建设是非常有意义的。
3 深层网页资源采集的方式
学科信息门户建设,要从大量的网络资源中选出有价值的资源,要在较短的期限内达到信息的规模效应,在人员的安排上仅靠有限的学科专家和相关的专业人员是难以达到预期目的的。因此,深层网页资源的采集应遵循多元化策略,主要可采取以下措施:
3.1 人工采集
由工作人员查阅各种文献、浏览互联网或向有关专业人员请教获得相应的信息源,定期对这些信息源进行跟踪检索获取数据。人工采集方式的工作效率较低,而且所收集的信息不全,带有一定的随机性和随意性。常用的信息源有:(1)对公众免费开放的数据库资源,如Pub Med、Gen Bank、DOAJ等。(2)目录指南(directories),如Librarians'Index to the Intemet中的invisible web资源。(3)搜索“Invisible Web”的网站,如The Invisible Web Directory、Direct search、Complet Planet(Bright Planet公司经营的网站)、InfoMine、About.com等。(4)专业搜索引擎:Incywincy、Singingfish、Google News、Scirus、Science.gov等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,检索策略为“主题词或关键词+database”,这样就可以搜索到这些搜索引擎所收录的该主题词或关键词方面的相关数据库链接。如toxic chemicals database。
3.2 自动化采集
即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数深层网页资源为蜘蛛程序无法访问或索引的数据库,自动化采集深层网页资源需要使用专门的深层网页数据挖掘软件。
门户网站建设可计划自行研发具有自主知识产权的深层网页资源采集软件,但技术难度较大,会占用学科门户网站建设过程中大量的人力资源和财政资金,对普通图书馆或机构来说不是最佳方案。另一种方式是采用专用商业软件,这类软件可实现对深层网页资源的检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果送回给用户。如Bright Planet开发用于检索深层网页资源的专业软件LexiBot2.0,用户可将其下载到自己的计算机上,采用关键词串检索,可同时对2200多个网站和数据库进行检索,检索过程可采用后台操作模式,不影响用户做另外事务。目前Bright Planet公司已停止销售该软件,取而代之的是DQM2(Bright Planet's Deep Query Manager TM),可根据用户的指令对超过70000个深层网页专业数据库同时进行检索,并实时进行跟踪和监测为用户返回最新研究进展提示,用户也可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一步管理制作,后续资料可进行追加,是一个较为理想的门户网站建设深层网页资源采集软件[10]。另外可供参考的还有普渡大学(Purdue University)的Edu Med,专门用于搜索医学多媒体数据库[11],该软件前身是一个多媒体管理系统VDBMS。
自动化采集的工作效率较高,可以确保查全率。但所收集的资料良莠不齐,质量难以保证,而且所收集的信息量太大,容易使系统难以承载。