前言
汉语自动分词是目前中文信息处理中公认的难题,因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引、内容分析等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈”。如果能突破这一“瓶颈”,那么中文信息的自动处理就会迎刃而解,甚至意味着中华民族文化复兴的开始,因为它已经为汉语走向全世界打开了一扇方便之门。
近年来,由于计算机技术的飞速发展,汉语自动分词研究取得了突破性进展,其应用研究也越来越受到人们的重视,应用范围也越来越广。内容分析就是汉语自动分词应用研究的重要领域之一,因为汉语自动分词是内容分析法的前提和基础。随着内容分析法的兴起及其广泛应用,研究汉语自动分词在内容分析法中的应用就变得十分迫切和必要了。
1 已有的分词方法
为了克服汉语词计算机自动切分这一难题,许多年来,大量的学者都加入了这一领域的研究,使汉语自动分词取得了丰硕的研究成果。归纳起来,目前国内公开报道过的汉语自动分词系统采用的分词方法主要有三种类型[1~8]:
(1)机械分词法。又称词典式切分法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。
(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。
(3)人工智能法。又称理解分词法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法,模拟人脑的功能。像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法[9]。
2 当前汉语自动分词研究的重要趋势
汉语自动分词是一个综合性的难题,涉及到众多的学科和研究领域,需要多个学科的研究成果作为基础。但是随着科学技术的快速发展,汉语自动分词也并非遥不可及。根据目前汉语自动分词的研究现状,以及相关学科的发展情况,汉语自动分词有望在三个重大研究领域取得突破性进展。
2.1 克服汉语文本切分中的困难,继续研究传统文本切分的有效方法
目前,汉语自动分词的研究重心主要集中在克服传统文本切分中存在的困难,对传统文本的有效切分上。在计算机科学、情报科学和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。
(1)汉语词的规范研究。汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,没有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路[10~14]。
(2)汉语词自动分词算法研究。分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了上百种分词方法和算法[15~19]。传统汉语自动分词要获得新的突破,只能结合新的信息技术,在分词算法上做文章,必须在现有的分词算法和方法的基础上找到新的分词算法,这是今后汉语自动分词努力的重要方向之一。
(3)汉语自动分词歧义处理研究。汉语自动分词的主要困难是歧义切分,而歧义在自动分词中普遍存在。随着自动分词研究的突破,分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类:规则方法与统计方法[20]。由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。因此,应针对不同的歧义类型采取不同的解决方法。对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。统计表明,第一类歧义字段不到整个歧义字段总数的1/30,因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想-回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典,二是增加临时词典。此外,还可以人工干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库[21~23]。随着计算机技术和汉语语言研究的进展,汉语词自动切分歧义处理技术将会有更大的突破。
(4)汉语自动分词应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进一步发展,这一研究成果将会更广泛地应用到更多的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面[24]。
2.2 将人工智能技术与汉语自动分词研究有机结合起来
汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术研究的新进展。计算机技术和人工智能技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言处理与理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。因此,汉语自动分词研究发展的同时也寄希望于人工智能技术的新突破。
目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能技术的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法,但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。重点应集中在引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看,性能比较优异且具发展前景的应首推基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新词汇不能给予正确切分。专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段,缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。因而,将人工智能技术与汉语自动分词研究有机结合起来,把神经网络技术与专家系统紧密联系起来用于汉语自动分词与标引系统将是该领域的发展趋向[25]。
2.3 改造汉语文本书写规则使之利于计算机自动处理
当现有的分词方法和人工智能技术不能有效地解决汉语词自动切分中的困难时,必须有一种新的思维方式来引导汉语自动分词的研究,那就是要研究汉语语言本身的特点和规律,从汉语书面语的书写规则出发来寻求汉语自动分词的突破口。这也许是汉语自动分词发展的新方向。
对汉语书写规则进行适当改造,以使其便于计算机自动切分,不是一种主观幻想。这样做既有理论依据,又有现实例子。其理论依据在于,其他许多语言虽然没有汉语那样博大精深和妙不可言,但却有利于计算机自动处理的优势,实有可取之处。而且任何一种语言都处于不断变化和发展之中,有益的东西要吸收进来,不利的东西要抛弃,并使其趋于完善。完善是相对而言,并非一成不变。语言产生和发展的真正意义还在于,便于交流和利用。这就是为什么解放后我国要进行多次汉语改革的原因。而这些成功的汉语改革正是我们对汉语书写规则进行改造的现实依据。为了使汉语走向全球,为了中华文化的再次伟大复兴,随着信息时代的到来,我们必须对汉语进行改革。因为它牵系一个民族发展的前途和命运。
对书面汉语书写规则进行改造与规范,可以吸收其他语言在计算机处理中的优点。如可以从西方语系(如英语)得出启示,也可以从东方语系(如日语和韩语)得到启发,还可以汲取藏文自动处理的做法。这些语言都有适合计算机自动处理的优势。
西方语系与汉语的明显不同之处在于,西文都是拼音文字,词与词之间有空格等明显的间隔符,因此不存在语词切分的问题。西语的这一显著特征适应了计算机自动处理发展的要求,使得西语在计算机自动文字处理上具有较大优势。这是一种偶然,可以说是上帝赐予西方人的最好礼物。汉语显然不具备这一特征,而恰恰正是这一点又使得汉语不利于计算机自动处理,给我们留下了一个世纪难题。这是否能给我们一些启示呢?我们能否在汉语的书写上向西方人学习呢?这是值得我们思考的。当然,我们不必完全模仿西文而抛弃中文应有的特色和优点。为了使汉语便于计算机自动处理,我们只需要对现有的汉语语法规则作如下改造:一是要对汉语词进行明确规定,即界定什么是词;二是要在汉语文本的词与词之间增加适当的间隔符,即设立分词标志;三是要制定完整的汉语书写规则。这些都可以在汉语文本生成之前完成,如,由作者本人在写作时完成,或由出版编辑部门在稿件编辑时完成。这样我们就不必耗费巨资设计种种算法、编写各种软件来对传统文本进行切分了。
如果我们觉得西方语系难以接受的话,那么我们只要看看日语和韩语就应该有所启发了。日语同汉语十分接近,但日语较汉语适合于计算机自动处理。这是因为日语有丰富的词缀,日语中大量使用片假名和平假名构成了书面日语的词尾变化,而这些词缀可以作为计算机识别词的标志。虽然汉语不能像日语那样构造大量的词缀来作为词的标志,但是可以模仿日语设立其他词缀来区分词,如在词与词之间增加分隔符。韩语本身也有适合计算机自动处理的优势,因为韩语是部件式结构,能进行自由拆分和组合。而我国藏族的藏语是黏着性语言,在一定意义上,我们可以把传统藏文语法看作是由格助词及其接续特征规则构成的语法系统。这一语法系统的主要特点就是:各类名词性成分借助格助词及其接续特征规则构成句节进而由句节结合动词来组织句子。一般而言,藏语的句子是以动词为中心来组织的,动词决定着格助词的添接规则[26]。相比之下,汉语则明显缺乏足够的自动分词信息,所以必须对汉语文本进行改造,添加必要的分词信息。
基于以上启示,汉语的书写规则是完全可以进行改造的。如果词的范畴已经明确,书写规则已经制定,而且分隔符也已确定,那么我们就可以对汉语书写规则进行适当的改造了。这是一种新的分词思维,是一种类似英语词切分的无词典式分词方法,即改造书面汉语书写规则,在规范词的基础上,书写或录入时在词与词之间增加分隔符,增加自动分词信息,以便计算机自动识别和切分。这是一种一劳永逸的分词方法。尽管目前我们还不习惯,但是一旦它形成标准,而编辑部和出版社又按此标准对稿件进行规范时,我们有理由相信只要假以时日,就会有一种新的适合计算机自动处理的新的汉语文本出现,而这种文本并不破坏汉语自身固有的特色和优点。
此外,在进行信息交流和处理时,我们除了使用自然语言之外,还有很多其他的人工语言,如数学语言、检索语言、逻辑语言、程序设计语言等,是自然语言交流的补充。这些人工语言和自然语言一样都有一个共同特点,那就是都有一定数量的符号系统和一套完整的语法规则。但是,这些人工语言在很大程度上都适应了计算机技术的发展,具有较强的生命力。由此可得,我们应该能像这些人工语言一样设计出一套新的语言符号系统,模拟现有的汉语语言,并对其进行改造。例如,在数学语言中,“因为”通常用“∵”表示,“所以”通常用“∴”表示,清楚明白,一看便知。又如,在普通逻辑的三段论推理中,分别用“P”、“S”、“M”表示大前提、小前提和结论。数理逻辑和各种程序设计语言中的符号系统更是十分完备,完全可以用来进行信息表示、信息传递、信息存储和信息处理,并实现信息的自由交流。
3 汉语自动分词应用研究
书面汉语自动分词的研究具有重要的理论和应用价值,它的最终解决将对以下几个方面产生实质性影响[35]:汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索、信息检索和自然语言检索;自动标引;自动编制文摘、目录与索引;词频统计、概念分析和内容分析;语言文字自动处理;人工智能和知识工程;智能计算机;专家系统和知识库;搜索引擎和网站建设;数据挖掘、知识挖掘;汉语语言学;认知心理学等。
正是由于自动分词问题在以上研究领域的重要性,所以它受到人工智能界、汉语语言学界、情报检索界、计算机应用界和其他各界人士的广泛关注。汉语自动分词应用相当广泛,已经在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面取得了重大的研究成果。
(1)信息检索。自动分词与信息检索的结合实现自然语言检索接口是自然语言检索的一个重要方面,自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息检索系统整体流程中不可缺少的处理步骤[27]。在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。检索语言的发展趋势应是检索语言的自然语言化发展与自然语言的检索语言化发展的双向结合。