汉语分词技术研究---毕业论文_第1页
汉语分词技术研究---毕业论文_第2页
汉语分词技术研究---毕业论文_第3页
汉语分词技术研究---毕业论文_第4页
汉语分词技术研究---毕业论文_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Abstract本科毕业论文汉语分词技术研究Study of Chinese Word Segmentation Technology 姓名: 学号: 学院:软件学院 系: 软件工程 年 级: 指导教师: 年 月摘要中文分词技术是中文信息处理的一项基础性工作,也是一项关键性工作。它是我国计算机科学研究领域的重要课题。信息检索是当前中文分词系统的主要应用领域。面向信息检索的中文分词技术是中文分词技术研究中的一个重要方向。面向信息检索的中文分词系统首先要有较高的分词速度,对于中文分词中存在的两大难点:歧义字段处理和未登录词识别也要有较完善的解决方案。本文从理论上比较和分析中文分词的三类主要方法:基于字符串匹配的方法,基于统计的方法,基于理解的方法。并对其技术特点进行阐述,在此基础上提出了各方法存在的问题。基于字符串匹配的方法速度快,具有一定的歧义处理能力,但对于未登录词的识别存在明显的缺陷;基于统计的方法在有大型语料库的支持下可以具备很高的准确度,但是速度不易提高;基于理解的方法目前还处于初级阶段,难以实用化。针对信息检索领域和上述算法的特点,本文提出了基于字符串匹配和基于语言统计模型相结合的思想,利用语言统计模型在识别未登录词和歧义处理上的优势,来弥补基于字符串匹配方法的不足,同时发挥其速度快的优势。基于上述思想,本文设计并开发出了基于Java平台的中文分词基础工具包和分词系统。该工具包实现了基本的分词算法及本人提出的改进算法,能够满足通用中文分词的基本需求。工具包预留了接口,具有较好的可扩展性。此外,它也能与Lucene全文检索引擎协同工作,用于满足信息检索的需求。最后,本文对系统进行了测评,在中文分词的三项指标:分词速度、准确率、召回率上,系统都达到了不错的效果。其较出色的分词速度决定其较适合于信息检索领域使用。根据测评结果,本文提出了系统存在的不足,对课题进行了总结,并提出了进一步研究的方向。关键词:中文分词;信息检索;最大匹配法AbstractChinese word segmentation is the foundation of NLP(Natural Language Processing), and is also a key technology in the area of Chinese NLP. It is a important task at the present time.Information retrieval is the main application area of Chinese word segmentation. So ChineseWord segmentation for information retrieval is an important direction. The system should be fast and capable of identification of ambiguities and unlisted word, which are difficult in Chinese word segmentation. There are three main methods of the word segmentation. The mechanical word segmentation based on matching, The method based on statistical language model, The method based on artificial intelligent. The author analyses and compares them theoretically, describe the technical features of them, and point out that the method based on matching is fast, and is able to identification of ambiguities in some way, however , it cant resolve the unlisted word problem; the method based on statistical language model has a high precision when it has a large of natural language resource, but it is difficult to improve its speed; the method based on artificial intelligent is not practical at the present time. The author aims at these problems and the features of information retrieval, and makes use of advantages of the method based on statistical language model for remedying the disadvantage of mechanical word segmentation.On this basis, the author develops a basic Chinese word segmentation tool package and Chinese word segmentation system on Java platform. The basic segmentation methods and the advanced method are implemented to satisfy the basic requirements of Chinese segmentation. For it provide the interfaces, it can be expended easily. And it can also work with Lucene for information retrieval.Finally, the paper evaluates the performance of the system. It has quite good segmentation speed , and not bad precision and recall mark, so it is more fit for information retrieval. Then the paper point out the disadvantage of the system, summarizes all the work and give suggestion for the future researches.Key words:Chinese Word Segmentation;Information retrieval;Maximum Matching Method;目录目录第一章 绪论11.1 汉语分词技术的背景与意义11.2 汉语分词技术国内外发展历程和研究现状21.3 论文研究目标与思路21.4 论文组织架构3第二章 汉语分词技术52.1 汉语分词标准52.2 汉语分词术语定义72.3 汉语分词的基本方法82.3.1 基于字符串匹配的分词方法82.3.2 基于理解的分词方法112.3.3 基于语言统计模型的分词方法112.4 汉语分词技术的难点132.4.1 歧义字段概述132.4.2 歧义字段的识别142.4.3 歧义字段的产生原因142.4.4 未登录词的识别152.5 汉语分词系统的测评指标152.6 Lucene全文检索引擎介绍17第三章 汉语分词算法的改进183.1 基础算法的选择183.2 改进算法的提出203.2.1 对交集型歧义处理的改进203.2.2 对未登录词识别能力的改进213.2.3 对词典机制的改进253.2.4 改进小结27第四章 汉语分词系统设计294.1 系统总体设计294.2 基本算法模块设计314.3 歧义字段处理模块设计324.4 未登录词识别模块设计33第五章 系统实现与测评355.1 系统开发环境简介355.2 系统测试与结论36第六章 总结与展望376.1 工作总结376.2 存在问题376.3 系统展望37ContentsContentChapter 1 Introduction11.1 Background and significance of Chinese word segmentation11.2 Course of development and research status of Chinese word segmentation21.3 The main purposes and content of this paper21.4 Structure of this paper3Chapter 2 Chinese word segmentation technology52.1 Standard of Chinese word segmentation52.2 Definition of Terms of Chinese word segmentation72.3 Basic methods of Chinese word segmentation82.3.1 The machenical method82.3.2 The method based on artificial intelligent112.3.3 The method based on statistics112.4 Difficulty of Chinese word segmentation132.4.1 Introductions of ambiguities132.4.2 Identification of ambiguities142.4.3 Causes of ambiguities142.4.4 Identification of unlisted word152.5 Chinese word segmentation evaluation152.6 Introduction of Lucene17Chapter 3 Improving Chinese word segmentation183.1 Choice of the basic algorithm183.2 Improving the algorithm203.2.1 Improving the ability of handing ambiguities203.2.2 Improving the ability of identification of unlisted word213.2.3 Improving the dictionary structure253.2.4 Summary27Chapter 4 Chinese word segmentation sytem design294.1 System design294.2 Basic algorithm module design314.3 Ambiguities module design324.4 Unlisted word module design33Chapter 5 Design of Chinese word segmentation355.1 Development Environment355.2 System Evaluation36Chapter 6 Summary and Outlook376.1 Summary376.2 Problem376.3 Outlook37第一章 绪论第1章 绪论 1.1 汉语分词技术的背景与意义随着信息时代的来临,Internet上的信息急速增长,高效、快速、准确地进行信息处理成为重要而紧迫的任务。中文信息处理也不例外。鉴于中文的语言特性,可以概括地把中文信息处理分为三个平台1:字处理平台、词处理平台和句处理平台,每个平台以前一个平台为基础。其中,字处理平台技术主要包括汉字编码输入、汉字识别及文书处理软件等。经过近20年的研究,已经达到比较成熟的阶段。词处理平台最受关注的是面向因特网、不限文本的中文信息检索技术,包括通用搜索引擎、文本自动过滤、文本自动分类以及个性化服务软件等,语音识别也是其重要应用领域。它是连接字处理平台和句处理平台的纽带。句处理平台的主要应用有两个方面:一是机器翻译,目前翻译质量还不令人满意,需要同人工智能联系起来;二是汉语文语转换,即不诉诸句的韵律结构。句处理平台的研究虽然已经取得一定成果,但还是处于初级阶段。因此,目前中文信息处理技术的重心还是词处理平台。词处理平台进行处理的基本单位是词。众所周知,英文以词为单位,词和词之间靠空格隔开,因此在这方面有着天然的优势;而中文和英文不同,词之间并没有明显的分词标志,而是表现为一连串的中文字符序列。因此,在词处理平台对中文进行其他处理之前,必须先将中文字符串切分为有意义的词,这种技术称为“中文分词技术”。而绝大部分的中文文献都是汉语文献,因此,这种技术又称为“汉语分词技术”。汉语分词技术是中文信息处理技术的基础。词是中文文本语义的基本单位,要对中文句子进行句法分析,必须先对词进行分析,因此,只有解决了汉语分词问题,其他基于词处理平台的技术才有用武之地。 1.2 汉语分词技术国内外发展历程和研究现状早期的汉语分词系统主要采用基于字符串匹配的方法。北京航空航天大学计算机科学与工程系于1983年设计完成了我国第一个实用性的自动分词系统CDWS。它采用最大匹配的机械分词方法,辅助以词尾字构词检错技术,实用知识库进行纠错。随着研究的发展,近年来采用统计方法的分词系统逐渐增多,如清华大学人工智能实验室于90年代末研制的“CSeg&Tag系统”、中科院计算所ICTCLAS分词系统。此外,较为出名的分词系统还有复旦分词系统、哈工大统计分词系统、杭州大学改进的MM分词系统、北大计算语言所分词系统、Microsoft Research汉语句法分析器等2。其中,中科院计算所ICTCLAS分词系统将中文分词和词性标注功能一体化,据973专家组评测,正确率高达97.58%3,分词和词性标注速度为31.5KB/s,是目前广受好评的分词系统。更难能可贵的是,该系统的免费版开放了源代码,为广大中文分词技术的学习者和研究者提供了宝贵的学习资料。 1.3 论文研究目标与思路从上节可以看到,目前研究汉语分词的大多是科研院校,他们在这方面取得了瞩目的成果。遗憾的是,科研院校研究的技术大部分都不能很快地产品化、实用化;另一方面,中文信息检索领域对实用汉语分词系统的需求越来越迫切,一般人员无法接触到这些高新分词技术,所用的分词技术往往只能是较原始的,这二者间形成了极大的反差。鉴于这样的现状,本文尝试在基本的分词算法上进行改进,提出一种能满足通用分词系统基本需求,且能适用于信息检索领域的分词算法,并开发应用此算法的分词系统,以满足这方面的需求。该算法的目标是能够在较低的资源需求和实施难度下获得较好的分词效果,为中文分词技术的实用化做出有益的尝试。本文的基本研究思路如下:学习汉语分词基本情况确定汉语分词标准分析现有汉语分词方法的特点及存在的难点,从其成因上寻找解决办法。确定汉语分词方法的评价标准,根据该标准确立算法和系统的实现目标。提出改进算法根据汉语分词系统的特点,确定系统开发环境确定使用的基础框架和工具包进行系统的总体设计和详细设计系统实现系统测评验证算法可行性总结,提出问题,系统展望图1-1 论文研究框架图 1.4 论文组织架构本论文的组织如下:第一章 绪论简要介绍了汉语分词技术的研究意义,阐述了本文的主要研究内容,最后给出本文各章节的安排。第二章 汉语分词及相关技术本章确定了汉语分词的切分标准,介绍了汉语分词的几种主要方法、所面临的困难以及分词系统的评价标准。另外,对全文检索引擎Lucene做了概要介绍。 第三章 汉语分词算法的改进本章针对目前分词算法出现的问题,提出将基于语言统计模型的分词方法和基于字符串匹配的分词方法相结合的方法,并将此方法应用于歧义字段的消解和未登录词识别两个难点上,提出改进算法。在提升分词速度方面,以优化词典结构为切入点,提出了静动态双词典方案,并介绍了双哈希索引机制。第4章 汉语分词系统的设计本章设计了一个汉语分词系统,该系统基于面向对象的思想,将分词算法封装为类,并设计了通用接口以便于算法间的调用及系统的扩展。该系统实现了汉语分词的基本算法以及第三章提出的改进算法和双哈希机制词典。第5章 汉语分词系统的实现及测评本章简要介绍了系统和开发环境和系统实现,并对系统进行了测评。由测评结果得出结论:改进算法与其基础算法最大匹配法相比,在保证了较高的分词速度的基础上,准确率和召回率有较明显的改善,基本满足信息检索领域的需求。第6章 总结与展望本章对论文全文进行了总结,提出了系统存在的不足,并对系统的未来进行了展望,为进一步研究确立了方向。2第二章 汉语分词技术与系统第2章 汉语分词技术 2.1 汉语分词标准无规矩不成方圆。要对分词技术进行研究,首先必须有分词规范。本文所依照的分词标准为信息处理用现代汉语分词规范(GB13715/GB12200)。按照该标准,制定以下分词规则4:1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号、逗号、顿号、分号、冒号、问号、叹号、引号、括号、破折号、省略号、书名号、间隔号、连接号及符号“/”等。2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。例如: 发展 可爱 红旗 对不起 自行车 青霉素 3四字成语一律为分词单位。例如: 胸有成竹 欣欣向荣4四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如: 社会主义 春夏秋冬 由此可见5五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例如:时间就是生命 失败是成功之母人心齐,泰山移6 各类专业的基本术语为分词单位。例如: 加速度 中央处理器7 方位词应予单独切分。例如: 桌子上 长江以北8 除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如: 朋友们 学生们 但是“哥儿们 爷儿们”等是分词单位9时间名词或词组的分词规则如下: 9.1一年的十二个月份以及每周的七天,一律为分词单位。例如: 五月 元月 3月 星期日 礼拜三9.2“年、日、时、分、秒”分别为分词单位。例如: 1988年 15日 11时 42分 8秒9.3“前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分词单位。例如: 前天 后年 上星期 下月 大前天 大后年 9.4.“初”加十以内的数字一律为分词单位。例如: 初一 初二10人名、称谓等处理如下: 10.1汉族人名的姓和名分别单独切分。例如: 张 胜利 欧阳 海 10.2其他国家、其他民族的人名按其习惯形式切分。例如: 卡尔.马克思 牛顿 小林多喜二 才旦卓玛 10.3带职务、职称的称呼一律切分。例如; 张 教授 王 部长 李师傅 10.4简称、尊称等为分词单位。例如: 老张 小李 郭老 陈总 10.5.带排行的亲属称谓一律切分。例如: 三叔 大 女儿11 民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切分。但包括“族、省、市、州、县、乡、区、江、河、山”等只有两个字的民族名、地名,则不予切分。如,专名部分不能单独存在而保持原有意义的地名,不予切分。在信息时代,新的词汇层出不穷,以上的分词规则未必能完全覆盖到所有的词汇。对于判定一个语素结合体是否是词,还可依据以下五个因素45:(1) 该组合能否单用,该组合的部分能否单用,即单用标准;(2) 该组合能否扩展,即扩展标准;(3) 该组合的语义是否等于该组合的成分的意义的总和,即语义标准;(4) 该组合包含的语素,这可归为音节标准;(5) 该组合的使用频度,即频度标准。其中,单用标准、扩展标准、语义标准为主要依据,音节标准可作为补充,频度标准虽不能单独作为判定词的标准,但是对建设实用词典具有很大的意义。因此,它们的优先顺序为:单用标准扩展标准语义标准音节标准频度标准。 2.2 汉语分词术语定义依照汉语分词的基本方法,结合汉语字、词、句的特性和分词规范456,对本文所用到的与汉语分词有关的术语进行以下定义7:(1) 字符串汉字字符、英文字母与阿拉伯数字的任意混合序列。设有字符串S=C1C2C3Cn则S所包含的字符总个数n,称为字符串S的长度,记为:LENs=n。如字符串“甲型H1N1流感病例”的长度即为10。(2)词汉语文献中能独立、完整地表达语义,且语义上不可再作分割的字符串。所谓“语义上不可再作分割”,是指词在字面上也许还可以再进行分割,但在语义上则坚决不允许再分割。如“苏丹红”,字面上可以再分割成“苏丹”与“红”两个词,但若作这样的分割则语义完全改变,完全不能表达原词的语义。故,“苏丹红”符合词的定义。在汉语分词过程中,绝大多数词己收入分词词表。只有少部分词未收入分词词表,即未登录词。换而言之,绝大多数词已经是分词词表集合中的元素,少部分词(即未登录词)目前还不是分词词表集合中的元素。考虑到分词词表需要不断地维护,不断地补充新发现的未登录词。因此,也可以说,词就是分词词表集合中的元素,或者目前已经是,或者将来是。(3)词组词与词的复合体,由两个或两个以上的词组成的字符串。假设分词词表中已有“社会主义”与“政治经济学”两个词,则字符串“社会主义政治经济学”是词组。(4)子句从汉语文献的句子中抽取出来的、由标点符号分隔的字符串。子句是汉语文献分词的初始对象。(5)短语子句经分词算法的若干次处理后,已切分出若干个词之后的剩余部分。某些时候也可称作“残片”。 2.3 汉语分词的基本方法汉语分词主要有以下三大类2:基于字符串匹配的分词方法、基于理解的分词方法、基于语言统计模型的分词方法。 2.3.1 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论