(语言学及应用语言学专业论文)面向信息处理的带典型前缀派生词的识别分析.pdf_第1页
(语言学及应用语言学专业论文)面向信息处理的带典型前缀派生词的识别分析.pdf_第2页
(语言学及应用语言学专业论文)面向信息处理的带典型前缀派生词的识别分析.pdf_第3页
(语言学及应用语言学专业论文)面向信息处理的带典型前缀派生词的识别分析.pdf_第4页
(语言学及应用语言学专业论文)面向信息处理的带典型前缀派生词的识别分析.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:面向信息处理的带典型前缀派生词的识别分析 学科专业:语言学及应用语言学 学位申请人:段倩倩 指导教师:任海波 中文摘要 本文主要是采取语料库语言学的方法,对我们要研究的对象进行统计和分 析,得出识别的规则,并最终找到识别的方法。全文共分六章: 第一章是绪论部分。本章我们主要是论述选择前缀自动识别的意义,以及对 研究现状进行总结性的论述,并对本文的研究思路、整体框架以及研究方法等进 行陈述,对前缀的特征性质进行概括。 第二章是对识别总体思路的分析。本章我们主要是论述目前中文信息处理在 自动分词和自动标注方面所采用的方法,从而分析我们所要研究的自动分词和词 性标注方面的思路,为下面几章的研究打下基础。 第三章是对带前缀“老”的派生词的识别分析。本章我们通过对语料库的分 析与统计,得出了含语素“老”的双音节及多音节词语的词表,利用统计和规则 相结合的办法完成了对带前缀“老”的派生词的自动识别。 第四章是对带前缀“阿”的派生词的识别分析。本章我们通过对语料库的分 析与统计,得出了含语素“阿”的双音节及多音节词语的词表,利用统计和规则 相结合的办法完成了对带前缀“阿 的派生词的自动识别。 第五章是对带前缀“小 的派生词的识别分析。本章我们通过对语料库的分 析与统计,得出了含语素“小”的双音节及多音节词语的词表,利用统计和规则 相结合的办法完成了对带前缀“小的派生词的自动识别。 第六章是自动识别的算法设计。本章我们会总结前几章的研究成果,最终找 出典型前缀的识别策略并画出识别流程图。最后说明本文的不足之处并找出可以 进一步研究的地方。 关键词:“老”“阿”“小自动识别 论文类型:应用研究 t i t l e :f o ri n f o r m a t i o np r o c e s s i n gw i t hat y p i c a lp r e f i xd e r i v e df r o mt h ew o r d r e c o g n i t i o na n a l y s i s m a j o r :l i n g u i s t i c sa n da p p l i e d l i n g u i s t i c s c a n d i d a t e :d u a n q i a n q i a n t h e s i ss u p e r v i s o r :r e nh a i b o a b s t r a c t i nt h i sp a p e r , w en e e dt os t u d ys t a t i s t i c sa n da n a l y s i so fo b j e c t so b t a i n e d i d e n t i f i c a t i o nr u l e s ,a n df i n a l l yf o u n dr e c o g n i t i o n t e x tc e n t i m e t e r ss i xc h a p t e r s : c h a p t e r li st h ei n t r o d u c t i o np a r t w em a i n l yd i s c u s s e dt h ep r e f i xa u t o m a t i c a l l y r o t x ) g n i z et h es i g n i f i c a n c e o fc h o i c e ,a n dt h er e s e a r c hs t a t u ss u m m a r yo ft h e d i s c u s s i o n , a n di d e a so ft h i sr e s e a r c h ,t h eo v e r a l lf r a m e w o r ka n dr e s e a r c hm e t h o d s c h a p t e r2i si d e n t i f yt h eg e n e r a li d e ao fa n a l y s i s w ea r em a i n l yd i s c u s s e di nt h i s c h a p t e r , t h ec u r r e n tc h i n e s ei n f o r m a t i o np r o c e s s i n gi na u t o m a t i cw o r ds e g m e n t a t i o n a n da u t o m a t i cl a b e l i n ga st h em e t h o du s e dt oa n a l y z e c h a p t e r3i s 、i m t h ep r e f i x ”l a o ”a n a l y s i so fd e r i v a t i v ew o r dr e c o g n i t i o n t h i s c h a p t e rw eh a v ea d o p t e dt h ea n a l y s i sa n ds t a t i s t i c so ft h ec o r p u sw e r eo b t a i n e dw i t h m o r p h e t l l e ”l a o d u a l s y l l a b l eo rm u l t i - s y l l a b l ev o c a b u l a r yw o r d s c h a p t e r4i sw i t ht h ep r e f i x ”a ”a n a l y s i so fd e r i v a t i v ew o r dr e c o g n i t i o n t h i s c h a p t e rw eh a v ea d o p t e dt h ea n a l y s i sa n ds t a t i s t i c so f t h ec o r p u sw e r eo b t a i n e dw i t h m o r p h e m e ”a ”d o u b l e - s y l l a b l eo rm u l t i s y l l a b l ev o c a b u l a r yw o r d s c h a p t e r5i sw i t hap r e f i xo f ”x i a o ”a n a l y s i so fd e r i v a t i v ew o r dr e c o g n i t i o n t h i s c h a p t e rw eh a v ea d o p t e dt h ea n a l y s i sa n ds t a t i s t i c so ft h ec o r p u sw e r eo b t a i n e dw i t h m o r p h e m e x i a o t w o s y l l a b l eo rm u l t i - s y l l a b l ev o c a b u l a r yw o r d s 。c h a p t e r6i s a u t o m a t i ci d e n t i f i c a t i o na l g o r i t h md e s i g n t h i sc h a p t e r , w ew i l l s u m m a r i z et h ep r e v i o u sc h a p t e r so fr e s e a r c ha n du l t i m a t e l yf i n dt h et y p i c a lp r e f i x i d e n t i f i c a t i o ns t r a t e g ya n dd r a wt h ef l o w c h a r t a n de x p l a i nt h ei n a d e q u a c i e so ft h i s a r t i c l ea n dt oi d e n t i f ya r e a sf o rf u r t h e rr e s e a r c h k e yw o r d s :q a o ” “a x i a o a u t o m a t i ci d e n t i f i c a t i o n 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名榭日期: 卅钆r y 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 储繇梅侮燧名触:卅哨- 讥 上海师范大学硕士学位论文第一章 第一章绪论 1 1 选题的意义 本文主要研究现代汉语前缀的自动识别问题。 词缀是现代汉语中一个重要的语法现象。词缀古已有之,最早可以追溯到诗 经。随着语言的不断变化发展,有些词缀已经消失了,但语言的不断虚化也带 来了一些新的词缀。这些词缀在汉语发展过程中发挥过巨大的作用,在现代汉语 的语法体系中也不可或缺的存在着。前缀的研究不管是对现代汉语历时还是共时 的研究都起着很重要的作用,因此,有不少语法学家都对前缀从各个方面做了深 入的研究。吕叔湘( 1 9 7 9 ) 、王力( 1 9 8 0 ) 、朱德熙( 2 0 0 5 ) 、储泽祥( 2 0 0 3 ) 等 语法学家已研究出了丰硕的成果。但是,词缀作为现代汉语中“最小而争议最大 的语法单位 ,从术语的界定到一个个具体的词缀的分析,都存在着众多的认 识分歧,语法学界对于词缀的争论从来没有停止过,对于现代汉语里到底有几个 词缀,到现在还没有一个统一的说法。因此,在本体上这就是一个很值得探讨的 问题,从根本上弄清楚词缀的性质及特点,并找出符合意义的前缀,这是本文首 先要做的。 中文信息处理主要包括自动分词、词性标注、句法分析、语义分析等几个部 分。经过几十年的发展,中文信息处理技术已经越来越成熟,自动分词和词性标 注方面都有了很大的进展。但是由于计算机对自然语言的处理还不够完善,以及 本体研究的不够深入,导致很多问题都没有研究清楚,因此在自动分词的准确率 上还没有完全达到人们的要求。我们用中科院词法分析系统随机对我们的语料进 行了分词,发现分词系统在对前缀的分词和标注时都出现了很多错误,分词率远 远达不到我们的要求。为了提高前缀的分词准确率,我们有必要对这一问题进行 深入的研究。我们准备在分析本体的基础上,找出识别规则,得出识别算法,最 终达到我们需要的效果。 朱亚军,田宇2 0 0 0 现代汉语词缀的性质及其分类研究,学术交流 第一章 上海师范大学硕士学位论文 1 2 1词缀的文献综述 1 2 研究现状综述 关于词缀前人已有很多的研究,并已取得了较大的成果。虽然大家研究的角 度不尽相同,但是大致上我们可以把前人的研究分为词缀的整体研究和具体词缀 的单独研究。词缀的整体研究主要是研究词缀的性质特征,具体词缀研究主要是 对个别词缀的特征进行分析。 1 2 1 1 词缀的性质研究 现代汉语语法单位中,分歧最大的莫过于对词缀的认识。这是由于各家对词 缀的性质、特点的看法角度不同,因而从术语的界定到词缀的覆盖范围和划定标 准的看法也很难取得一致。因此,从根本上弄清楚词缀的性质及特点,给词缀一 合理的诠释,这在语法学界是一项很有意义的工作。所以,有相当多的语法学家 运用各种理论通过各种办法来研究分析词缀的性质,并取得了相当大的成果。 郭作飞( 2 0 0 4 ) 认为观察汉语词缀历时演化的原因、演化的一般过程,揭示 其演化的一般规律,可以从根本上弄清楚词缀的性质及特点,给语言中这一颇多 争议的语法现象一个较为合理的诠释,他通过这一方法指出汉语词缀在历史演进 过程中会受到句法、语义、语用等多方面原因的影响,在经过了一个实词虚化的 过程后形成的词缀具有的一般规律性,即都经过了一个实词虚化的过程,形成后 的词缀具有位置固定、标记词性、结构紧密、语音弱化、呈封闭式发展等特征, 并在汉语历史发展过程中对大量新词的产生作出了特殊贡献。 杨锡彭( 2 0 0 3 ) 从意义虚实、定位与不定位、标示词性的作用等三个方面讨 论了汉语词根与词缀的区分标准。他指出汉语以音节作为构词的基本形式单位, 因此词的构造主要是有意义的音节与音节的组合,一个双音节词是否有意义虚化 的粘附性成分,是区分复合词与派生词的重要条件。其次,词缀作为构词形态, 应有标示词性的作用。位置是否固定也是确定词缀的重要标准。 董正存( 2 0 0 3 ) 从对新兴词缀的探讨中得出了判定词缀的几个原则:虚化 原则。意义虚化是成为词缀的基础,词缀应是词汇意义高度虚化的语言成分,只 起构词的语法作用。专化原则。词缀应具有以固定的位置与其他成分组合并能 2 上海师范大学硕士学位论文 第一章 专门表示某一类语法意义的特点,即词缀必须在语法形式和语法意义上都是固定 的、专化的,这是词缀的主要特点。能产性原则。词缀应是组合能力强、运用 范围广、使用频率高的语言成分,这三个特点规定了词缀必然具有很高的能产性。 语音弱化原则。语义的虚化往往会引起语音形式的弱化,就汉语的后缀而言, 语音弱化是普遍形式特征,所以语音弱化可以作为判定一个语言单位是不是典型 后缀的一个形式依据。 朱宏一( 2 0 0 4 ) 在对词缀的判定中对比分析了几位语法学家关于词缀的定义 以及范围,得出了以下几个特点:它是附加式复合词的构词成分。它是不成 词黏着性构词成分。它是定位性构词成分,而不是自由的不定位构词成分。 它的词汇意义已经虚化。它一般具有较强的构词能力。它一般具有标示词性 的作用。后缀一般都读轻声( 前缀不读轻声) 根据前人的研究,我们发现,语法学界在词缀的性质方面已经研究的相当成 熟了,基本上大家普遍认同的性质有意义虚化位置固定能产性语音弱化 具有黏着性。在性质确定的情况下我们就可以进一步判定哪些是词缀,哪些不 是词缀。因此,前人对词缀性质的研究在确定词缀分类、范围等方面都起到了非 常重要的作用,也为汉语的词缀化研究确定了基本的规则。 虽然前人对词缀的研究已经取得了很大的成果,但是也存在着一些问题。第 一,词缀的定义至今还没有一个统一的说法。下面是基本现代汉语教材给出的不 同的定义:胡裕树现代汉语( 1 9 8 1 ) 称:“词缀是附加部分,只表示某种附加 意义。 颜迈现代汉语( 1 9 9 6 ) 称:词缀是“意义比较空灵,只表示某种语 法意义的语素 。黄伯荣,廖序东现代汉语( 2 0 0 2 ) 称:“另有一类粘着语 素同别的语素组合成词时,位置是固定的,只表示一些附加的意义,又叫词缀。” 张斌新编现代汉语( 2 0 0 5 ) 称:“表示附加意义的语素,叫做词缀。 定义 的不同,也会影响到对词缀的认识。第二,虽然大家对词缀性质的认识基本相同, 但在具体操作中却很难把握,比如,在意义虚化上,究竟词缀的虚化到什么程度 这是一个很难把握的问题,每个人的认识不同也必然会导致对词缀的判定结果不 同。因此,如何更好的把握这些性质,怎么样在实际判定中找到一个合适的标准, 这也是应该继续探讨的问题。 综上所述,前人在对词缀的研究上已经取得了很大的成果,但仍然存在一些 问题,这些问题还是很有必要继续研究的。 。胡裕树1 9 8 1 现代汉语,上海:上海教育出版社 。颜迈1 9 9 6 现代汉语,四ij i l :g l l i l l 大学出版社 。黄伯荣,廖序东2 0 0 2 现代汉语,北京:高等教育出版社 。张斌主编2 0 0 5 ,北京:中华书局 8 上海师范大学硕士学位论文第一章 反、非、无、准。 现代汉语词典认定的前缀有:阿、老、有 赵元任认为典型的前缀有:阿、老、第、初 吕叔湘认定的前缀有:阿、第、初、老、小 任学良认定的前缀有:老、阿、小、可、第、初、巴、反、被、见、所、 而、非、不 马庆株认定的前缀有:阿、老、所、大( 前天) 、之、以、打、见 胡裕树认定的前缀有:第、阿、老 黄伯荣,廖序东在现代汉语中提到的前缀有:老、小、第、阿 张斌主编的新编现代汉语中认定的前缀有:老、阿、小 综合前人对词缀的研究,我们认定典型前缀包括:阿、老、小、第、初。 我们认定类前缀有:半、超、次、单、双、反、非、类、前、亚、准、多、 可、自、见、伪等。 1 4 2 识别对象的界定 由于前缀的数量太多,每个前缀的结构特点又不尽相同,我们不可能制定出 一个统一的规则对它们进行识别。而我们论文的篇幅又有限,所以也不可能每个 前缀都进行识别,所以我们只能挑选出几个前缀来进行识别的研究,那么究竟选 哪几个词缀来进行研究呢? 我们主要是考虑它们的使用频率和结构复杂程度。 在选择识别对象时,我们会考虑使用频率较高和复杂程度较高的前缀。一是 因为使用频率高和复杂程度高的词缀,研究过程中产生的问题也会较多,遇到的 难题也会比较多,识别起来会比较有意义。二是因为使用频率高和复杂程度高的 词缀前人的研究也会比较多,这对我们的识别也会有所帮助。 综合考虑这两点,我们排除了类前缀。因为典型前缀相较于类前缀出现的时 间更早,有的是从古时候发展过来的,因此在做为前缀使用时,频率要高于类前 缀很多,复杂性也要高于类前缀很多。经过我们的统计,典型前缀的使用频率均 在百分之一以上,而类前缀的使用频率都不到干分之一。所以,我们决定将把典 型前缀做为我们的识别对象。那么是不是所以的都可以做为我们的识别对象呢, 我们认为有必要继续考察一下。 我们从语料中分别搜集到了含有“老 、“阿”、“小、“第”、“初 的句子, 然后排除掉不做前缀的情况,得出了下表: 9 第一章上海师范大学硕士学位论文 表一 前缀总句数前缀句数百分比 老 1 5 8 0 63 6 3 12 0 阿 1 0 2 7 91 6 11 5 小 3 2 9 0 81 4 9 44 5 第3 4 5 6 13 4 1 4 89 8 初 7 2 4 53 0 24 1 从上表中我们可以看出,在五个典型前缀中,使用频率最高的是“第”,其 次是“老”,然后是“小”和“初,最后是“阿”。单从使用频率来看,“第 应 该是识别对象的首选,但是我们考察了“第”做词缀的情况,发现过于简单。“第 做前缀的情况只有一种,就是在序数词前面表示次序。这样的结构太简单,现有 的分词软件已经可以进行分词,所以我们认为没有进一步研究的必要。 再看其它前缀,前缀“老 是所有前缀中结构最复杂的,也是被研究最多的。 我们在前缀研究的相关论文中,发现了大量研究前缀“老”的论文,语法界从前 缀“老”的虚化原因,历史发展到“老 的结构都做了一定的研究,前缀“老 是所有前缀中研究最多的,这些研究都可以为我们的识别提供一定的参考。我们 又对语料中“老做前缀的情况进行了分析,发现比较复杂,很值得我们探讨。 所以我们确定“老”做为我们的第一个识别对象。 “小和“初 的使用频率差不多,但是“初”和“第”的情况一样,做 前缀时只能在数词一到十前表时间,情况也过于简单,因此,不予研究。而“小 的情况就要复杂得多了,因此,我们在这二者之间选择了“小”做为我们的第二 个识别对象。 前缀“阿”虽然使用频率在五个典型前缀里是最低的,但是它的复杂程度要 远远高于“第和“初”,有进一步研究的必要,所以我们选择“阿”做为我们 的第三个识别对象。 类前缀虽然使用频率不高,但是随着汉语词缀化研究的越来越多,对类前缀 的识别研究也越发显得有意义了,但是由于我们的篇幅有限,我们只能在以后的 研究中对这一问题进行探讨了。 l o 上海师范大学硕士学位论文 第一章 1 4 3 典型前缀的结构特征分析 因为我们的识别对象没有“第”和“初”,所以在这一节我们将从整体上探 讨典型前缀“老 、“小 和“阿”结构特征的异同,不再对“第”和“初”进行 说明。 我们分别对“老”、“小”和“阿”做前缀的语料进行了分析,发现它们在结 构上有一些相同的特征: l 、大多数情况和名词一起构词。如: 老:老师、老妈 ,j 、:d 、鸟、卅、狗 阿:阿姨、阿明 2 、都可以和表示亲属关系的名词一起构词,一般是对朋友、亲人、熟人的 称呼。如: 老:老公、老爸、老兄 小:小姑子、小媳妇 阿:阿妈、阿爸、阿婆 3 、典型前缀在构词时构词长度不像后缀那么长,一般是二字,最长也只有 三字。如: 老:老百姓、老大难 d 、:刁、姑娘、d 、伙子 4 、都可以加在姓或名前面来表示称呼。如: 老:老张、老李、老王 d 、:d 、张、j 、李、d 、王 阿:阿甘、阿炳、阿威 5 、“老”和“小”还可以用在表示动植物的名词前。如: 老:老虎、老鼠、老鹰 d 、:d 、鸟、d 、麦、d 、狗 这一节我们只是简要地介绍了一下典型前缀的结构特征,我们的语料中它们 的结构特征要复杂得多,除了各自还有一些非常不一样的特征以外,就是上面所 说的相同点在具体语境中也有很多不同的情况,这些我们在下面的章节中都会分 别对它们的特征进行详细的阐述。 第二章上海师范大学硕士学位论文 第二章识别总体思路分析 2 - 1 识别策略 我们已经确定了把前缀“老 、“阿”和“小”作为本文的识别对象,基于这 三个前缀派生词特别不尽相同,因此我们不可能用相同的规则对它们进行识别。 所以我们将在下面的文章中对这三个前缀的派生词进行分别的识别研究,得出它 们各自的识别方法,并最终统一于一个大的识别体系中,完成我们的识别研究。 中文信息处理主要包括自动分词、词性标注、句法分析、语义分析等几个部 分。其中自动分词和词性标注是中文信息处理的基础,也是最重要的环节。自动 分词是指把没有明显分界标志的字串自动切分为词串,包括标点符号、数字、数 学符号、各种标记、人名、地名、机构名等未登录词的识别。自动分词是现代汉 语句法分析器的一项基础性工作,是进行句法分析的第一步,是后续语法和语义 分析的基础。汉语的词是汉语语言中最小的独立运用单位,因为计算机从事句法 分析所凭借的语法知识是机器词典和句法规则库,机器词典收录了每个词条的词 法、句法和语义知识,而句法规则库是以词、词类、语义等知识为基础构造的。 网l 一往常的湄宝幺日附的訇早,淋骊靠诽行钵词 t h 台匕剁田加璺垦词血和挪刚庵托岫 一v ,纠一 , 一7 u o _ ,7 i i u i - , ij - 、- , 一 才有可能进行进一步的句法分析。在应用研究领域,没有准确高效的分词策略, 汉语的进一步分析必将受到严重的影响。因此,在任何中文信息研究中,自动分 词的研究都是必不可少的,而且分词的研究效果也必然影响到整体研究结果,所 以必须保证分词的准确率才能得到最好的研究成果。 词性标注是指判定给定句子中每个词的语法范畴,确定其词性并加以标注的 过程。词性标注对于当今自然语言的计算机处理形势有多种意义。词性标注的研 究为更高层次的自然语言文本加工提供素材;词性标注的研究为语言学的研究提 供详实的材料;词性标注的研究可从加工过的文本中获取词类及频度的词性标注 知识。词性标注的目的是为了句法分析,它是句法分析必不可少的环节。没有进 行科学标注的语料,无法适应大规模真实文本处理的需要。语料库的价值取决于 标注的深度与准确度,对语料库中的词语进行词性的标注,我们就可以在识别中 准确的得到我们所需要的丰富的语法信息。 我们对于带前缀的派生词的识别分析就是基于对它们的自动分词和词性标 注的研究。只有将自动分词和词性标注研究清楚了,才能把自动分词和词性标注 1 2 上海师范大学硕士学位论文第二章 的准确率提到最高,才能达到自动识别的最终要求。因此,我们在接下来的三章 中将分别研究带前缀“老 、“阿”、“小 的派生词的自动分词和词性标注的方法 和规则,并从中得出派生词的识别规则,最终得出识别总规则。下面我们将分别 对自动分词和词性标注的研究思路进行分析,为接下来的识别研究找出方法和思 路。 2 2 1自动分词的方法 2 2 自动分词思路分析 目前,自动分词根据所使用的知识资源可分为基于规则的方法,基于统计的 方法和基于规则和统计相结合的方法。根据有无词典可分为有词典分词和无词典 分词,在有无词典方面大部分研究采用的都是有词典分词。 基于规则的方法是基于字符串匹配的原理进行分词,往往以足够大的词表为 依据,采用一定的处理策略将汉语文本的字符串与词表中的词逐一匹配,如若成 功,就认为该字串为词。采用这样的方法一般都需要事先有人建立好的分词词典 和分词规则库,因此,如果分词词典规模小,将会影响分词的准确率。基于规则 方法的匹配原则主要包括正向最大匹配法、逆向最大匹配法、双向匹配法、逐词 遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法。 基于统计的方法是指利用字与字间、词于词间的同现频率作为分词的依据。 可以没有建立好的分词词典。这种方法需要大规模的训练文本,用来训练模型参 数。这种方法的好处在于它不受应用领域的限制,但训练文本的选择将影响分词 结果。 本文采用的是基于统计和规则相结合的方法,这种方法的好处是结合两种分 词方法的有利的方面,避免不利的方面,最大程度的减少分词错误。并采取正向 最大匹配法和逆向最大匹配法的双向扫描识别歧义字段。 2 2 2 汉语切分歧义 汉语切分会产生歧义,歧义字段在中文文本中是普遍存在的,是不可避免的 现象,也是自动分词中一个比较棘手的问题。对歧义切分字段的处理能力,严重 影响到汉语自动分词系统的精度。切分歧义包括交集型歧义切分字段和组合型歧 1 3 第二章 上海师范大学硕士学位论文 义切分字段两种。 l 、交集型歧义:如果字符串a b c 既可切分成a b c ,又可切分成a b c ,其中 a ,a b ,b c ,c 是词,例如: ( 1 ) “红毛衣”可切分为“红毛衣”,也可切分为“红毛衣 ( 2 ) “研究生命 可以切分为“研究生命”,也可切分为“研究生命”。 2 、组合型歧义:如果a b 为词,而a 和b 在句子中又可单独成词,例如: ( 3 ) 生物学起来很难。( 切分为:生物学起来很难。) 生物学是一门学科。( 切分为:生物学是一门学科。) ( 4 ) 她骑在马上。( 切分为:她骑在马上。) 马上就来。( 切分为:马上就来。) 3 、混合型歧义:由交集型歧义和组合型歧义自身嵌套或者两者交叉组合而 成的,例如: ( 5 ) 她们学会了解决问题的办法。 她还不了解答题的方法。 她学会了解方程式。 她们都了解我。 “了解答”是交集型歧义,“了解”是组合型歧义。 ( 6 ) 这篇文章写得太平淡了。 这墙抹得太平了。 即使太平时期也不能放松警惕。 “太平淡 是交集型歧义,“太平”是组合型歧义。 歧义切分是分词阶段最困难的问题,但是也是必须要解决的问题,只有正确 处理歧义字段,才能准确的进行自动分词。对歧义字段的处理,首先要在扫描中 发现歧义字段。现阶段中文信息处理一般采用正向最大匹配和逆向最大匹配的方 法来发现交集型歧义字段,采用正向最大匹配和逆向最小匹配,并且最小匹配从 单字词开始的方法发现组合型歧义字段。 正向最大匹配法( 简称删方法) 是指在机器中存有一个已知词表,从被切 分的语料中顺序截取一个定长的字符串( 通常6 8 个汉字) ,与底表中的词进行 匹配,如果能匹配上,即切分出一个词;如果底表没收这个词,就匹配不上,那 么就从串尾去掉一个字,继续匹配,若匹配不上,在依次去掉末尾的字,直到匹 配上后,再开始另一轮循环。 逆向最大匹配法( 简称o m m 法) ,其分词过程与正向最大匹配法相同,但从 句子的开头开始处理,每次匹配不成功,就去掉最前面的一个汉字。例如: 1 4 上海师范大学硕士学位论文 第二章 ( 7 ) 妈妈给她打了一件红毛衣。 正向最大匹配:妈妈给她打了一件红毛衣。 逆向最大匹配:妈妈给她打了一件红毛衣。 由此发现交集型歧义:“红毛衣”。 ( 8 ) 他马上就要回家了。 逆向最小匹配:他马上就回家了。 正向最大匹配:他马上就回家了。 由此发现组合型歧义:“马上 。 发现所有歧义字段后,分析处理提出歧义字段的消解规则。 2 2 3 分词规则描写的相关概念 上一节我们讲述了消解歧义字段的方法就是要找到消解规则,为了方便规则 的描写,我们在描写规则中所用到的一些概念都将参考任海波博士的博士学位论 文基于语料库的现代汉语短语自动切分规则研究。 2 2 3 1 变量表示法 我们对经常使用的一些变量名进行了定义,a b w ,a a w ,x w ,老,y w ,b a w , b b w ,这六个变量表示“老”的前三个词和后三个词。a b i ,从i ,x i ,i ,y i ,b a i , b b i ,这七个变量分别表示上面七个词的词性。其它不常见的变量将在出现时进 行说明。 2 2 3 2 关系表达式 在规则描述中,我们用 的三元组来进行 关系表达,常用的表达式有: ( a ) x i = “1 1 ,y 工= “v , ( b ) b a w = “师”i “李” ( c ) i = “” ( d ) 老,x w 一老x w ( e ) 老,y w 一老,y w 表达式( a ) 表示“老 前面的一个词( x w ) 的词性( x i ) 是名词,并且后 1 5 第二章上海师范大学硕士学位论文 一个词( y w ) 的词性( y i ) 是动词。表达式( b ) 表示“老”后面的第二个词( b a w ) 是“师”或者是“李 。表达式( c ) 表示“老”后面没有词性标注。表达式( d ) 表示“老 和它前面的词( x w ) 组合成一个词。表达式( e ) 表示“老 和它后面 的词( y w ) 没有组合成一个词。 2 2 3 3 条件表达式 i f at h e n 如果 a 那么 bb e l s e 不然 cc e n di f 结束 所描述的规则都有一个标号,例如:r 1 ,表示第一规则,r 2 ,表示第二规则。 符号“肛黟和“宰 来注释,注释的内容放在两个符号之间。 2 2 4 自动分词策略 自动分词总体可以分为两个步骤:1 、根据分词规范,建立机器词典。2 、根 据分词算法和机器词典,把字串切分成词串。 词典的建立是自动分词的基础,如果没有一个相对较大规模的词典,就无法 消除歧义字段,必将影响分词的准确性。所以,首先要对语料库进行人工统计和 分析,并结合权威的汉语词典,列出包含语素的双音节及多音节词表。有了词表 就可以根据上述的方法扫描出歧义字段,然后分析找出消除歧义字段的方法,并 最终利用词表和已得出的歧义规则完成自动分词。 第一步,通过语料库,利用人工标注和统计分析,分别得出包含语素“老”、 “阿气“小”的双音节及多音节词语,并且列出词表。 第二步,采用正向最大匹配法和逆向最大匹配法扫描发现交集型歧义,然后 采用正向最大匹配和逆向最小匹配,并且最小匹配从单字词开始的方法发现组合 型歧义字段。 第三步,查找混合型歧义,分析后得出三种歧义字段的消解规则。 第四步,利用词表和歧义消解规则进行自动分词。 1 6 上海师范大学硕士学位论文 第二章 2 3 词性标注思路分析 自动分词只是自动识别的第一步,进一步还要进行词性标注。词性自动标注 是词语信息处理的一个重要内容。 2 3 1 汉语词性自动标注的难点 由于汉语不像印欧语系那样可以直接从词的变化形态来判断词类,往往是越 常用的词,其兼类现象越严重。而且对于什么是词类以及词的兼类问题在汉语语 言学界目前也没有很好的解决,因此造成了词类标注的困难。如何解决兼类词的 问题,是汉语词性自动标注的关键。要判定兼类词的词性,只有通过上下文表现 出具体类别。所以词性标注的工作就是要让计算机根据不同的上下文来判断每个 词上下文中所表现的类别。 2 3 2 汉语词性自动标注的方法 词性标注目前有四种方法: 1 、基于规则的方法进行标注。首先利用词典对语料库进行静态标注,然后 利用规则消除歧义。 2 、基于统计的方法进行标注。首先对部分语料进行手工标注,然后对标注 语料进行统计,根据统计结果对新的语料进行标注。 3 、规则和统计相结合的方法进行标注。 4 、基于转换的错误驱动学习。 我们对前缀“老”、“阿”和“小”进行标注将采用统计和规则相结合的方法。 主要是先从语料库中抽取一定数目的例旬,对其进行统计分析,从中获得规则进 行消歧,然后利用上下文信息来排除多余词性,保留我们需要的做前缀的“老、 “阿”和“硝、”。 基于对自动分词和自动标注的思路分析,我们接下来就通过对语料库的分析 和统计,得出相关词表,找出消歧规则,完成自动识别。 1 7 第二章上海师范大学硕士学位论文 2 4 小结 本章我们主要是论述目前中文信息处理在自动分词和自动标注方面所采用 的方法,从而分析我们所要研究的自动分词和词性标注方面的思路,为下面几章 的研究打下基础。 上海师范大学硕士学位论文 第三章 第三章带前缀“老刀的派生词识别分析 3 1“老刀的自动分词分析 前文我们已经从整体上对现代汉语自动分词的方法和策略进行了论述。下面 我们就将根据已有的思路,对“老”的自动识别进行研究,从而得出“老”的自 动分词的算法设计。 3 1 1 含语素“老一的双音节及多音节词语词表 上文我们已经说过了,要想保证自动分词的进行,必须建立一个较大规模的 词表。词表的建立,又必须建立在大规模语料库的基础上。首先,我们从任海波 博士自建的作家文摘报生语料库中检索出所有包含“老”的句子,然后对这 些句子进行了统计分析,并结合现代汉语词典,得出了含语素“老 的双音节及 多音节词语词表( 见表二) ,然后对每个词的出现频率和出现次数进行了统计, 为下一步的分词奠定了基础。 表- - :含语素。老一的双音节及多音节词语词表 词语出现次数 老安4 老白 6 老伴 9 9 老本1 7 老边 2 老伯 6 老表 9 老柴 1 老成 l 老陈 1 7 老到 1 3 老弟 1 出现频率 0 0 0 0 2 5 0 0 0 0 3 8 0 0 0 6 2 6 0 0 0 1 0 0 0 0 1 3 0 0 0 0 3 8 0 0 0 0 6 7 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 1 0 0 0 0 8 6 0 0 0 0 0 6 词语 老爸 老板 老辈 老包 老病 老巢 老曾 老常 老旦 老大 老底 老董 出现次数 1 2 3 0 3 2 1 3 1 3 2 2 1 1 0 1 4 7 出现频率 0 0 0 0 7 6 0 0 2 0 0 0 0 1 3 0 0 0 0 8 6 0 0 0 0 0 6 0 0 0 0 2 0 0 0 0 1 3 0 0 0 0 1 3 0 0 0 0 0 6 0 0 0 6 4 0 0 0 0 2 5 0 0 0 0 4 4 1 9 第三章 上海师范大学硕士学位论文 老杜 老二 老方 老冯 老夫 老化 老高 老公 老郭 老何 老黑 老胡 老黄 老霍 老家 老姜 老将 老酒 老姐 老李 老练 老龄 老刘 老陆 老马 老迈 老孟 老莫 老年 老农 老婆 老濮 老气 0 0 0 0 0 6 0 0 0 0 3 8 0 0 0 0 2 0 0 0 0 0 6 0 0 0 0 1 3 0 0 0 5 5 7 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 2 0 0 0 1 2 0 0 0 0 0 6 0 0 0 0 6 0 0 0 0 3 8 0 0 0 0 0 6 0 。0 0 8 7 ; 0 0 0 0 2 0 0 1 2 0 0 0 0 2 0 0 0 0 8 8 0 0 0 0 9 0 0 0 0 9 o 0 2 0 0 0 1 1 4 0 0 0 0 3 0 0 0 1 0 0 0 0 2 0 0 0 0 1 3 0 0 0 0 0 6 0 0 5 0 0 0 2 3 0 0 0 1 5 8 0 0 0 0 1 3 0 0 0 0 1 3 老段 老范 老付 老傅 老汉 老话 老耿 老宫 老韩 老贺 老侯 老虎 老惠 老贾 老茧 老蒋 老境 老辣 老兄 老梁 老林 老路 茺芦 老罗 老毛 老帽 老闵 老慕 老娘 老牌 老蒲 老七 老区 0 0 0 2 0 0 0 0 5 0 0 0 0 0 6 0 0 0 0 0 6 0 0 1 2 0 0 0 2 5 0 0 0 0 5 0 0 0 0 7 0 0 0 1 5 8 0 0 0 0 1 3 0 0 0 0 3 0 0 0 4 5 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 5 0 0 0 0 0 6 0 0 0 0 1 3 0 0 0 0 2 0 0 0 1 7 0 0 0 0 4 4 0 0 0 1 0 0 0 3 1 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 7 6 0 0 0 0 2 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 3 0 0 0 2 9 0 0 0 0 0 6 0 0 0 0 1 3 0 0 2 7 乩8 1 1埔8 n 衢2 5 仡1 1 8 1 2 3盯7埔的l 1 挖3 1 1 5们l 2 锄 1 6 3 1 2 9 8 m 1 3 均 1 加6 1 m 3 3 m 坫 坫粥埝 5 埔3 2 1研盯筋2 2 上海师范大学硕士学位论文第三章 老乔 老人 老萨 老舍 老生 老式 老师 老手 老四 老孙 老套 老土 老窝 老屠 老外 老王 老吴 老伍 老肖 老乡 老邢 老兄 老徐 老严 老杨 老姚 老叶 老鹰 老幼 老俞 老章 老账 老周 1 1 5 4 0 1 5 2 7 1 7 9 2 2 9 7 7 5 2 1 1 3 2 1 6 1 5 1 2 8 2 2 7 3 8 2 8 1 6 6 1 6 8 1 6 1 2 0 0 0 0 0 6 0 0 9 7 0 0 0 0 0 6 0 0 0 3 0 0 0 0 4 4 0 0 0 1 0 0 6 0 0 0 0 6 7 0 0 0 0 4 4 0 0 0 0 4 4 0 0 0 0 3 0 0 0 0 1 3 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 2 0 0 0 1 0 0 0 0 9 0 0 0 0 0 6 0 0 0 0 1 3 0 0 0 5 0 0 0 0 1 3 0 0 0 0 4 4 0 0 0 0 2 0 0 0 0 5 0 0 0 1 8 0 0 0 0 0 6 0 0 0 0 3 8 0 0 0 0 3 8 0 0 0 1 0 0 0 0 5 0 0 0 0 0 6 0 0 0 0 3 8 0 0 0 0 7 6 老冉 老少 老三 老沈 老实 老是 老鼠 老天 老苏 老唐 老头 老翁 老小 老瓦 老汪 老温 老五 老武 老谢 老向 老熊 老朽 老许 老阎 老幺 老爷 老尹 老余 老妪 老张 老赵 老者 老朱 0 0 0 1 0 0 0 6 0 0 0 0 6 7 0 0 0 0 7 0 0 0 4 7 0 0 0 2 9 0 0 0 6 2 0 0 0 1 4 0 0 0 0 1 3 0 0 0 0 8 8 0 0 0 2 1 0 0 0 0 2 5 0 0 0 0 9 0 0 0 0 4 4 0 0 0 0 7 0 0 0 0 0 6 0 0 0 0 6 7 0 0 0 0 4 4 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 1 3 0 0 0 0 5 0 0 0 0 1 3 0 0 0 0 0 6 0 0 0 5 0 0 0 0 3 8 0 0 0 0 0 6 0 0 0 0 2 5 0 0 0 1 2 0 0 0 1 5 0 0 0 2 3 0 0 0 1 1 4 2 1 卯9 n弘伯鳃毖2 m弘4坫7 n 1 9 7 1 1 1 2 8 2 1 踟6 1 4 均孔卵博 第三童 圭塑塑蔓盔堂堡主堂垡笙塞 老子 老总 老家 父老 古老口,1 遗老 长老 老白干 老板娘 老本行 老姐妹 老大哥 老大娘 老大爷 老豆腐 老干部 老虎凳 老花镜 老黄历 老年斑 老前辈 老三届 老寿星 老太太 老头儿 老顽固 老爷子 老一代 老玉米 敬老院 米老鼠 生老病死 老当益壮 0 0 0 2 3 0 0 0 6 6 0 0 0 8 6 0 0 0 9 8 0 0 2 5 0 0 0 0 4 4 0 0 0 0 8 6 0 0 0 0 0 6 0 0 0 0 0 6 0 0 0 0 4 4 0 0 0 1 9 0 0 0 1 0 0 0 0 7 6 0 0 0 1 5 0 0 0 0 0 6 0 0 1 5 0 0 0 0 0 6 0 0 0 0 2 0 0 0 0 2 0 0 0 0 1 3 0 0 0 1 0 0 0 0 3 0 0 0 0 2 5 0 0 0 3 9 0 0 0 0 7 6 0 0 0 0 0 6 0 0 0 0 2 5 0 0 0 2 9 0 0 0 0 0 6 0 0 0 3 8 0 0 0 0 3 0 0 0 0 8 2 0 0 0 0 3 8 老粗 老农 苍老 孤老 衰老 元老 终老 老百姓 老半天 老姐姐 老大难 老大姐 老大妈 老掉牙 老夫子 老姑娘 老虎机 老花眼 老奶奶 老婆婆 老人家 老师傅 老太婆 老天爷 老头子 老爷爷 老一辈 老一套 养老院 老字号 百老汇 老成持重 老骥伏枥 1 4 3 6 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论