关于语义距离及其运算_第1页
关于语义距离及其运算_第2页
关于语义距离及其运算_第3页
关于语义距离及其运算_第4页
关于语义距离及其运算_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、论文3.2 关于语义距离及其计算“语义距离”这个概念试图对概念之间关联性的强弱给以定量表述。关联性的定量表述有“相关函数”或“相关系数”这样现成的术语。所以直接采用“概念相关函数”或“语义相关系数”之类的术语比较自然,“语义距离”这个术语的引入在理论上并无必要,不过是取其表述简明而已,实际上语义距离的计算就是计算概念之间的相关系数。不同概念之间的关联性有明显的强弱之分,这是毫无疑义的。但是如何量化和如何计算,则需要新的思路,不可能照搬信号处理中求相关函数的统计方法。统计方法的出发点是将待考察的系统视为“黑箱”,但语句不是“黑箱”,即使是语音识别系统的输出语音阵列,也只能说是一个“明暗相间、明为

2、主导”的箱子,弃“明”而不用,显然是不明智的。概念之间的关联性需要通过多重层面予以表达,有概念层面的关联性,有词汇层面的关联性,有语法层面的关联性,有语义块内部的关联性,有语义块之间的关联性。不同层面相关系数的量化和计算方法都应该有所不同。对这些不同侧面的辩识是进行语义距离计算的先决条件,以语句物理表示式为立足点的句类分析,是判断这些先决条件的强有力武器,在上一节针对十个例句作了示范性说明。这是语义距离计算的基本特点。相关函数是一个条件概率,语义距离的条件性更为突出,在某种意义上,条件的把握是计算语义距离的关键。下面将对条件进行具体的说明,上一节对十个例句的分析都是侧重对条件的阐述,从中可以看

3、到,句类知识是最基本的条件。当然,在某种情况下,对条件可以弱化。语法学所概括的词性约束规则:即形容词与名词、副词与动词和形容词、数词与量词的搭配规则就是明显的例子。这些搭配实际上是有条件的,但作为语法规则来陈述,可以不管条件。概念关联性或语义距离的概念,在某种意义上是对上述词性约束规则的扩展和深化。扩展表现在它力图表述语义块之间或语句要素之间的约束,深化表现在它力图尽可能给出条件。语句要素之间的约束就是1中所阐述的链式关联,这一知识分别从概念层面和词汇层面进行表达。前者的表述是概念关联性知识库的内容6,后者的表述是词语知识库的内容7。条件则通过句类知识、交式关联和“同行优先”三条途径来表述,后

4、两条实际上就是词性匹配的具体条件,第一条是运用链式关联知识的条件。从上面的说明可知,语义距离的计算首先要区分语义块之间两种情况。语义块内部语义距离的计算主要是运用:“同行优先”准则;概念关联性知识库中“交式关联”知识6;语义结构方程所给出的语义块构成知识7。p69语义块之间语义距离的计算主要是运用:概念关联性知识库中的基本句类知识和概念节点的链式关联知识;语义结构方程所给出的搭配知识。所谓“同行优先”准则,是对层次网络符号天然属性的一种简明陈述,正式的陈述是:同行的五元组概念及挂靠的(w,p)类概念优先相互搭配,在1中曾对此详加阐述。从应用的角度来看,这不过是用数字符号表达概念关联性的一个简单

5、技巧。在具体应用这一准则于语义距离计算时,要区分四种不同的搭配方式,因为每种搭配方式各有自己的约束准则。四种搭配方式是:修饰型搭配;补充型搭配;并合型搭配;对象内容型搭配。前三种是语义块内部的搭配,第四种则表现为语义块之间的搭配。下面就来对这四种搭配作较详细的说明。关于修饰型搭配修饰型搭配大体上相应于语法学的上述词性约束规则,“同行优先”准则不过是对此规则的运用条件给以表述。“衷心的祝福”、“衷心的石头”、“衷心的消息”都是形容词与名词搭配,但后者不合理。“衷心地希望”“衷心的诅咒”都是副词与动词的搭配,但后者不合理。把这些词汇映射成层次网络符号,通过语义距离计算,计算机不难得到“衷心的祝福”

6、“衷心地希望”语义距离最小的结论,不难作出“衷心的诅咒”绝对不合理的结论。同时,也不难得到“衷心的石头”“衷心的消息”不合理的结论。对修饰型搭配的语义距离计算,就是将两概念的层次符号从高往低逐层匹配,“相同得分,相异不计”,它类似于在极性重合相关处理时期对相关系数的简化计算。但计算前必须进行约束性检验,对修饰型搭配来说,需要作两项检验:一是词性及其顺序的检验,二是对偶性检验。两概念组合的合理性或合法性,可从关联性和排斥性两个角度进行考察。排斥性可视为反关联,相应于相关函数的负值。但在语义距离计算时,仅取正值,负值一律视为相斥。从这个意义上说,约束性检验就是互斥或正负检验。不满足约束条件,就意味

7、着互斥,表示两概念不能组合,这一结果对于解模糊或纠错处理最为实用。词性约束是常规的语法知识,无庸赘述。需要说明的只是它的两条顺序约束:一,gu类概念作为形容词使用时,在顺序上可前可后,但ug类概念优先于前;二,u及vu类概念作为副词使用时,在顺序上可前可后,但uv及uu类概念优先于前。参见存疑录上面例句10中的“日益恶化”就是一个典型的同行修饰搭配,“日益”就个uv类概念和“恶化”这个vg类概念满足词性约束条件,其相关系数等于1。对偶性约束指对偶性概念的正负双方不能互相修饰,此理不言自明。“衷心”与“诅咒”虽然高层层次符号同行,但前者不能修饰后者,因为它们违背了对偶性约束。“同行优先”准则有狭

8、义与广义之分,即本行与交式关联行之分1。在本行里又有0分行和非0分行之分,这就不来细说。广义“同行优先”准则的应用,目前就是将交式关联的级别指数6转换成相关系数,这时不是匹配层次符号,而是依据层次符号查询概念关联性知识库。这里的数值转换,类似于层p70选处理时从音节感知库的独立性指数换算单音词的位置置信度9。量词与表述对象的搭配也属于修饰型搭配,对这一搭配的语义距离计算可不作任何约束检验,而计算结果本身就是一种检验,因为两者必须狭义“同行”,相关系数应等于1。汉语量词之烦琐令人生畏,但由于现在赋予了“同行”特性,就理解处理来说,反而成了一笔意外的“财富”,可作为解模糊的一项手段参照语言漫议。关

9、于补充型搭配补充型搭配有两种类型,一是高层概念与低层概念的搭配,二是泛指概念与特指概念的搭配。第一类搭配又分两种情况,一是动词的高低搭配,二是名词的高低搭配。第一种情况仅出现在E语义块内部,是造成E语义块分离的原因之一2。这种高低搭配和分离现象不是概念表达的内在需要,而是语言表达的多样性和艺术性的需要。在一般情况,语言的这一特性只会带来理解处理的困难,但高低层概念的搭配则相反,它带来的是机遇。原因在于相互匹配的高低层概念必须满足“同行”的条件参照语言漫议。前节例句五中的“提出*抗议”就是高低层概念的“同行”搭配。如前文所述,对双音词“提出*”的解模糊处理就利用这了这一信息。名词的高低搭配是包含

10、性概念的特性,这种搭配也满足狭义“同行”条件。对高低搭配也需要进行顺序约束检验,顺序准则是:高层在前,低层在后。这一准则对动词似乎普遍适用,名词则不然,与语种有关,汉语遵循这一准则,而英语则相反。参照语言比较泛指与特指的在许多情况也属于“同行”,这是由于对泛指和特指的人或物均采用挂靠表示方式,两者的层次符号一样,从而也能对两者进行语义距离的计算。由于这个计算非常简单,并不是一项负担,而应视为灵敏性反应的一种手段。这里不妨用一个例子来说明这一点。假定输入语音流中出现了yue fei,则从词库中将找出“岳飞”这个词,如果该文本实际指的是原苏联物理学家“约飞”,计算机能觉察“岳飞”是一个伪词么?回答

11、是肯定的。“岳飞”的层次符号是pa4,而该文表述的内容应主要涉及a6。线索就在这里,语义距离的计算本身非常简单,但关键在于要运用专业活动的句类知识:专业活动aj的A要素优先于从事该项专业的人paj注:pa4为从事军事活动的人;a6为科技活动;aj和paj中的j改为t为宜,t约定为底层层次符号的变量表示,而j为基本概念类别标记。在一般情况这类判断需要很多的常识性知识,但这里是不是“岳飞”的判断,似乎可以绕过常识,仅从层次符号就能得到。当然,这样“绕过”的适用范围也许非常有限,但终究是有胜于无吧。对泛指与特指的语义距离计算,可暂不作顺序约束检验。汉语里数词与量词的搭配属于广义“同行”补充型搭配。顺

12、序约束条件是:数词在前,量词在后。但汉语的数词并非一定要与量词搭配,成语里的“五湖四海”“三令五申”“百孔千疮”“百炼成钢”都省略了量词,其中的数词都是虚用,表示“多”或“全”的意思。现代汉语的“五讲四美”“十大新闻”“三好学生”也省略了量词。关于数词的运用,需要建立一个专用的小知识库,特别是“一”字的语义语用知识。参见技术实现提示关于并合型搭配 并合型搭配之间通常加逻辑指示符,这样的指示符有四类,现将它们和相应的汉语和英p71语符号列表如下(表中顺便给出了“的”的另一义项):参见HNC符号实例集22符号汉字英语意义l41的 de偏正l41461的 des偏正h $ ug的 de词性转换l42

13、得 deof反偏正l43和同与及并跟and逻辑并l44或 huoor逻辑选前两种并合称为“修饰”并合,后三种并合称为“逻辑”并合。修饰并合与前述的修饰搭配不同,两者的差异在于“同行”性的有无,修饰搭配具有“同行”性,修饰并合不具有。参照概念比较集粹英语不仅对这两种组合方式在表达形式上给予了明确区分,对修饰并合的三种类型也加以区分,汉语则一律不加区分。仅用符号“的”表示它们的共性,而模糊它们的个性。对前两种修饰并合,曾有过用“的”和“底”加以区分的建议,但未得到广泛响应,说明这一模糊并不影响人的理解。参照语言比较从理解处理来看,对修饰并合和修饰搭配的语义距离计算,都需要进行对偶性检验和词性检验,

14、虽然词性检验的内容略有不同,但并不影响语义距离的计算。因此,汉语在这里的模糊表示似乎无损于理解处理,其实不然。问题在于两种情况的合理性阈值差异甚大,修饰搭配的阈值很高,而修饰并合的阈值很低,人在理解过程中能自动调节这一阈值,计算机很难做到这一点,因为这不仅涉及概念和词汇层面的知识,还涉及常识性知识。但是,理解处理的途径是阳关道与独木桥并存,解模糊处理更是如此,此路不通,可置之不理而另觅它径。在前一节的十个例句中,有五处以de标志的修饰组合,而且都是修饰并合,但需要利用并合前后概念关联性知识的只有第七句,这一句又恰好具有足够的关联性。当然,十个例句不能代替统计,汉语的这一模糊对理解处理造成的不利

15、影响需要利用语料库作深入的研究。参照待求证问题提示对于逻辑并合,需要进行类别符号的对仗性检验,即检验并合前后两概念的类别符号是否相同或相当。“相当”是模糊的说法,有待给出具体的规则,这是不难做到的。这一规则的制定也有赖于语料库的建设。汉语常省略逻辑并合标志,这一省略与修饰搭配符号的省略将模糊两类组合,由于这两类组合的约束准则不同,将影响到语义距离的计算,因此,必须先消除组合模糊,这确实是汉语理解处理的一项额外负担。参照语言漫议但是,像上述两类修饰模糊一样,对这一负担应采取灵活反应策略,因为许多情况可以置之不理。而在无此模糊时,从对仗性检验及语义距离计算结果常能取得消除模糊的关键性信息。关于对象

16、内容型搭配前面已经说明,对象内容型搭配是语义块之间的搭配。具体的说,就是E要素与B要素或C要素的搭配。这种搭配,一般说来,并不具有“同行”特性。但应该指出,上述修饰型和补充型搭配的天然“同行”特性乃来于概念层次网络符号的知识表示方式,没有这种表示p72方式,也就无所谓“同行”。层次网络符号由于在五元组中引入了r类概念,并对具体概念采用了挂靠为主的表示方式,使得对象内容型搭配大大增加了“同行”的机会。对象或内容“同行”显然是一个非常宝贵的信息,这一信息分别在概念和词汇层面予以明确的表达。前者用概念关联性知识库B、C栏目的第一项表示6,后者用语义结构方程“1-3”规则的k=7表示7。当然,对象和内容属于“同行”的情况,即使我们着意作了尽可能多的安排,仍然只是少数。对居于多数的不“同行”情况,采取三条途径提供关联信息。一是概念关联性知识库中的A、B、C、M、Pr、Rt栏目,二是词义表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论