基于Web检索的陕北民歌语料库设计_第1页
基于Web检索的陕北民歌语料库设计_第2页
基于Web检索的陕北民歌语料库设计_第3页
基于Web检索的陕北民歌语料库设计_第4页
基于Web检索的陕北民歌语料库设计_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Web检索的陕北民歌语料库设计摘要:运用语料库语言学的根本观点,讨论陕北民歌语料库构建原那么及eb管理系统的设计实现设计了陕北民歌aess语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共3个。介绍语料库的在线检索和管理功能,提出字词频统计功能和eb在线检索功能实现的方法,开发基于asp的陕北民歌开放性语料库eb管理系统,用户可以方便地通过ie阅读器进展语料检索、词频统计、语料提取等操作。关键词:语料库;陕北民歌;频度统计;eb检索中图分类号:tn911-34;tp311文献标识码:a文章编号:1004-373x(2021)22-0038-02designfflksn

2、grpusbasednebretrievalzhangtng-xuan(anageentffiefsuthapus,einanteaheruniversity,einan714000,hina)基金工程:渭南师范学院2021专项基金资助工程(10ykz055)语料库作为根底研究是近年来应用语言学研究的一个重要开展。建立陕北民歌语料库是一个浩大工程,也是陕北民歌研究获得新打破的根底工程。陕北民歌是特定的时代、特定地理环境中的特定产物,是陕北劳动人民抒发感情的最好手段。陕北民歌研究始于20世纪初,到20世纪80年代中后期,在各个方面的研究都获得了不少成绩1。不过,传统研究往往着眼于作品的人文及艺术

3、特征,研究者多半依靠自身良好的文化修养与“强闻博记,凭感悟直接把握作品的内涵,对作品的语言全貌进展横向或纵向的细密分析时,往往显得力不从心2。20世纪80年代以来,随着计算机应用技术的不断开展,以语料库为根底的研究在语言学和计算机科学研究中都获得了丰硕的成果。无论是在语言学研究,还是在自然语言处理领域,语料库都已经成为重要的根底资源,发挥了越来越重要的作用。1陕北民歌语料库设计1.1陕北民歌语料库建立原那么语料库通常指为语言研究搜集的、用电子形式保存的语言材料,由自然出现的书面语或口语样本聚集而成,用来代表特定语言或语言变体。通过语料库可以观察和把握语言事实,分析和研究语言系统规律。语料库已经

4、成为语言学理论研究和语言工程不可缺少的根底资源,对它的研究已开展成为一个跨世纪、跨学科的语言研究学科。陕北民歌语料库是“专用性语料库(speializedrpus),是为陕北民歌研究效劳的。在语料样本的选择上,力求反映陕北民歌语言的真实相貌,以采集到的民歌原始文本作为样本。单个语料样本的大小是由原始文本的篇幅决定的,篇幅较小的原始样本单独成篇,作为一个样本,篇幅较大的(如陕北说书、陕北道情等)那么切分成大小相当的片断,每个片断作为一个样本。这样的语料样本提供的上下文语境更为广泛,更加合适进展语篇研究。在语料的代表性上,一是保持口语语料与书面语料的平衡,如实反映陕北民歌的根本相貌,语料库以民间采

5、集的口语文本为主,同时兼顾各种已经汇编出版的陕北民歌著作;二是保持方言语料与普通话语料的平衡,以采集当地原生态民歌(特别是采集年龄大、没有承受过文化教育的老年人唱的土歌)为主,适当采集一些专业歌手的新陕北民歌。1.2陕北民歌语料数据库设计陕北民歌语料库中样本没有进展语言属性标注,建立的语料库是“生语料库。根据研究者对语料库的检索要求,该语料库设计研制了3个数据表,一是全文语料库数据表,即每个语料库样本作为一条数据记录存放在数据表中,以提供全文语境,方便于语篇的研究。检索项包括篇章标题、作者、演唱者、流传地区、体裁形式、内容分类以及篇章全文;二是将全文样本切分成句子,然后将每个句子当1条数据记录

6、存放在数据表中,目的是进展句子单位的语言研究,可以实现词语搭配、例句提娶句型检索等;三是陕北民歌词表数据表,此表是基于统计抽词并结合刘育林编著的?陕北方言词典?3、张崇编著的?陕西方言词聚集?4等文献典籍进展补充建立的,词库有2个主要字段:1个是词条,1个是词条使用频度(该字段初始值为0,用来存放词频统计结果)。2陕北民歌语料库语料的加工语料库的功能主要与3个因素有关,一是语料库的规模;二是语料的分布;三是语料的加工程度。语料的加工主要指文本格式处理和文本描绘,而语料加工的深度决定了这个语料库能为使用者提供什么样的语言学信息。没有篇体描绘信息的语料叫做生语料,经过词语切分、词性标注处理的语料可

7、以获得更多的语言学信息。陕北民歌语料数据库共包括陕北民歌2000余首,通过以词语为单位的切分和标注词性加工成熟语料。陕北民歌词切分标注的根本加工标准是从词义的整体性、词构造的整体性和定型性、详细的语言环境等标准和参考?陕北方言词典?、?陕西方言词聚集?等工具书来确定的,同时从合适计算机处理的角度出发,把词按词性分类修订为13大类:名词n,动词v,形容词a,数词,量词q,代词r,副词d,介词p,连词,助词u,叹词e,语气词y,拟声词。名词类可以分为时间词t,方位词f,人名nr和地名ns;按构造分为12大类:名词性并列构造n、动词性并列构造v、形容词性并列构造a、动宾构造v、动补构造v、主谓构造s

8、p、名词性偏正构造xn、动词性偏正构造xv、形容词性偏正构造xa、方位构造nf、数量构造q、介宾构造p。为了得到高精度的加工结果,有效的方法是首先由机器进展初步切分,然后由人工进展校对。加工工程包括“词切分和“词性标注。例如对生语料?半夜里来了你这勾命的鬼?的切分和标注结果如下:骑上/v那个/r毛驴/n哟/y狗/n咬/v腿/n,/半夜里/t来/v了/u你/r这/r勾/v命/n的/u鬼/n。/搂住/v那个/r亲人/n哟/e亲上个嘴/v,/肚子/n里/f的/u疙瘩/n化/k成/v了/u水/n。/3陕北民歌语料库的eb管理系统设计有语料库查看和语料库管理两大功能。语料库是开放的,所以任何用户都可以通

9、过eb在线进展查看,可以实现语料阅读、语料检索、词频统计功能。语料库管理是通过受权用户进展管理,可以进展语料和词表的添加、编辑、删除等。3.1字词频统计功能的实现字词频度统计是对全文数据记录样本文档内容进展字词频度统计,并分析统计结果。字频统计是对多个汉字使用频度的统计,实现方法是先获得全文样本数据表里面存放的全部汉字字符串,然后依次取出1个汉字,根据汉字的内码值和类型,将其内码转化为一维线性地址,该一维线性地址对应一个数组的下标,把对应数组项值加1,做累计操作,最后记录这个汉字串的特征信息,并保存统计结果。词频统计是对2个或2个以上汉字组成的词的使用频度进展统计。实现方法是先获得全文数据表里

10、存放的汉字串,按最长优先匹配算法将汉字串进展自动切分成词,词的切分是基于词表数据表这个根本词库,做累计操作,最后记录特征信息5。3.2eb在线检索功能的实现该语料库管理系统采用b/s构造,数据库采用aess,检索程序采用asp语言编写。检索功能利用sql语句支持的“like与“%结合使用的匹配方式,限定包含指定关键字的匹配条件。在数据库查询设计中采用了ad2.0中rerdset记录集对象封装的getstring方法,进步数据库查询效率,即把输出的全部结果放在一个很长的字符串里,效劳器只需解释一遍respnse.rite语句6。通过replaeith语句即可实现检索字符串的高亮显示。该系统实现了全文模糊检索、检索结果分页显示及语料提取和词频统计。检索字符串可以是简体汉字的任意字符串,符合检索条件的语料样本均可分面显示出来。显示检索结果时,检索关键字红色高亮显示,以便快速找到关键词在语料中的位置。进展句子语料数据库检索时,显示结果进展“关键字居中。所有检索结果允许复制或保存。4结语构建基于文学研究的陕北民歌语料库及eb管理系统,为陕北民歌的搜集整理、理论研究、开发利用提供了新的手段,翻开新的领域,将为全国乃至全世界陕北民歌、语言文化研究者提供丰富、有价值的第一手资料,为保护和抢救陕北民歌这一人类文化瑰宝,抢救性地开掘这一逐渐消失的文化中的活化石,加强陕西的对外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论