IR、NLP入门指南_第1页
IR、NLP入门指南_第2页
IR、NLP入门指南_第3页
IR、NLP入门指南_第4页
IR、NLP入门指南_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IR、NLP入门指南 苏绥(信息检索实验室) 自然语言处理(Natural Language Processing,NLP )技术是信息检索的基础,它 大致可以分为以下四个步骤: 1)文本预处理 如网页正文信息提取、去噪等。 2)句法分析 如中文分词、词性标注等。 3)语法分析 分析句子的句法结构,如一个句子中的主谓结构、动宾结构等语法成分,常 用依存文法分析器就是一个语法分析工具。 4)语义分析 这步在语法分析的基础上,理解句子所蕴含的意思。 一般信息检索系统中只涉及前两个步骤,即预处理及句法分析。总的来说, 上述四个步骤层层推进,对语言的理解也越来越深,且前一步骤是进行后续处理 的基础,如

2、语法分析一般在句法分析的基础上进行,句法分析的输入(分词以后 的词序列)是语法分析的输入。 在信息检索过程中涉及到以下 NLP技术: 1)去噪 检索任务通常面对的是网页文档,而一般网页中都会包含大量的标签 (Tag)、导航信息等无用内容。我们关注的仅仅是网页的正文信息,即表达 网页主题的那部分内容,其他都视为噪音。当然,对于不同的应用来说,对 “噪音”的定义可能不尽相同。去噪的目的就是提取过滤掉网页那些无用的 噪音信息,而仅留下正文信息供进一步处理。 2)去除停用词(Stop WordS 所谓“停用词”,一般指出现频率很高且没有实际意义的虚词,如汉中的 “的”、“啊”等词,英语的“ a”、“o

3、f”等词,这些词在文档中出现的频率很 高,但没有实际语法语义,对检索没有多大的用处,因为一般可以过滤掉。 3)形态分析(词干化、形态还原等) 这一步主要是针对英文来说的。英文中的词根通常会衍生出很多词, 如词 根“stop”经变化可以衍生出“ stopped、“stopping”等不同的形式。在信息 检索中,一般需要将不同变化的还原成其原始的形式 (如上例中将“stopped 还原成“ stop”),这一过程称之为词干化。 4)特征选择 检索系统面对往往是海量文本,其中包含的词可能成千上万,如果将所 有词都建立索引,不仅会占用很大的存储空间,而且会降低检索的速度。 此外,文本中有很多词对于表达

4、文档的正文没有多大帮助,因此我们可以 从中提取一些有代表性的词建立索引, 而将其余的词忽略掉,这个过程其 实就是特征选择的过程。特征选择的目的降低词空间的维度(文档集合中 出现的每个Unique Term占据一维),也即降维过程。 5)中文分词 这个过程只针对中文信息处理。对于汉语句子“他从马上下来”来说, 很明显其想表达的语义是“他从马上 下来”,但机器如何能准确切分 出来呢?这便是中文分词需要解决的问题。 6)词性标注 词性标注是在分词的基础上,自动识别出每个词的词性(如代词、名词、 数词等),如上例中,“他”是代词,“从”是副词,“下来”是动词。 7)短语识别 语言中有很多固定搭配的词,

5、它们通常表达某一个确定的意思,如 “Information Retrieval”,如何识别出句子中这种具有固定搭配的短语也是 NLP中的难点。 当然NLP中还包括很多其他的内容,如组块分析(Chun ki ng )、分类 (Classification)、聚类(Clustering),但上面的7个步骤是最基本、最常用,几 乎所有的NLP应用中都会涉及到其中的某些步骤,因而掌握这些基本知识是进 行深入的NLP处理的前提。 NOTE:掌握上述7个步骤至关重要。 国内比较好的相关期刊: 1、三大学报 a)软件学报(A类,EI) b)计算机学报(A类,EI) c)计算机研究与发展(A类,EI) 2、

6、中文信息学报(核心,B类) 3、模型识别与人工智能(核心,B类,EI) 4、情报学报(核心) 国内相关会议: a)全国搜索引擎与网上信息挖掘学术研讨会(SEWM) b)全国信息检索学术会议(CCIR) c)中国计算语言学学术会议(CNCCL) 英文期刊: 1、ACM Transaction a)ACM Tran sacti ons on In formatio n Systems TOIS) b)ACM Tran sacti ons on Asia n Lan guage In formati on Process in gl(ALIP): c)ACM Tran sacti ons on Kn

7、o wledge Discovery from Data (TKDD) 2、IEEE Transaction a)IEEE Tran sact ions on Kno wledge and Data Engin eeri ng 3、其他 a)Computati onal Lin guistics and Chin ese Lan guage Process ing b)Journal of Mach ine Lear ning Research c)Jour nal of Artificial In tellige nee Research 英文会议: 1、IR、NLP相关顶级会议 a) AC

8、M Special In terest Group on In formation Retrieval (SIGIR) b) ACM Conference on Information and Knowledge Management(CIKM ) c) Annual Meeting of the Association for Computational Linguistics (ACL) d) In ternatio nal World Wide Web Co nference (WWW) 2、机器学习相关顶级会议 a) International Conference on Machin

9、e Learning (ICML ) b) The Neural In formatio n Process ing Systems (NIPS) c) Association for the Advancement of Artificial Intelligenee (AAAI ) 3、其他 a) International Conference on Data Engineering( ICDM ) b) International Conference on Computational Linguistics (COLING ) c) Europea n Conference on I

10、n formatio n Retrieva(ECIR) NOTE:用红色标注的期刊、会议与IR、NLP领域更加相关。 学习方法: 对于一个新的领域或方向,首先下载一些比较简单且具有代表性(一般通过 期刊、会议的水平来过滤)的文章来阅读,熟悉该领域中惯用的术语及涉及到的 技术,然后用相关的英文关键词在 Google等检索系统中查找相关的英文文献, 也可以通过中文文献中所引用的文章进行查找。在ACM数据中,给出了每篇文 章的引用数(Citation Count ),可以通过这个指标来衡量文章的经典程度。 在对这领域有了深入的了解之后,可以有选择性地跟踪该领域几个顶级的会 议、期刊的文章,了解该目前

11、该领域中别人都在关注哪方面。当然,也可以跟踪 该领域公认的研究大牛(Authorities)的研究方向,这对把握该方向的研究趋势 很有帮助。 NOTE:查找文献是非常重要的一个技能,只有自己先学会了检索(Search)的 基本技能,才有可能让机器帮助人们进行自动的信息检索(IR )。 阅读书籍: a) Introduction to Information Retrieval. Cambridge b) 大规模中文文本处理,吴立德 c) 搜索引擎一原理、技术与系统,李晓明 d) 统计自然语言处理基础 NOTE:根据自身情况,可以有选择性地选择其中一本或多本阅读,在理解的基 础上进行阅读。 相关

12、讲义、课件: a) 信息检索、统计自然语言处理,刘挺,哈工大课件 b) 计算语言学概论,詹卫东,北大讲义 c) 自然语言理解,宗成庆,中科院讲义 现将阅读重点简单罗列一下: a) IR、NLP领域的基本术语、概念、原理等。 b) 一个完整检索系统的详细流程,最好了解到实现层面,清楚各个模块包 含哪些处理步骤,每一步中都可以有哪些实现方法。 c) 3个经典检索模型 1) Boolean Model 2) Vector Space Model 3) Probabilistic Model Probabilistic Model刚开始阅读的时候可能会感觉很复杂,它是基于 概率分布的模型,所以对数学方

13、面的知识要求的比较对(主要是概率统 计知识)。 d) 常见分类算法 1) 朴素贝叶斯(Na?/e Bayes) 2) K-近邻(KNN) 3) 支持向量机(SVM) e) 常见的特征选择算法 1) 文档频率(Document Frequency 2) 互信息(Mutual In formation) 3) 信息增益(In formation Gain) 4) Chi-Square 5) 期望交叉熵(Expected Cross-Entropy f) 常见的聚类算法 1) K-均值(K-means) g) 熟悉常见的IR、NLP工具 1) Indri 或 Luce ne LivSVM 或 SVM

14、Light 珍惜经常和你开玩笑的人,说明你在这个人的心中肯定有一定的分量。珍惜在你心情不好时第一个发现的人。 做人静默,不说人坏话,做好自己即可。不求深刻,只求简单。 你活着不是只为讨他人喜欢,也不是为了炫耀你拥有的,没人在乎,更多人在看笑话。你变得优秀,你身边的环境也会优化。 3. 从今天开始,帮自己一个忙,不再承受身外的目光,不必在意他人的评价,为自己活着。 从今天开始,帮自己一个忙,做喜欢的事情,爱最亲近的人,想笑就大笑,想哭就痛哭,不再束缚情感的空间,让自己活得轻松些。 4. 很多你觉得天大的事情,当你急切地向别人倾诉时,在别人眼中也是个小事,他最多不痛不痒呵呵地应和着。 因为他不是你

15、,他无法感知你那种激烈的情绪。直到有一天,你觉得无需再向别人提起,你就已经挽救了你自己。 这世界上除了你自己,没谁可以真正帮到你。 5, 我们总是带着面具走进爱情的,总想展示自己最优越的一面,你要接受一个人,不只是接受他的优越,而是看清了他的平凡普通却仍然去深爱。 事实经常是:我们走着走着,就感觉对方变了,其实我们并没有变,我们只是走进对方最真实的地方,然后迷失了自己。 7. 今天再大的事,到了明天就是小事;今年再大的事,到了明年就是故事;今生再大的事,到了来世就是传说。 人生如行路,一路艰辛,一路风景。你目光所及,就是你的人生境界。 总是看到比自己优秀的人,说明你正在走上坡路;总是看到不如自

16、己的人,说明你正在走下坡路。与其埋怨,不如思变。 8. 归零是一种积极的心态。所有的成败相对于前一秒都是一种过去。过去能支撑未来,却代替不了明天。 学会归零,是一种积极面向未来的意识。把每一天的醒来都看作是一种新生,以婴儿学步的态度,认真用好睡眠以前的时刻。 归零,让坏的不影响未来,让好的不迷惑现在。 9. 总有一天,你会与那个对的人不期而遇:所谓的幸福,从来都是水到渠成的。 它无法预估,更没有办法计算,唯一能做得是:在遇见之前保持相信,在相遇之后寂静享用。 宁可怀着有所期待的心等待下去,也不愿去对岁月妥协,因为相信幸福也许会迟到,但不会缺席。 做人最好状态是懂得尊重,不管他人闲事,不晒自己优

17、越,也不秀恩爱。你越成长越懂得内敛自持,这世界并非你一人存在。 做人静默,不说人坏话,做好自己即可。不求深刻,只求简单。 你活着不是只为讨他人喜欢,也不是为了炫耀你拥有的,没人在乎,更多人在看笑话。你变得优秀,你身边的环境也会优化。 3. 从今天开始,帮自己一个忙,不再承受身外的目光,不必在意他人的评价,为自己活着。 从今天开始,帮自己一个忙,做喜欢的事情,爱最亲近的人,想笑就大笑,想哭就痛哭,不再束缚情感的空间,让自己活得轻松些。 4. 很多你觉得天大的事情,当你急切地向别人倾诉时,在别人眼中也是个小事,他最多不痛不痒呵呵地应和着。 因为他不是你,他无法感知你那种激烈的情绪。直到有一天,你觉

18、得无需再向别人提起,你就已经挽救了你自己。 这世界上除了你自己,没谁可以真正帮到你。 5, 我们总是带着面具走进爱情的,总想展示自己最优越的一面,你要接受一个人,不只是接受他的优越,而是看清了他的平凡普通却仍然去深爱。 事实经常是:我们走着走着,就感觉对方变了,其实我们并没有变,我们只是走进对方最真实的地方,然后迷失了自己。 6. 我捧你,你就是杯子,我放手,你就是玻璃渣子。无论是恋人还是朋友,珍惜在你每一次难过、伤心时都陪伴在你身边的人。 珍惜经常和你开玩笑的人,说明你在这个人的心中肯定有一定的分量。珍惜在你心情不好时第一个发现的人。 7. 今天再大的事,到了明天就是小事;今年再大的事,到了明年就是故事;今生再大的事,到了来世就是传说。 人生如行路,一路艰辛,一路风景。你目光所及,就是你的人生境界。 总是看到比自己优秀的人,说明你正在走上坡路

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论