基于语义模板与知识库的智能导购机器人系统研究与实现(可编辑)_第1页
基于语义模板与知识库的智能导购机器人系统研究与实现(可编辑)_第2页
基于语义模板与知识库的智能导购机器人系统研究与实现(可编辑)_第3页
基于语义模板与知识库的智能导购机器人系统研究与实现(可编辑)_第4页
基于语义模板与知识库的智能导购机器人系统研究与实现(可编辑)_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着电子商务网站业务量的急剧扩张,网站门户为顾客提供的商品种类越来越丰富多样,一方面满足了顾客的多样化需求,另一方面顾客要比以往花更多的时间来浏览商品,却迷失在众多的商品中,找不到最满意的商品。因此,为了提升顾客的购物体验留住顾客,进而提高销售量,电子商务门户网站需要一个像商场导购员一样专业的网络机器导购员来引导顾客购物,帮助顾客挑选满意的商品。为了使顾客网络购物的体验更加自然、人性化,本文提出了基于自然语言处理的智能导购机器人系统的研究这一课题。该系统允许顾客用日常生活中熟悉的语言和导购机器人交流,系统主动抓取顾客的兴趣爱好等特点,为顾客推荐满意的商品。智能导购机器人系统本质上是“智能问答推荐”系统。系统的两大工作模块是将顾客输入的问句与系统中预先存储的语义模板匹配,输出模板库中对应的答案系统通过抓取顾客在对话中流露的兴趣爱好,预测顾客购买意向,为顾客推荐商品。因此,本文的主要工作包括人工构建语义模板知识库设计自然语言处理算法和推荐算法。本论文的创新之处在于首先,直接从问题本身出发,系统通过对顾客提交的问句进行简单的分词,与语义模板进行匹配就可以为顾客反馈答案其次,系统通过自动构建、更新用户个性知识库,以此来预测用户购买倾向,实现为顾客推荐商品的功能。本论文中的智能溅蒸潮磊田五的问公调餮滋运蒸鬻麟滚黝,目录摘要第一章绪论第一节课题研究的背景一国家经济发展的政策二网络购物已成为新型的购物方式三电子商务门户网站的个性化推荐系统已不能满足顾客需求四网络经济已从“服务经济”开始向“体验式经济”转变第二节智能导购机器人在我国的研究现状一智能导购机器人的研究在我国正值起步阶段第三节相关技术研究现状一自然语言处理技术的研究现状二汉语分词的研究现状第四节课题研究的目的与意义一从实际应用方面来看二从科学研究的角度来看第二章智能导购机器人的介绍第一节智能导购机器人的概念第二节智能导购机器人需要实现的功能第三节智能导购机器人的作用一从企业或商家的角度上来说二从顾客体验的角度来说第四节研究智能导购机器人面临的主要挑战一自然语言处理方面的的共性问题二智能导购机器人系统研究的个性问题第五节智能导购机器人系统框架结构第二章智能导购机器人系统中的知识库设计一第一节智能导购系统知识库总述第二节各类知识库的的概念与建立一专业词库二语义模板库权值关键词库三问题/答案库四产品特征库五产品库六用户个性知识库第四章基于语义模板的自然语言处理算法第一节语义模板一语义模板的定义二语义模板的作用三建立语义模板的原则第二节基于语义模板的自然语言处理算法一语义理解二反馈答案第三节总结第五章智能导购机器人系统中的分词算法和学习算法介绍第一节汉语分词算法介绍第二节本系统采用的分词算法和实现步骤一基于专业词库的正向最大匹配分词法二分析分词结果,修正分词算法第三节本系统的机器学习算法模仿学习第六章智能导购系统的推荐算法第一节本系统中的推荐算法的提出一各类推荐算法介绍与不足之处二智能导购机器人系统的推荐算法在导购过程中的优越性第二节智能导购机器人系统的推荐算法详述一算法总述与结构图二算法中的概念和公式的说明三基于商品特征的个性化推荐算法第七章实验结果与分析第一节问答系统的评测方法介绍第二节本论文采用的测试方法问答系统人钡/评法瞳第三节实验设计与结果分析一数据来源二实验目的三实验过程四实验结果第四节智能导购系统的实验结果演示第八章结束语第一节全文总结第二节系统的不足之处一知识库建立的费时费力与系统应用领域的受限性二机器缺乏主动学习的能力三推荐系统算法理论与实践的差距第三节改进的意见一考虑隐马尔科夫分词模型二在系统中增加机器学习算法三借鉴电子商务中的推荐算法改进本论文提出的推荐算法的不足参考文献附匀乏附录一文本加密程序源代码附录二自动分词程序源代码附录三智能导购机器人算法程序源代码附录四测试问题集致谢攻读学位期间发表的学术论文目录第一章绪论第一节课题研究的背景一国家经济发展的政策月日,国务院总理温家宝在政府工作报告中指出,要加快发展电子商务等现代服务业,积极发展网络购物等新型消费业态。同日,中共中央政治局常委、国务院副总理李克强指出,要积极发展网络购物等新型消费业态,降低流通成本。网络购物是依托互联网和信息技术的新型零售形式,具有流通环节少、交易费用低、资金周转快、流通效率高、销售范围广、消费者购买方便等优势。发展网络购物,有利于企业拓展营销方式、刺激消费、扩大内需、转变发展方式,有利于带动创业就业,有利于促进上下游关联企业协同发展、健全产业链。二网络购物已成为新型的购物方式近年来,我国网络购物市场的消费群体呈现不断扩大、消费规模快速增长的良好局面。中国互联网络信息中心年月在京发布的第次中国互联网络发展状况统计报告显示,截至年月底,中国网民规模突破亿,较年底增加万人最引人注目的是,网络购物用户规模达到亿,网购使用率升至,网络购物已经是互联网经济发展最快、最迅速的主力军。三电子商务门户网站的个性化推荐系统已不能满足顾客需求几乎所有大型的电子商务系统,如,当当网等,都不同程度的使用了各种形式的推荐系统。但是随着电子商务网站的蓬勃陕速发展,提供给顾客的商品几乎呈几何级数的上升,对顾客来说,面对这些丰富”的信息,已经无法从个性化推荐服务系统中迅速的获得自己所想要的商品,个性化推荐系统的服务已经显出落后于顾客的购物需求。下表是通过智能导购机器人系统与传统的电子商务网站的推荐系统的对比,更清晰的展示出智能导购机器人系统的优点。袁智能导购机器人系统与传统电子商务网站服务系统的对比传统电子商务网站的推荐系统优化方向智能导购机器人系统死板、固定化的浏览卜人机互动对话的服务式体验用户盲目选择智能机器人专家式导购卜传统模糊匹配搜索基于用户产品知识库的搜索操作机械生硬化自然语言容错处理服务千篇一律服务模式一对一会员体验式服务公式化共性输出用户满意的个性化推荐四网络经济已从“服务经济”开始向“体验式经济”转变电子商务推荐系统瞳在理论和实践中都得到了很大发展,为以电子商务委介质的经济提高了很大的收益,但是随着经济发展的演进,经济已从“服务经济开始向“体验式经济”转变。所谓体验经济,是指企业以服务为重心,以商品为素材,为消费者创造出值得回忆的感受。现在趋势是从生活与情境出发,塑造感官体验式营销体验及思维认同,以此抓住消费者的注意力,改变消费行为,并为产品找到新的生存价值与空间。企业应注重与顾客之间的沟通,发掘他们内心的渴望,站在顾客体验的角度,去审视自己的产品和服务。对用户来说,购物不仅仅是买有用的东西,而更应是一次值得回忆的美好体验。用户对于购物的体验也不仅仅满足于商家在网上提供的二篇一律的服务模式一电子商务个性化推荐系统,用户更希望得到与现实商场相同的购物体验,可以交流,有导购员的讲解与陪同,迫于电子商务的实际需要,有必要用一种新的导购系统来替代个性化推荐系统,互联网公司的网站不再是让浏览者繁乱复杂的项目中下手,而是有智能的机器人界面以聊天的方式得到自己需要的资料。第二节智能导购机器人在我国的研究现状一智能导购机器人的研究在我国正值起步阶段一国内首个导购机器人是年中科院研究的“美女导购机器人”。国内首个导购机器人是由中国科学院自动化研究所年起投入近百万元人民币研发的一位女性机器人,已于年月被植入商用系统,首个岗位是广州一商场的“导购员”。机器人作为商场导购,在日本已经见过,但是此次广州商场的“美女导购机器人”在国内是首次尝试,她的“发明者”是中科院研究员李成荣博士后。二年月日亮相于深圳高交会上的由北京大学智能机器人开放实验室研发的智能导购机器人“波波”和“特特”。年月日,在深圳高交会上亮相的智能导购机器人波波和特特,它们是由北京大学智能机器人开放实验室联手深圳市建华波特网络科技有限公司共同研发的基于互联网电子商务应用平台的智能机器人。研究昔们的预期目标是波波和特特能取代现实生活中的导购员,通过高度人性化的网络对话,精准定位,找到顾客中意的商品。这种设想是美好的,但是鉴于目前自然语言处理在歧义字段处理和未登录词问题上的解决不容乐观,致力于聊天机器人领域的专家认为设计出完美的聊天机器人还有很长的一段路要走。第三节相关技术研究现状一自然语言处理技术的研究现状世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视有关的研究,投入了大量的人力、物力和财力。自然语言处理。”研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究,而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看自然语言处理的软件也占重要地位,专家系统,数据库、知识库计算机辅助设计系统、计算机辅助教学系统、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看,具有篇章理解能力的自然语言理解晴系统可用于机器自动翻译、情报检索、自动标引,自动文摘、自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。当前国外自然语言处理研究有三个显著的特点第一,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三,自然语言处理中越来越多地使用统计数学方法来分析语言数据。目前,我国的自然语言处理研究虽然已经取得不少成绩,但是与国际水平相比,差距还很大。我国的自然语言处理研究,无论在理论上还是在应用系统的开发上,基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究,很少有创造性的研究,当然更谈不上具有原创思想的研究了。因此,我们不能夜郎自大,不能坐井观天,我们只有努力学习国外的先进成果,赶上并超过国际先进水平,使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。二汉语分词的研究现状目前研究中文分词的大多是科研院校,清华、北大、哈工大、中科院、北京语言学院、东北大学、研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,中文分词技术要想更好的服务于更多的产品,还有很长一段路。中文分词【分为人工分词与机器自动分词两种。人工分词存在分词不一致和处理速度慢的缺陷。对此,人们尝试用计算机代替人工分词,称为自动分词。目前,汉语自动分词主要有以下三大类的方法基于词典的方法、基于统计的方法和混合方法。基于词典的中文分词方法优、缺点。基于词典的中文分词方法的优点是易于实现可以精确地切分出所有在词典中存在的词。其缺点是匹配速度慢存在交集型和组合型歧义切分问题词本身没有一个标准的定义,没有统一标准的词集不同词典产生的歧义也不同。基于统计的分词方法所主要应用的是统计量,统计模型有互信息、元文法模型盯、神经网络模型隋、隐模型阳和最大墒模型“叫等。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。基于统计的分词方法的优、缺点。基于统计的分词方法的优点是不受待处理文本的领域限制不需要一个机器可读词典。缺点是需要大量的训练文本,用以建立模型的参数该方法的计算量都非常大分词精度与训练文本的选择有关。目前基于词典和基于统计的分词方法是现有分词技术的主要方法。而基于词典的分词方法无法处理歧义字段,基于统计的分词方法需要大量的词频计算耗费时间。鉴于这些问题有必要给出新的分词方法弥补这些不足。目前采用的最多的是混合方法。从中文分词的研究来看,至今还没有哪一种方法可以完全解决中文分词过程中遇到的所有问题,并且各种解决方法也各有优劣。基于词典的分词方法可以精确地切分出所有在词典中存在的词,但可能存在歧义而基于统计的分词方法对于解决未登录词和歧义等有比较好的效果但准确率不如基于词典的方法有机地结合这两种方法能够解决分词中遇到的很多问题,但是这两种方法仍然存在都不能解决的问题。第四节课题研究的目的与意义一从实际应用方面来看智能导购机器人系统是我国电子商务创新的需要。传统电子商务模式已发展到极致,以阿里巴巴、淘宝网等为代表的中国电子商务网站遭遇发展瓶颈,如何更快捷获取自己想要找的商品,如何解决商家与顾客之间的粘合度,如何让顾客体验到消费购物时的愉快,如何让更多的消费者参与到网络购物中来,如何让更多的农民群体也参与到电子商务交易中等等成为迫切需要解决的课题。中国电子商务的发展需要一场颠覆性的创新革命。目前,几乎所有大型的电子商务系统,如,当当网等,都不同程度的使用了各种形式的推荐系统。随着电子商务网站的蓬勃、快速发展,提供给顾客的商品几乎呈几何级数的上升,对顾客来说,面对这些“丰富的信息,已经无法从个性化推荐服务系统中迅速的获得自己所想要的商品,个性化推荐系统的服务已经显出落后于顾客的购物需求。在日趋激烈的竞争环境下,智能导购机器人系统能有效保留顾客,提高电子商务网站的销售。另外,针对一些小型的卖家,如淘宝网上的店铺,还在很传统地雇佣员工做在线客服。首先由于用户购买商品很受时间的限制在线客服的服务时间一般在晚一早,所以一部分客流量就会流走其次雇佣在线客服会增加支付成本,对于小商家来说,这部分开支是不小的数目,如果用智能导购机器人来代替在线客服的话,就会为卖家节省很大的成本。二从科学研究的角度来看基于自然语言处理的智能导购机器人的研究为自然语言处理在实践方面的应用开辟了一条新的道路。本论文中提出的基于语义模板的智能导购机器人系统的研究方案,这种方法抛开了自然语言的形态学、语法学、语义学和语用学等,为自然语言处理在实践方面的应用开辟了一条新的道路,此研究结果的成功具有直接的现实意义,可为专业领域的电子商务网站的发展提供帮助与支持。以往对于网络导购机器人的研究,需要综合运用自然语言处理领域的自然语言理解、自然语言生成等方面的理论知识与模型。从目前的理论和技术现状看,无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。如何把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示,虽然很多主流方法在自然语言处理消除歧义方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统,距离实际的应用还有一定的距离。未登录词的识别是影响中文分词准确率的另一个重要因素。汉语自动分词中的未登录词主要有两类,一类是新涌现的通用词汇或专业术语等另一类是实体名词和专有名词。对于第一类未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表,再由人工帅选出其中的新词并补充到词表中去。对于第二类未登录词的处理常用的方法是首先依据从各类专有名词库中总结出的统计知识如姓氏用字及其频度和人工归纳出来的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有表示异议的紧邻上下文信息如称谓,以及全局统计量和局部统计量,进行进一步的鉴定。总之,面对自然语言处理问题的复杂性和多边形,现有的理论模型和方法还远远不够,有待于进一步改进和完善,即使这些理论问题的解决达到我们预想的效果,往往理论与实践还是有一定差距的,理论用于实践时可能还会有更多的困难等待我们去解决。第二章智能导购机器人的介绍第一节智能导购机器人的概念学术说法智能导购系统是指基于平台的个性化导购系统。系统通过特定的后台智能算法,记录顾客个性化的兴趣和喜好特点,自动建立顾客个性化知识库,并以此为依据为顾客选购商品并推荐到前台,从而实现个性化的导购服务。简单来说,智能导购机器人就是可以陪用户聊天、和用户自然沟通、帮用户介绍产品的网络服务代理器。智能导购机器人实际上也是一种具有更强功能的智能问答系统。第二节智能导购机器人需要实现的功能本论文中我们研究的智能导购机器人系统是一个基于手机卖场常见问题的“智能问答导购的系统。我们的目标是要实现以下的功能与顾客友好地进行自然语言的交流。对顾客的提问作出合理的应答,根据用户的需求,无时问和地理位置限制的与用户自动交流实现导购功能。当用户没有明确购买意愿时,引导顾客购买或者能根据顾客的兴趣爱好预测用户购买意向,搜索用户满意的产品,推荐给用户。表智能导购机器人语言与导购模块功能简介系统模块模块特征输入语句分析过滤、分词、建模、标记模糊容错匹配容错、模糊是人性化的基本特征偏好与心态分析个性偏好是个性化的基本特征导购和议价知识价格策略,语句的生成、选择和修饰输出式语句合成自然友好的交互型应答第三节智能导购机器人的作用智能导购机器人提供的,是一对一的式服务,也是最接近于商场购物的一种导购模式,顾客如同置身于商场和售货员对话,只要像平时说话一样,告诉导购机器人想要的产品类型、价位,甚至更多的个性化要求,导购机器人就能最大程度地捕捉到对话中流露出的购买意向,推荐给顾客中意的商品。智能导购机器人是电子商务门户网站为顾客提供的、顾客可以无条件使用的机器人,不论是顾客还是电子商务网站自身都是其中的获益者。一从企业或商家的角度上来说一节省人力物力上的投入智能导购机器人能轻松实现一对多的小时全天在线服务,无时间和地理位置限制的与顾客自动交流,并因为迅速发展的智能化,能比较轻松的回答一般顾客所提出的问题,这样可以节省大量的人力物力上的投入。二为日后的回访创造了条件由于相比于传统的网络营销模式,导购机器人无需烦琐的用户注册,用户只需添加一个机器人的工帐号就可以方便地使用,由此更具吸引力。这样就可以有效地降低企业获取用户真实联系方式的门槛,为日后的回访创造了条件。三提高企业竞争力智能导购机器人与顾客的对话方式来自与不同顾客之间的自然语言交互,机器人可以不断的了解和学习顾客语言,这样可以吸引各种年龄层次,文化程度水平不同的顾客。并且智能导购机器人能够分析顾客长期的使用行为,可以准确的了解到顾客的需求,涉及到工作、生活、学习、娱乐等方方面面,这样个性化的程度会随着顾客与智能导购机器人之间不断沟通而达到更纵深的层次,个性化服务也会越来越体贴。智能导购机器人系统为顾客提供更具有优势的的个性化服务,使得企业具有更大的吸引力留住顾客和通过口碑营销招揽潜在的顾客,从而赢得更多的顾客,将潜在优势转化为现实的竞争力。二从顾客体验的角度来说一享受一对一的服务。智能导购机器人系统无条件的服务于电子商务网站,根据用户的需求,无时间和地理位置限制的与顾客自动交流,克服其它电子商务服务的无序、单向的局限,为顾客提供一对一的式服。在网络云级海量商品数据资源里,搜索用户满意的商品,推荐给顾客,代替人【不可为之事。二让每个顾客都拥有自己的“交易门户平台”和“智能导购机器人”。智能导购机器人其核心在人性化交互、个性化导购。在交互式方面一改传统的死板浏览、顾客盲目选择到人机互动对话、智能机器人专家式导购在个性化方面提供给顾客一对一的服务,具有记忆、自我学习、总结的功能。三为顾客节约选择时间,给用户带来美好的购物体验。举个例子来说,用户想购买一块既符合自己需求,又要相比之下便宜的手机,相继访问了个大的电子购物网站,很可能每一个网站都需要用户花费分钟的时间去查找满足用户需求的所有型号手机,接下来用户还要一一查看这些手机的参数规格,并对它们做比较分析,最后才能确定要哪一款手机,这一过程至少需要用户分钟的时间。如果网店给用户提供一个“导购员”,也即“智能导购机器人”,它能够代替用户在上完成这些琐碎的、耗时的工作,用户只要向导购机器人描述清楚需要的手机性能,导购机器人就会帮用户找到满意的手机推荐给用户,导购机器人还可以一边帮用户查找手机一边和用户聊天,给用户一个美好的购物体验。第四节研究智能导购机器人面临的主要挑战一自然语言处理方面的的共性问题网络导购机器人的研究,需要综合运用自然语言处理领域的自然语言理解、自然语言生成等方面的理论知识与模型。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。一汉语自动分词中的歧义消解问题、未登录词识别问题自然语言处理首先面对的问题就是汉语自动分词问题。中文分词的研究虽然在理论方面已取得很大的进步,但是在实际运用方面效果不是很理想,如歧义消解问题、未登录词识别问题等。二自然语言生成问题以往对自然语言理解研究得较多,而对自然语言生成研究得较少,自然语言生成技术的理论还不成熟,这方面的数学模型也不多见,即使经过几年时间的研究,理论方面成熟了,但是要用在实践中还有很长的路要走。无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标。二智能导购机器人系统研究的个性问题智能导购机器人系统的研究所面临的困难既有其他任何一种自然语言处理都会遇到的共性问题,如歧义消解问题、未登录词识别问题等,也有其本生所具有的个性化问题。一如何使机器语言更加的真实、贴近生活,如礼貌用语、口语化等。智能导购机器人系统是一种把饥器作为现实生活中的导购员的实用性极强的系统,所以在借鉴理论模型来设计算法程序时更要注重系统的实用性,如礼貌用语、口语化等。二如何建立模型引导顾客购买商品。作为智能导购机器人,仅仅了解语义和反馈答案是远远不够的,智能导购机器人的作用是相对一位导购员一样引导顾客购买产品,因此在回答用户的答案的同时,它应该还提出一些具有引导用户购买商品的问题,勾起用户购买商品的欲望。这要如何实现,这又会是一个难点。是智能的问出问题,还是机械的在答案中加入问题三如何建立数学模型实现个性化导购。智能导购机器人的研究还要解决如何建立用户的个性化消费模型、机器个性化导购模型、机器自动学习等问题。因此,从某种意义上讲,智能导购机器人系统的研究更具有挑战性和新颖性。第五节智能导购机器人系统框架结构图智能导购机器人系统流程图交互语言处理对输入语句进行分词,与语义模板知识库中的模板进行匹配,匹配成功则输出答案,否则回答“对不起,我不理解你的意思。检索产品用产品属性词作为关键词来检索产品库,检索到符合条件的产品。推荐产品基于客户的购买倾向和咨询记录,从合乎条件的产品中替客户筛选出客户中意的产品。第三章智能导购机器人系统中的知识库设计本章就智能导购机器人系统中的知识库设计进行了详细的阐述。首先说明了构建知识库总体上的要求,然后重点介绍了一些知识库的概念以及表示。第一节智能导购系统知识库总述一般来说,对知识库的要求主要有两点查询的效率和数据信息组织的效率,也就是速度和存储空间。知识库是整个系统的核心,知识库的健全与否对整个智能导购系统的查准率和查全率都有极大的影响。我们面临的关键任务是构建一个完备的知识库,主要应解决以下问题知识库足够丰富,要达到一定的规模,否则所提供的服务非常受限,对用户的帮助也不大。系统一方面采用人工采集、整理、存储数据,另一方面采用机器主动学习的方法,接受用户训练,收集组织有用的信息来丰富知识库。知识准确度高,能够正确反映数据库内容,否则误导用户,浪费用户宝贵的时间。知识库整体结构要完善,知识表示要便于计算机识别和运用,既要知识定位快,又要存储空间小,尽量找到最佳的统一点。知识库可扩展。信息时代的最大特点就是新信息产生速度快,尤其电子产品的信息扩展是非常迅速的,知识库必须要实现增量化管理,才能及时地为用户提供服务。本智能导购系统实验用的知识库数据来源一是公司提供的手机卖场用语数据,二是人工收集的网络导购常用语,三是在京东网上搜集的手机参数集。第二节各类知识库的的概念与建立专业词库一概念专业词库是专业领域内比如手机领域词语的集合,以各分词程序匹配使用。本论文中我们的任务是构建属于手机导购系统的专用词库。作为智能导购机器人的词库,这里并不需要包含很多词语的大型词库,而是根据实际需要构建一个专业领域词库,建立的词库包含手机卖场的所有词汇,同时词库的格式设计我们采用了文本格式来存放,并不放在数据库中,这样做的目的是减少词库空间,提高搜索速率。二人工切分词语原则我们实验采用的词库是基于问答用语人工完成的,为了算法的需要,我们在做词语切分时要遵循以下的原则分词单位下界原则。具体来说,就是能切开的尽量切开,如手机资费可以作为一个单独的词,也可以分为手机和资费两个词,鉴于分词单位下界原则,纳入词库的词语是手机和资费这两个词。分词单位可大可小,我们把作为下界的分词单位称作基本词。分词单位上界原则。具体来说,就是在一些情况下必须同其相邻成分切开。如标点符号同其相邻成分之间,句内主语谓语之间,结构助词“的”“地”与其后邻成分之间,多数连接词与其相邻成分之间。这些词必须做独立个体纳入词库中。上下界之间的分词单位及其内部结构的切分原则。在上下界之间,分词单位的大小允许有较大的灵活性,只是要求组合型歧义字段和交集型歧义字段不能错切,要求每个分词单位都应是一个完整的语法成分,并给出内部结构。对分词单位内的结构划分方法,应分别不同情况给出若干规则。构建基本词表原则。配合下界,应有一个基本词的表,收集内部不可切分之词。非专业名词、非术语的基本词应尽量收全,专业名词中可列举的应专表列举,常用基本术语应专表列出。三新词纳入词库的规则除了以上切分词语的原则外,还需要对已经纳入词库的词语做适当的组织规划,纳入词库的词语有以下规则如两个字符串中有相匹配的字符串,按总字符串长度从大到小排序,在此的基础上,最好按词汇使用频率从大序。在新提出的问题中,查看是否有词库中没有的词汇,如果有且不存在于备用库中,把该词添加到备用库中,并对其出现频数初始化为。在新提出的问题中,查看是否有词库中没有的词汇,如果有且存在于备用库,把在备用库中该词的使用频数加。然后判断该词频数是否大于,如果大则在备用库中删除该词,并按的规则添加到词库中,否则不做改变。这个操作就为智能导购机器人增加了学习功能。如果要进行人工添加词汇,则按规则即可。特别要注意的是,词库的最后一个操作是要对词库进行加密,防止非法修改数据或是数据的丢失,并保护人个的知识产权。词库加密程序见附录一表部分词库示例网在相比以前才能两张或者哪些有没的电脑的有吗和手机普及如何从能否什么水货里呢运营支持现状都同时是不行货商是也啊国内取得最先才对于与号段几么上市不是了目前具备再网络,又还吧意思大是否一部及多少连接摄像这个就嘛特点发展外只能并且像素这种没有标准收费一般多少万而且谁有通话联通资费便宜最近几家哪家都是以前进行上网可以两款兼容真的何时现在选择需要玟此主流以后不会使用时间天翼短那此效果到底时候买快怎么购买必要可否电信哪家接成熟一定卡费要求流量漫游手机终端一一岳同租有何为什国际插主要两个哪个么上多双芯套餐只有制式用更好将这款红色月租一款无线套餐上网北京优越到不同这还是品牌互联语音几电性互通服务几充这里来按不快比较就是牌照传送前置总共个词,除去词频共个词二语义模板库权值关键词库一概念语义模板库,更形象地称为权值关键词库,库的元素构成表示如下嘭,呢彬,呢呢形,以其中,形表示的是聆个关键词,彬,形分别是彬,形在句中占的比重信息量大所占比重就大。二语义模板库的作用权值关键词库的每一个元素表示一个问旬类型。构建权值关键词库的过程就是问题归类的过程,也是把具体的汉字语言问题转变为数学语言的过程。因此,构建了权值关键词库就是构建了自然语言处理的语义模板引,这个过程是一个学建模的过程,对于计算机的自然语言理解意义重大。举个例子说明的标准是什么什么为的标准把这个问题表示成权值关键词库中的元素有哪些标准煎的标准指的是什么的标准是什么意思堑拯造旦一表权值关键词库部分示例哪此木手机运营商手耄特点木手机款卓普及时候木。手机制式标准宰手机品牌有卑运营商牌照要求有木牌照要求木运营商牌照已有木发展现状木牌照水上网卡上网费用流量木手机上网资费半叼唑使用最先木电信品牌特色木两个卡一个号上网语音服宰手机终端款。有木流量宽带套餐申请两张木手机功能水支持水手机好处木共建立个语义模板三问题/答案库概念问题/答案库中元素表示如下木彬尸彬尸彬彤形形术其中是权值关键词库中的元素冰是程序执行过程中所需的标示符,没有实际意义是问题对应的答案。问题/答案库是与关键词权值库对应的一个知识库,建立问题/答案库的意义在于问题/答案库是系统对用户语言自动应答的依据。对用户输入的一个句子,系统搜索句义模板库确定句子类型计算机理解用户意思的过程,在问题/答案库中找到相应答案并输出。表问题/答案库部分示例权值的关键词集合识别码答案移动,联通,电信。手机运营商哪些木宰有种,欧洲的手机制式标准标准、美国的木标准和由我国科学家提木出的标准。假的,刷是指软件,水货刷主板和里面的器件。木不通同,不能刷术放心吧,联通移动关号码手机用,网络不会像小灵通一样的,至少也有十年左右木如果是移动的号,直接插视频通话手机爿到手机里就可以开通木了,很方便四产品特征库一概念产品特征库中包含所有描述手机型号和参数规格的词语。要求词语尽可能覆盖电子产品商务网站手机参数的信息描述,词语在词库中可以是无序存放,但是最好是唯一的。本词库是系统自动构建用户个性库的依据。表产品特征库部分示例网络制屏幕尺品牌摄像头模块硬件卡尺寸式寸网络频屏幕色传感器型号电池类型窒彩类型电视播屏幕材颜色闪光灯热点电池容量放质数据业视频拍理论通话时上市时间蓝牙分辨率务摄间连拍功理论待机时外观设计浏览器触摸屏能间重力感变焦模视频通话存储个人助理数据线应式彩信功距离感自动对操作系统耳机能应焦可用空拍摄模仟智能机加速机身尺寸间式储存卡娱乐功拍摄场型号电子邮件机身重量旦类型能尿铃音类照片分频率计算器炒股软件型辨率短信容音乐播传输功键盘类型闹钟摄像功能且里放能名片存视频播输入方式录音收音机储放网络显示电子书后台操作后台一概念产品库是由手机集合构成的集合,集合的元素是组成某一型号手机的参数集合。用数学语言来描述产品库手机型号参数,参数,参数珂”产品库是基于用户个性知识库的推荐算法中评价参数模型的根据。六用户个性知识库一概念用户个性知识库可以认为是用户兴趣模型集合。用户兴趣模型可以分为静态模型和动态模型。静态模型描述的是用户基本背景知识,如用户的姓名、性别、年龄、学历、专业、民族、工作、爱好等,这种模型结构稳定,容易操作和建立,主要通过用户注册信息来建立,在用户对系统的使用过程中很少改变。动态模型表示的是用户的专业领域知识,反映的是单个用户的个性检索,主要通过在运行中对单个用户和用户组的行为进行分析,以及不同用户之间的学习与交流,来达到不断更新和维护用户兴趣模型的目的。系统对用户的初始兴趣不断地进行更新完善,在用户使用的过程中不断学习用户兴趣,动态调整用户个人的兴趣档案。表用户数据库主要数据类别、数据构成购物花费金额日期购物类别交易次数购物细节产品特征对不同推荐方式的依赖程度用户的个性爱好一次购物停留时问二用户个性知识获取技术用户个性知识主要包括用户在人机对话中的历史信息和新记录。历史信息是指用户在电子商务网站的注册信息如年龄、性别等个人基本信息、购买记录、人机聊天过程中产生的关键词记录关键词是指手机参数信息新记录是指用户本次登录系统后产生的关键词记录。用户个性知识的获取主要包括两种方式主动学习和被动学习。主动学习是指主动地挖掘、记录用户的兴趣爱好,学习方式包括系统对用户兴趣的预测算法以及基于人机交互的基本信息抽取技术。其过程是根据用户的注册信息和用户与导购机器人在交流初始阶段的交流内容,逐步预测用户的个性爱好,当系统将搜索结果返回时,用户对导购机器人反馈结果的输入应答,用该应答信息以及用户个人兴趣进行关键词重新提取,这样反复的迭代来完成用户个性知识库动态更新与调整。被动学习是指导购机器人被动地记录用户的个性化查询、浏览行为,也是一种基于用户查询行为的数据挖掘,这一过程是由用户的主动行为造成的导购机器人的被动。学习方式通常是对用户的浏览行为进行实时监控,记录用户搜索过的产品内容,运用词频法,确定词条的权重和重要性,根据词条的这种频率特性进行筛选推荐。三常用用户行为的记录规则包括记录用户对推荐结果中每个产品链接的点击次数,用权值来代表它的点击频数,用户每点击一次,该权值就相应的变更,以此来表示各链接对用户的重要程度。记录用户对产品特定部分的咨询关键点和咨询时间。咨询关键点部分往往含有用户所需的重要信息,通过对这些部分进行分析,可以准确抓住用户的兴趣点计算用户对某一手机或手机参数的咨询时间,时间越长则认为该手机或手机参数的与用户的购买意向相关度越高。第四章基于语义模板的自然语言处理算法语义模板是对问题库的的问题进行抽象成模型,将客观的世界划分为概念和关系两大类,因此句子结构是用概念一关系模型来表示的。概念是指在问题库中具有相似特性的一类对象或问题。属性是指概念或关系具有特定方面的内容,它通常表示概念或关系的一个性质。关系是指概念或属性之间语义上的关联。这种模型利用概念、概念的属性、概念的关系、以及属性和关系间的约束来表示知识库的组织形式,就构成了语义模板。第一节语义模板一语义模板的定义语义模板“钔是把汉语句子的文字表达数学化,其中语义比重用于知识获取,即用句子成分所带语言信息量的多少来描述句子意思的获取。语义模板由元组,构成。模板中的各元素具体含义为模板中的为关键词集合,是一个有限集,其中词性不做限制,可以是名词如手机、行货、功能、摄像头、价格等可以是动词如有、是、打折、便宜、优惠等,可以是代词如哪些、什么、一些等也可以是短语如有哪些、什么时候、有何优缺点等还可以是除汉字外的其它字符如、等。不论的是什么,它们在模板中的具体位置对语义没有影响。模板中的为关键词权值集合,暑,罡,是一个有限集,其中,尸,已尸,只,也就是说,模板中的关键词权值集合是与关键词集合对应的一个集合。关于关键词权值的大小是这样给定的,关键词的权值大小代表关键词所带语言信息量,。用实例说明模板中各元素的含义。用户诺基亚、摩托罗拉、索尼爱立信、三星、五大手机品牌的非智能机分别采用什么平台诺基亚摩托罗拉索尼爱立信三星非智能机采用平台关键词集合表示如下“诺基亚,“摩托罗拉”,“索尼爱立信,“三星”,“三”,“非”,“智能机”,“采用”,“平台”只,“诺基亚”,“摩托罗拉”,“索尼爱立信”,“三星”,“”,“非”,“智能机”,“采用”,“平台”说明句义模板与“诺基亚”还是“平台”无关,与之有关的是关键词权值的值。二语义模板的作用语义模板在智能导购机器人系统中的作用是确定问题类型。智能导购机器人系统研究的关键在于提高用计算机对户问题的语义理解的准确度和问题类型的辨别程度。如果仅用自然语言处理技术来进行问题分析,效果并不理想。举例来说,当用户问机器人“什么是”、“指的是什么”、“是什么意思”,显而易见,这三个问句问的是同一个意思,可以归为一个问题类型进行问题分析,最后输出相同的答案。,但是,用自然语言处理的方法理解这三个问旬,计算机很可能把它们作为不同的问题输出不同的答案。这样不仅浪费储存空间,降低系统的问题处理速度,还会直接导致用户对导购机器人的满意度下降。针对问题形式的“多对一”现象,我们提出了一种新策略,即对不同形式描述的同一个问题建立语义模板,我们设想通过语义模板知识库和与之对应的答案库,为用户提供快速满意的服务。由于语义模板中各个成分占句子的语义比重在模板定义时已明确,故易对提问语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论