空间数据挖掘技术在案事件分析中的应用研究开题报告.doc_第1页
空间数据挖掘技术在案事件分析中的应用研究开题报告.doc_第2页
空间数据挖掘技术在案事件分析中的应用研究开题报告.doc_第3页
空间数据挖掘技术在案事件分析中的应用研究开题报告.doc_第4页
空间数据挖掘技术在案事件分析中的应用研究开题报告.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

福州大学硕士研究生论文开题报告论文题目空间数据挖掘技术在案事件分析中的应用研究姓 名学 号105520007性 别女导 师吴升学科专业地图学与地理信息系统研究方向空间信息网络共享与服务技术学 院福建省空间信息工程研究中心开题报告时间、地点2012-01-05科学楼15层1509导师审核意见开题中涉及的论题选择范围合适,计划详尽,项目设计合理,技术路线正确,具有一定的研究基础,能达到预期目标。同意开题。导师签名: 年 月 日审核小组意见同意通过开题报告,建议论文选择其中的空间关联规则或时序分析或时空自回归移动平均模型结合刑事案件数据进行深入工作。同时,应注意进行数据挖掘的数据集特征及其影响要素分析和挖掘结果的解释与评价工作。审核小组成员签名: 年 月 日院领导意见 院领导签名: 年 月 日1一、论文选题依据(包括本课题国内外研究现状述评,研究的理论与实际意义,对科技、经济和社会发展的作用等)1 选题依据1.1 研究背景1998年公安部为适应我国在现代经济和社会条件下实现动态管理和打击犯罪的需要,实现“科技强警”,增强公安系统统一指挥、快速反应、协调作战、打击犯罪的能力,提高公安工作效率和侦察破案水平,提出建设“金盾工程”,即公安通信网络与计算机信息系统的建设,其中包括公安工作信息化标准和规范体系建设,公安工作信息化运行管理体系建设等。2001年,国务院原则通过“金盾工程”的立项。随着“金盾工程”的建设,我国公安工作信息化进入了新的发展阶段1。公安信息化可分为四个层次1,第一层为事物数据处理与查询;第二层为管理层的作业与控制;第三层为战术计划与决策;第四层为战略决策。其总体呈金字塔结构,层与层之间关系密切,上层是在下层的基础上进行,也是对下层的扩展和提升。第三层和第四层的在整个工作占有极其重要的地位和意义,而数据挖掘是开展第三层与第四层工作的基础。随着“金盾工程”建设的逐步深入,各警种警务信息系统的投入使用,在各个业务数据库中,如案事件、人口、物品和场所等业务数据库,积累了大量的数据,这些数据对于支撑单一警种的单个业务起到了重要作用,但如何综合利用这些业务数据,建立数据仓库,开展数据挖掘和辅助决策分析,是科技强警需要解决的核心问题。1.2 研究意义将数据挖掘技术应用于案事件分析,从海量警务数据中挖掘出更深层次的信息,获得有用的、潜在的、有价值的知识或规则来辅助办案决策,实现业务数据的深度挖掘利用和增值服务,具有重要意义。利用数据挖掘技术对于开展案事件分析、发现案件线索、科学配置警力、有效预防犯罪等方面具有重要作用,具体体现在以下几个方面:1) 在案件侦破方面,有助于挖掘相似案件的发案规律,分析嫌疑人特征,判断犯罪嫌疑人的活动范围,分析犯罪嫌疑人可能逃跑路线,为破案指明方向及提供线索。2) 在警力配置方面,有助于发现案件高发区域以及案件高发时间,科学、合理安排警力,维护社会安全稳定,有效预防犯罪。3) 在交通管理方面,有助于找出交通事故常发地点或路段,减少交通事故的发生;通过对各条道路的交通流量进行分析,挖掘出交通运行规律,及时制定有效的疏导交通方案,确保道路畅通。2 文献综述2.1 数据挖掘2.1.1 数据挖掘的概念在1989年8月于美国底特律市召开的第一届国际联合人工智能学术会议上,数据库、数理统计等领域的专家首次提出了从数据库中发现知识(KnowledgeDiscovery in Database,KDD)。李德仁在 1994 年于加拿大渥太华举行的 GIS 国际学术会议上,首次提出了从 GIS 数据库中发现知识(Knowledge Discovery fromGIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它促使GIS 成为智能化的信息系统3,并率先从 GIS 空间数据中发现了用于指导 GIS 空间分析的知识4。1995 年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,又出现了数据挖掘(Data Mining,DM)5。在1996年出版的总结该领域进展的权威论义集知识发现与数据挖掘研究进展中,Fayyad等人重新给出KDD和数据挖掘的定义,将二者加以区分:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解模式的过程,涉及的范围比较广;数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤,是KDD的一部分。之后又衍生出知识提取、数据发掘、数据采掘、数据开采、信息收获、信息发现等含义相同或相近的专业术语。数据挖掘(Data Mining),也可以称为数据库中的知识发现(Knowledge DiscoverDatabase,KDD ),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、非平凡的及有潜在应用价值的信息或知识的过程。数据挖掘技术融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘有很多模型和算法,其中大部分算法都不是专为解决某个问题而特制的,具有通用性。数据挖掘技术是数据量急剧膨胀的需求,有着较强的实用性,所以尽管这项技术刚刚起步,但己经成功地应用于科学研究、市场营销、金融投资、欺诈检测、医学、体育等方面,并在更为广泛的领域中显示出了诱人的前景6。数据挖掘的过程一般分为三个阶段:数据准备、数据挖掘和知识的确认与提炼,并且根据挖掘的结果不同,这一个过程可以反复执行。过程如图 2-1 所示:图2-1 数据挖掘过程的反复性2.1.2 数据挖掘的方法在对数据挖掘处理过程中,选择怎样的数据挖掘方法至关重要。目前数据挖掘的方法7主要有以下几类:数据统计方法:使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。例如,可由训练数据建立一个 Bayesian 网,然后,根据该网的一些参数及联系权重提取出相关的知识。机器学习方法:大多数机器学习方法使用人类的认识模型模仿人类的学习方法从数据中提取知识,由于机器学习经过多年的研究,已取得了一些较满意的成果,因此,在 KDD 中可以利用目前比较成熟的机器学习方法。关联规则方法:挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如关联规则“90%客户在购买面包的同时也会购买牛奶”,其直观意义为顾客在购买某些商品的时候有多大倾向会购买另外一些商品。多层次数据汇总归纳数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集归纳成更高概念层次信息的数据挖掘技术被称为数据汇总。概念汇总将数据库中的相关数据由低概念层抽象到高概念层,主要有数据立方体和面向对象的归纳两种方法。决策树方法利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树方法是 J.R.Quinlan 提出的 ID3 方法,它对越大的数据库效果越好,在 ID3 基础上后人又发展成各种决策树方法的变型。粗集方法9(Rough Set):粗集理论是近年来才兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。它模拟人类的抽象逻辑思维,以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的。它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的。简化知识表达空间是基于不可分辨关系的思想和知识简化的方法来进行的,从数据中抽取推理逻辑规则作为知识系统的模型,它是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。神经网络方法8模拟人脑神经元方法,以 MP 模型和 HEBB 学习规则为基础,建立了三大类多种神经网络模型:前馈式网络、反馈式网络、自组织网络。它是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。覆盖正例排斥反例方法利用覆盖所有正例排斥所有反例的思想来寻找规则,比较经典的有 Michalski 等人的 AQ15 方法和 AE5 方法。可视化技术8将数据与结果转化和表达成可视化的形式,如图形、图像等,使用户对数据的剖析更清楚。2.2 空间数据挖掘2.2.1 空间数据挖掘概述空间数据挖掘技术(Spatial Data Mining)是在空间数据库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神经网络技术、粗糙集、模糊数学、机器学习、专家系统和相关信息、技术等,从大量的空间生产数据、管理数据、经营数据或遥感数据中析取人们可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取,提供技术决策与经营决策的依据10。简单地讲,SDM是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程。SDM的对象主要是空间数据库,而空间数据库中不仅存储了对象的属性数据、几何数据,还以图像的形式存储了对象之间的空间映射关系,因此空间数据挖掘在其数据结构和处理问题的方法等方面存在一些与数据挖掘的明显差异,形成了独有的特点,是数据挖掘的一个重要研究分支。Shashi Shekhar等人将空间数据挖掘与数据挖掘进行了全面的对比,得出它们4个方面的差异11:1)空间数据的复杂性;2)统计学基础;3)可发现知识类型;4)算法过程。2.2.2 空间数据挖掘的知识分类与数据挖掘可发现广义型知识、分类型知识、关联型知识和预测型知识相对应,空间数据挖掘发现的知识主要有以下几种12:1) 空间关联/序列规则:空间实体之间同时出现的内在规律,是指空间实体间相邻、相连、共生和包含等空间关联规则,发现的知识采用逻辑规则表达。2) 空间特征/区分规则:某类或几类空间实体的几何和属性的共性特征,即对共性的描述。3) 空间分类/回归规则:根据空间区分规则把集中的数据映射到某个给定的类上,用于数据预测。空间回归规则与其相似,也是一种分类器,其差别在于空间分类规则的预测值是离散的,空间回归规则(Spatial Regression Rules)的预测值是连续的。4) 空间聚类/函数依赖规则:是指将特征相近的空间实体数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,可用于空间实体信息的概括和综合。5) 空间演变规则:指空间目标根据时间变化的规则,即哪些地区易变,哪些地区不易变,哪些目标易变及怎么变,哪些目标固定不变。2.2.3 空间数据挖掘的体系结构空间数据挖掘可以分为三层结构13-15,第一层为数据指利用空间数据库或数据仓库管理系统提供的索引、查询优化等功能获取和提炼与问题领域相关的数据,或直接利用存储在空间数据立方体中的数据,这些数据可称为数据挖掘的数据源或信息库。在这个过程中,用户直接通过空间数据库(数据仓库)管理工具交互地选取与任务相关的数据,并将查询和检索的结果进行必要的可视化分析,多次反复,提炼出与问题领域有关的数据,或通过空间数据立方体的聚集、上钻、下翻、切块、旋转等分析操作,抽取与问题领域有关数据,然后再开始进行数据挖掘和知识发现过程。第二层为挖掘器,利用空间数据挖掘系统中的各种数据挖掘方法分析被提取的数据,一般采用交互方式,由用户根据问题的类型以及数据的类型和规模,选用合适的数据挖掘方法,但对于某些特定的专门的数据挖掘系统,可采用系统自动地选用挖掘方法的方式。第三层为用户界面,使用多种方式(如可视化工具)将获取的信息和发现的知识以便于用户理解和观察的方式反映给用户,用户对发现的知识进行分析和评价,并将知识提供给空间决策支持使用,或将有用的知识存入领域知识库内。在整个数据挖掘过程中,用户能够控制每一步。空间数据挖掘的体系结构如图2-2所示:图2-2 空间数据挖掘的体系结构2.2.4 空间数据挖掘的研究动态空间数据挖掘近年来的主要研究方向有:针对海量数据的算法研究、以神经网络为代表的智能方法成为解决空间非线性关系的主要工具、尺度空间概念的应用、模糊集和粗集理论的应用、多维数据的挖掘算法、空间数据的缺值研究,等等。对于空间关联规则的挖掘研究目前关注的人还很少,国外主要有加拿大西蒙弗雷泽大学的韩家炜研究的基于空间数据库的关联规则挖掘算法16。在国内李德仁院士最早关注空间数据挖掘,随后李德仁院士、李德毅院士及邸凯昌等人提出了状态空间理论和云理论并将其运用到空间数据挖掘中来。邸凯昌等人提出了基于语言云模型的空间关联规则的挖掘方法。陆勤,蔡庆生等人研究了一种空间关联规则的渐进式挖掘方法。这两种算法为空间关联规则的挖掘奠定了重要基础,但还有很多关于空间关联规则的方面没有涉及。此外,国内空间数据挖掘技术已应用于多个方面,并出现成果,如在土地定级估价17、城市地下管网 GIS18、精准农业19、城市功能分区20等领域。诸多学者对空间数据挖掘中的不确定性21、空间数据的尺度22、知识的可视化表达23、算法优化等问题进行了研究和探索,并取得一系列阶段性成果。国内空间数据挖掘在探索研究中日益成熟。2.3 空间关联规则2.3.1 空间关联规则概述空间关联规则(Spatial Clustering Rules)是指空间实体之间同时出现的内在规律,描述在给定的空间数据库中,空间实体的特性数据项之间频繁同时出现的条件规则12。第一,空间关联规则主要指空间实体间的相连、相离和包含等关联规则,包含单个谓词的为一维空间关联规则,包含两个或两个以上实体或谓词的叫做多维空间关联规则。第二,关联规则的形式包括一般关联规则和强关联规则等。第三,关联规则的模式属于描述型的模式,以类似SQL语言的形式描述关联规则,能够使空间数据挖掘的研究与国际标准的数据库查询语言SQL接轨空间关联规则。与经典数据挖掘中关联规则形式“AB”相似,其中 A 和 B是一系列谓词。不同于经典关联规则,这里的谓词部分至少有一个是有空间意义的。空间谓词指的是那些能够描述空间关系的谓词24。空间关联规则的形式有多种,如空间目标之间相离、相邻、相连、共生、包含、被包含、覆盖、被覆盖、交叠等空间拓扑关系是典型的空间关联规则;“居民地(城镇)与道路相连”,“道路与河流的交叉口是桥梁”等用自然语言描述的知识同样属于空间关联规则范畴:空间分布规律本质上也是一种空间关联知识,它反映了所感兴趣的对象与空间位值或高程的关联等等。一般可以采用四个参数来描述一个关联规则的属性:1)支持度:设S中有s的事务同时支持谓词集A和B,s称为关联规则AB的支持度。支持度描述了A和B这两个谓词集的并集C在所有的事务中出现的概率有多大。2)可信度:指在出现了谓词集A的事务T中,谓词集B也同时出现的概率有多大。3)期望可信度:在没有任何条件影响时,谓词集B在所有事务中出现的频率有多大。4)作用度:可信度和期望可信度的比值。描述谓词集A的出现对谓词集B的出现有多大的影响。如表2-1所示:表2-1 参数计算公式名称描述公式支持度谓词A、B同时出现的概率P(AB)可信度在谓词A出现的前提下,B出现的概率P(B|A)期望可信度谓词B出现的概率P(B)作用度可信度对期望可信度的比值P(AB)/P(B)2.3.2 空间关联规则分类根据不同的情况可以将空间关联规则进行分类25:1) 基于规则中数据的尺度层次:单尺度空间关联规则和多尺度空间关联规则。单尺度空间关联规则中,所有的数据都是基于同一个尺度和分辨率的,不考虑空间数据的多分辨率特性;而多尺度空间关联规则考虑到空间数据的多尺度性,可以从一个尺度的空间关联规则推导其它尺度同一空间对象的空间关联规则。2) 基于规则中数据所跨越层次:单层空间关联规则和多层空间关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层空间关联规则中,对数据的多层性已经进行了充分的考虑。3) 基于规则中涉及到的数据的维数:单维和多维空间关联规则。在单维的关联规则中,只涉及到数据的一个维,一般是空间对象的自包含关系;多维关联规则是处理各个属性之间的某些关系。2.3.3 空间关联规则的研究进展目前空间关联规则已经在多个方面取得了应用,如基于概念树的空间关联规则挖掘算法及其在土地利用分析中的应用26、地形特征与山地气候变化空间关联规则数据挖掘研究27、空间关联规则在林业信息系统中的应用28、空间关联规则挖掘在中国农业普查中的应用研究29、基于云南气象数据的空间关联规则挖掘30、图像情报知识的空间关联规则挖掘研究31等方面。同时也有很多关于算法方面的研究,旨在挖掘效率的提高,如一种基于云理论的空间关联规则提取算法32、挖掘空间关联规则的前缀树算法设计与实现33、基于多最小支持度的空间关联规则发现34、空间关联规则的双向挖掘35等。此外,基于不确定空间信息的挖掘、挖掘过程及结果的可视化、弱空间关联规则的挖掘等也是空间关联规则研究的主要方面。2.4 时空序列分析2.4.1 时空序列分析的产生时间序列(Time Series)是指被观测到的依时间次序排列的数据序列。从随着Packard等的重构状态空间思想以及Takens 嵌入定理的提出,使得单变量时间序列分析方法和预报方法发展起来,并在这十几年取得了很大的成就。但是在20世纪80年代末,单变量时间序列分析理论和方法的应用在学术界引发了一些争论,争论的焦点不在于对大气运动基本性态的认识,而在于被分析的样本数量和质量能否给出这样的结论。争论的结果极大的推动了时间序列分析理论的发展。一般说来,大多数来自实际的时间序列,特别是描述气候过程的时间序列,它们的数量是很有限的,远不及那些理论判据所要求的资料数量,这个难题被称之为时间序列理论应用上的“数量瓶颈”。为了解决这个问题,大气科学家开展了被称之为“多变量时间序列分析”或“场时间序列分析”的试验研究。他们考虑用不同空间位置上的观测资料来重构动力系统,试图用空间资料来弥补时间资料的不足,以改善系统的遍历性。这些试验首先从气候吸引子的维数估计开始的,并获得了成功。最近,一些学者把这个思想应用到场时间序列的预测分析上,得到令人鼓舞的结果可以说,场时间序列预测理论研究是单变量时间序列研究的一个自然的或者说是必然的发展36。我们有理由认为场时间序列分析在区域气候预测领域已显示了一定的应用前景。这里给出时空序列的定义:时空序列(Space-Time Series)是时间序列在空间上的扩展,指在空间上有相关关系的多个时间序列的集合。对时空序列的分析、建模及预测称为时空序列分析。时空序列分析属于时空建模的范畴。时空建模(Space-time Modeling)指依据给定的时空数据,寻找一种分析方法,建模和预测未观测时空位置的属性值的过程(Cliff and Ord 1975)。2.4.2 时空序列分析的方法随着地理统计方法的出现,时空预测能够通过Kriging法来完成,Kriging方法就是对可用的属性值做一个线性组合,用最小二乘法来估计出来知属性值的程序。起初,Kriging法成功的运用到了空间插值上。后来许多人把Kriging的法则运用到时空领域,这时可以将时间和空间的相关属性分离出来考虑,但是这种方法缺乏坚实的理论基础。另一种就是时间和空间的相关属性同时建模这里的关键问题就是当可用的审间样本数和时间历史长度存在差异时如何有效地去估计时空属性的统计量。另外,当空间样本数很多时,用Kriging法可能会造成计算量非常大的问题,而且当空间层数较少时,又会造成病态的线性系统。所以,把时空Kriging法及其变量运用到预测空间样本数很多而历史观测值相对较少的情况中不是很理想。状态空间建模是完成时空过程的一个有效方法。在时空Kalman滤波中观察到的变量是由一个时空过程和空间不相关的测量误差构成的。在时间连续的情况下,用一个复杂的递归程序根据可用的历史信息算出状态向量的最优估计来预测属性值。Stroud在1999年已经把类似的模型应用到气象和海洋数据的插值中。Wilde在2001年证明了可以把状态空间和随机模拟两种方法相结合,解决时间历史数据很长的复杂结构模型的参数最优化。更好的方法是把Kalman滤波和地理统计模型相结合。状态空间模型中用的这些方法既可以应用存均匀网格上也可以用在非均匀网格上,它们在预测模型中有很多优势。但是,Kalman滤波造成的误差几乎不能被抵消,因为时间层的数据很少而且滤波的实际瞬态时间比由数据生成的可用时间要长,因此,预测具有很少历史观测值的时空数据就很难得到令人满意的结果。1974年,剑桥大学的地理学家Cliff和沃里克大学的统计学家Ord在Curry和Wilson等人工作的基础上,提出了时空序列建模的框架:在进行时空建模时,基于空间相关性的考虑,提出将空间自相关、空间移动平均和空间回归等空间统计模型引入到时间序列模型中,使之成为时空序列模型。时空自相关移动平均(STARMA)模型本质上是一个线性模型,只能捕捉线性的时空自相关结构,在建模时假设时空序列是平稳的时空过程,对于非平稳时空序列,需要进行平稳转化后才能用STARMA进行建模。这对于空间和时间上都离散的时空序列是适用的,例如国民生产总值、土地利用类型、房地产价格等反映社会经济统计的序列数据。这些数据只需考虑时间过程的平稳性,不需考虑空间过程的平稳性。此后,在其它学科领域中也出现了许多时空模型。将这些时空模型按照实现方法的不同进行分类,大致分为:时空动力学方法、时空回归统计学方法、时空地统计学方法、时空插值方法、状态空间和随机理论方法、卡尔曼滤波方法、层次贝叶斯方法、智能计算方法和时空数据挖掘方法。目前国内时空序列已在多个方面取得应用,比如T63模式月动力延伸预报高度场的改进实验37,采用非平稳性时空序列分析;时空序列预测误差的敏感性试验分析38,采用时空动力学方法;基于时空序列模式匹配的兴趣点推荐方法39,采用时空动力学方法;基于时空序列的铁路客运量数据挖掘预测40,采用BP神经网络方法;时空序列预测分析方法在华北旱涝预测中的应用41,采用时空动力学方法;长波辐射时空序列剖面中震兆特征的研究42,采用OLR时空序列剖面图分析方法;基于时空序列分析的温室测控系统WSN故障诊断43,采用平稳时间序列分析方法;纯理论研究,如线性与非线性时空序列模型研究44,对比分析线性时空序列模型和非线性时空序列模型的优势与不足,并对其的进行改进。二、论文的研究内容、研究目标,以及拟解决的关键问题(包括具体研究与开发的主要内容、目标和要重点解决的关键技术问题)1 研究目标以案事件数据为例进行数据挖掘,找出各属性之间,如案发时间、案发地点、案发手段或者案件级别等之间潜在的空间或者非空间知识,为公安工作提高办案、破案效率,合理分配警力资源提供决策辅助。2 研究内容l 利用空间关联规则,对某类案件或多类案件的空间规律进行分析:如入室抢劫案的多发地有何空间结构,如邻近网吧、公园或者旅店等,并从省级、市级以及县/区级等不同尺度进行分析,找出省级尺度上的、市级尺度上以及县/区级尺度上的犯罪规律。l 利用时空序列分析方法,针对案事件数据时间跨度大的特点,挖掘不同时间尺度下的犯罪规则,如年、季、月、日等时间间隔下,某类案件或多类案件的规律,如分析1月份的作案高峰期,主要犯罪类型,犯罪手段或者某地区不同时间段犯罪规律的变化。l 通过STARMA模型建模,综合周边环境的影响因素,对某地区犯罪率或者犯罪类型等属性等进行预测。3 预期成果特色综合目前所阅读的文献以及了解的信息,预计论文工作有如下特色:1) 目前,数据挖掘在公安工作中的应用主要有以下几个方面:出入境分析、犯罪行为分析、刑事案件、犯罪嫌疑人个性心理特征、犯罪风险、旅店业管理、利用粗糙集规则对公安出入境数据简化研究以及数据挖掘算法的研究等,在案事件分析方面的应用还少有涉及。2) 用于公安工作的应用挖掘更侧重属性方面的内容,在空间关系方面的挖掘还比较欠缺。根据犯罪地理学的理论,犯罪是与地理紧密联系的47,只有属性规律,没有空间规则对公安工作了来说是远远不足的。本文利用空间数据挖掘和时空序列方法等方面的知识,不仅从属性规则挖掘入手,还弥补了空间规则挖掘上的不足。3) 目前还很少有人将时空序列分析的方法运用于公安业务数据挖掘,而公安业务数据又具有时间跨度大等特点,所以选择时空序列分析的方法能从尺度上挖掘到有价值的知识,并且通过STARMA对犯罪率或者犯罪类型等属性进行预测。三、拟采取的研究方案及可行性分析 (包括研究的基本思路,研究过程拟采用的方法和手段,现有研究条件和基础,研究开发方案和技术路线等)1 技术路线结合文献5,45有关数据挖掘的一般过程,本文技术路线如图3-1所示: 图3-1 案事件数据的挖掘与分析流程(Fayyad)1) 数据选取:确定目标数据,根据挖掘任务从原始数据库中检索案事件相关数据,如案发地,案发时间,福建省行政区图等。2) 数据预处理:检查目标数据的完整性和一致性,消除数据不一致性,滤除冗余数据,抑制噪声干扰,填充缺失数据等。3) 数据变换:通过数学变换或降维技术对经过预处理的数据进行再处理,把数据变换成适合挖掘的形式,如简要统计、相对指标计算、投影变换等。4) 数据挖掘:整个过程的核心步骤,选择关联规则,空间关联规则以及时空自回归移动平均模型方法,从变换后的目标数据中发现模式和普遍特征,并以一定的方式把发现的模式表示出来。5) 模式的解释和知识评估:采用人机交互方式进行,尽管挖掘出的规则和模式带有某些置信度、兴趣度等测度,通过演绎推理可以对规则进行验证,但这些模式和规则是否有价值,最终还需由人判断,若结果不满意则返回到前面的步骤。6) 挖掘结果的可视化表达:根据公安数据的特点,用统计图表、专题图、模型以及动画视频等方式,使结果直观化。7) 战略决策阶段:通过对案事件进行分析,科学部署警力,从而来预防犯罪。2 研究方案2.1 Apriori算法Apriori算法是关联规则的经典算法,本文使用Apriori算法对空间分析后的频繁谓词集进行关联分析,找出潜在有价值的知识。Apriori算法,使用的是一种逐层搜索的迭代方法,即由k-项集搜索(k+1)-项集。首先,找到频繁1-项集的集合,记作L1。L1用于找到频繁2-项集的集合L2,而L2用于找L3,以此类推,直到不能找到频繁k-项集,每一次搜索都需要扫描一次数据库。生成的频繁项集数目不一定对我们的研究都是有帮助的,并且过多的频繁项集对不利于关联规则的生成,所以本文引入剪枝技术,来减少频繁候选集的大小,这样可以改进算法的性能。算法流程图如下:图3-2 Apriori算法流程图其中,Apriori-gen函数为Apriori候选产生函数。Apriori算法的第一次遍历仅仅计算每个项目的具体值的数目,以确定大型1阶项集。在公安数据中,Apriori算法并不是完全适用。例如以下情况:如新型犯罪类型的增加,或者案例少但地位重要的案件,Apriori算法挖掘出来的结果往往就不是很理想。这时候就需要对算法进行改进,如针对新罪种增加,可以引入敏感性Apriori算法,而针对重大案件可以引入加权Apriori算法。同时,由于数据量大,每次都要对数据库进行扫描耗时长,可以通过减少数据扫描次数来提高效率,方法如散列法、划分法以及抽样法等。2.2 空间关联规则空间关联规则可以用如下形式表示:其中S%表示此规则支持度,c%表示此规则置信度。在犯罪预防及犯罪侦查中,利用空间关联规则,我们可以挖掘出如犯罪高发地的位置分布等类似知识,举例表示如下:该式表示靠近旅馆和网吧的住宅区是犯罪高发地。空间规则挖掘流程如图3-3所示:图3-3空间关联规则流程1) 空间查询和空间分析:从原始空间数据库中获取和任务相关的数据,生成目标任务空间数据库;2) 空间分析(空间计算):计算对象之间的空间关系,如相交、相离或是覆盖等,可以使用MBR方法,即最小外接矩形,一个对象的MBR定义为以某个对象为中心,以L为半径的矩形。通过判断不同对象MBR之间的拓扑关系可以挖掘出两个空间关联位置模式;3) 选择频繁谓词:计算谓词支持度,虑过小于最小支持度的支持度;4) 精确空间计算:将第三步筛选出的谓词集作为输入数据,进行关联分析,生成强空间关联规则。2.3 时空自回归移动平均模型时空数据相对一般时间序列数据和空间数据,具有海量、动态、高维、多尺度、时空相关等特性。时空数据又可分为时间上连续、空间上离散,时间上连续、空间上连续,时间上离散、空间上离散,时间上离散、空间上连续这四种情况。在案事件中,任何一类案件都是在一定时间和空间上变化的,除了时间上的由此及彼的关联外,还存在着空间结构上的复杂关联。其时空数据属于时间上离散,空间上也离散的情况。时空自回归移动平均模型(STARMA,space-time autoregressive-moving average processes)能较好的应用于时间和空间属性都离散的情况46。流程图如图3-4所示:图3-4 STARMA模型计算流程图其中,地理分区可能打破行政区划边界,针对某一功能进行分区,如商业区,住宅区和工业区等,或者以派出所的分布来进行重新划分。时空延迟算子表示时空变量值同时受到时间延迟和空间延迟影响的操作,用B(k)L(h),k和h分别表示时间延迟期数和空间延迟阶数。参数估计主要是估计STARMA模型的参数值,常用的方法有最小二乘法估计和极大似然估计。如果残差是随机误差,即满足均值为0,自协方差为0,否则残差不是随机分布。精度估计是为了比较模型的拟合与泛化性能。 STARMA模型建模,在高尺度上对区域犯罪率或犯罪类型等属性进行预测。通过预测,能够对未来警力部署进行合理规划。案事件数据时间跨度大,又可以按年、季、月,节假日、非节假日或者春节等时间间隔对其进行分析,每个时间层次上也有着各自对应的规则或知识。3 研究方案可行性本文研究方案的制定是在阅读和学习大量国内外相关文献资料后进行客观总结归纳,以及与吴升老师、毛政元老师、博士生等课题组成员的多次讨论基础上进行的。这些文献资料均来源于国内外学术专著、学术论文数据库。而且课题组成员对本文的支撑课题已经有较长时间的研究,对研究工作已有比较深刻的认识。同时,课题获得国家863项目“海峡西岸公共安全应急指挥与位置服务应用示范”的支持。本文的研究以福建省为示范区,需要福建省案事件相关数据。由于数据的保密性,在此只列出论文相关的案事件数据的几个关键属性:案件名称,案发时间,案件类别,案发地(区、县),案发地派出所,案件级别,作案人数等,并且数据的时间跨度大。4 论文进度安排2012年1月 2012年3月(3个月)在已有的文献积累的基础上,进行详细设计,熟悉各种数据挖掘算法。2012年4月 2007年 5月(2个月)收集相关数据,对数据进行分析,并进行清洗、补充、变换等预处理。2012年6月 2012年9月(4个月)对数据挖掘算法进行深入研究,选择合适的数据挖掘算法,进行初步的实验与分析。2012年10月 2012年12月(3个月)针对数据特点,对数据挖掘算法进行改进,并进行实验。2013年1月 2013年3月(3个月) 结合两次分析的结果,对算法进行评估,并对结果进行分析,找出潜在的,有价值的规则,并对结果进行可视化表达,选择合适的方式使数据直观化。2008年4月2008年5月(2个月)撰写硕士论文,准备答辩阶段2013年6月(1个月) 审核修订与答辩准备四、参考文献1 程日能. 数据挖掘技术在警务综合信息系统的应用研究D. 广东工业大学: ,2011.2 关昆. 数据挖掘在公安犯罪行为分析中的应用研究D. 山东科技大学: ,2006.3 Li D.R., Cheng T.KDGKnowledge discovery from GISProceedings of the CanadianConference on GISOttawa, Canada, 1994, p.100110124 王树良基于数据场与云模型的空间数据挖掘和知识发现D武汉:武汉大学,20025 赵璐. 基于MATLAB的空间数据挖掘系统(M-SDM)设计与实现D. 山东师范大学: ,2008.6 张希雯. 基于GIS的空间同位规则挖掘算法的实现及应用研究D. 厦门大学: ,2007.7 叶枫. 基于GIS的人口统计数据分析D. 苏州大学: ,2008.8 Rezende S.O., Oliveira R.B.T., Felix L.C.M. & Rocha C.A.J., Visualization for Knowledge Discovery in Database, Data Mining.9 Griffin G., Chen Z., Rough Set extension of Tcl for data mining Knowledge-based systems,1998,11,249-253.10 袁红春等.空间数据挖掘及其与智能系统的集成框架.信息与控制.2002,31(4):304-309.11 张希雯. 基于GIS的空间同位规则挖掘算法的实现及应用研究D. 厦门大学: ,2007.12 康大伟. 基于GIS和空间数据挖掘的事故分析系统的研究与开发D. 江苏大学: ,2007.13 李国锋. 空间数据挖掘技术研究D. 西安电子科技大学: ,2005.14 潘玲. 空间数据挖掘与GIS集成技术研究D. 武汉理工大学: ,2007.15 王艳. 城市空间数据挖掘方法与应用研究D. 山东师范大学: ,2004.16 张群洪. 基于J2EE的空间关联规则挖掘理论研究与原型系统实现D. 福州大学: ,2004.17 贾泽露智能化土地定级估价信息系统设计与实现J测绘科学,2007,32(4):152-15418 崔阳,王华城市地下管网 GIS 中的空间数据挖掘模型设计J计算机工程与设计,2006,27(17):3193319519 Wang Shengsheng, Liu Dayou, Xin Ying, et alSpatial reasoning based spatial data mining for precision agricultureCAPWeb 2006 International Workshops: XRA, IWSN, M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论