大数据技术及应用教学课件第1章-大数据技术概述_第1页
大数据技术及应用教学课件第1章-大数据技术概述_第2页
大数据技术及应用教学课件第1章-大数据技术概述_第3页
大数据技术及应用教学课件第1章-大数据技术概述_第4页
大数据技术及应用教学课件第1章-大数据技术概述_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术及应用

BigDataTechnologyandApplicationCONCENTS目录第1章大数据技术概述第2章大数据采集与预处理第3章大数据存储技术第4章大数据分析挖掘-分类第5章大数据分析挖掘-回归CONCENTS目录第6章大数据分析挖掘-聚类第7章大数据分析挖掘-关联规则第8章大数据可视化技术第9章电信行业大数据应用第10章其他行业大数据应用cont.第1章大数据技术概述

大数据应用010203主要内容大数据技术

什么是大数据01020304大数据是指大小超出传统数据库工具的获取、存储、管理和分析能力的数据集。—麦肯锡新一代的技术与架构体系,它被设计用于在成本可承受的条件下,通过高速采集、发现和/或分析等手段,从海量、多样化的数据中提取经济价值。—IDC大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。—Gartner大数据是指无法在可承受的时间范围内用常规软件工具进行获取、管理和处理的数据集。—维基百科什么是大数据?1如何理解大数据?从数据自身特征如何理解大数据?从数据处理方法

传统的数据处理方法已经不能适应大数据处理的需求,需要根据大数据的特点,对传统的常规数据处理技术进行变革,形成适用于大数据发展的全新体系架构,实现大规模数据的获取、存储、管理和分析。如何理解大数据?从人类认知方式

大数据与三个重大的思维转变有关:首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,乐于接受数据的纷繁复杂,而不再追求精确性;最后,不再探求难以捉摸的因果关系,转而关注事物的相关关系。——ViktorMayer-Schönberger大数据技术2数据采集系统日志

几乎所有的数字设备在运行过程中,都会将有关自身运行的信息记录到日志文件中。日志数据包含丰富的信息,具有很高的实用价值。网络数据采集系统

综合运用网络爬虫、分词系统、任务与索引系统等技术,从互联网海量信息中获取非结构化和半结构化数据,数据采集传感器采集

在信息时代,传感器已经成为人类生产、生活、科研等活动中的重要工具,源源不断地向人类提供宏观与微观的各种信息。数据预处理数据清洗数据集成数据转换数据规约去除噪声数据,合并或清除重复数据,纠正或删除错误数据,处理缺失数据,纠正数据中的不一致性。整合来自不同数据源的数据,存放在统一的数据库或者数据仓库中,包括模式集成、冗余数据集成、数据值冲突的检测与处理等。对数据进行规范化处理,将数据转化成适合挖掘的形式。在不损害挖掘结果准确性的前提下,通过有效的数据采样和属性选择,缩小数据集的规模,提高数据挖掘的效率。数据存储与管理分布式文件系统

大数据存储管理中最基础、最核心的组成部分。目前常用的有Hadoop分布式文件系统(HDFS)、Google分布式文件系统(GFS,已演化成Colossus系统)、淘宝文件系统(TFS)等。数据存储与管理分布式数据库

构建于分布式文件系统之上,用于实现数据的存储管理和快速查询。分为传统的关系型数据库、非关系型数据库(NoSQL)和新型数据库(NewSQL)。

关系型数据库技术成熟,代表产品有Oracle、SQLServer和MySQL。NoSQL数据库具有自由灵活的数据模型,适宜存储非结构化数据,而且扩展方便。NewSQL是一类新型的分布式关系数据库,融合了NoSQL和传统数据库的特点。数据分析与挖掘机器学习使计算机模拟人类的学习行为,从而自动发现和获取新知识新技能,并通过经验知识改善自身的性能。分为监督式学习、非监督式学习和半监督式学习。统计分析以概率论为基础,对大量随机数据进行收集、整理、建模,从而推断出其中存在的统计规律性。数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。数据展现与可视化科学可视化

主要面向科学实验与工程测量数据,利用计算机图形学和图像处理等技术,将具有空间几何特征的数据中所蕴含的时空现象和规律通过三维、动态模拟等方式表现出来。信息可视化

主要面向没有明显几何属性和空间特征的数据,综合运用计算机图形学、视觉设计、人机交互、心理学等学科中的技术和理论,用可视化的形式展现抽象数据中隐藏的特征、关系和模式等。大数据应用3政府管理市场监管社会管理政府数据开放与社会创新工业领域研发设计环节生产制造环节市场营销环节售后服务环节商业领域金融行业零售行业物流行业广告业……公共服务电信行业交通管理

医疗卫生

教育行业

环境保护……习题1.1什么是大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论