tceic.com
学霸学习网 这下你爽了
赞助商链接
当前位置:首页 >> 工学 >>

北邮 大数据技术课程重点总结


大数据技术
1.什么是数据挖掘,什么是机器学习: 什么是机器学习
关注的问题:计算机程序如何随着经验积累自动提高性能; 研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识或技能, 重新组织已有的知识 结构使之不断改善自身的性能; 通过输入和输出,来训练一个模型。

2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程
预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。 手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达 成了特征,通常线性模型就能达到满意的精度。

4.大数据分析的主要思想方法
4.1 三个思维上的转变
关注全集(不是随机样本而是全体数据) :面临大规模数据时,依赖于采样分析;统计学习 的目的——用尽可能少的数据来证实尽可能重大的发现; 大数据是指不用随机分析这样的捷 径,而是采用大部分或全体数据。 关注概率(不是精确性而是概率) :大数据的简单算法比小数据的复杂算法更有效 关注关系(不是因果关系而是相关关系) :建立在相关关系分析法基础上的预测是大数据的 核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。

4.2 数据创新的思维方式
可量化是数据的核心特征(将所有可能与不可能的信息数据化) ;挖掘数据潜在的价值是数 据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。 数据混搭为创造新应用提供了重要支持。 数据坟墓:提供数据服务,其他人都比我聪明! 数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位 置、输入的信息。

4.3 大数据分析的要素
大数据“价值链”构成:数据、技术与需求(思维) ;数据的价值在于正确的解读。

5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用 0、1 表示的二进制码的过程

6.基于协同过滤的推荐机制
基于协同过滤的推荐 (这种机制是现今应用最为广泛的推荐机制) ——基于模型的推荐 (SVM、 聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度) :表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度) :表示绝对的距离 这种推荐方法的优缺点: 它不需要对物品或者用户进行严格的建模, 而且不要求物品的描述是机器可理解的; 推荐是 开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。 数据稀疏性问题, 大量的用户只是评价了一小部分的项目, 而大多数的项目是没有进行评分; 冷启动问题, 新物品和新用户依赖于用户历史偏好数据的多少和准确性, 一些特殊品味的用 户不能给予很好的推荐。

7.机器学习:构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数 据

8.机器学习的基础算法之 PLA 算法和 Pocket 算法(贪心 PLA)
感知器——线性二维分类器,都属于二分类算法 二者的区别:迭代过程有所不同,结束条件有所不同; 证明了线性可分的情况下是 PLA 和 Pocket 可以收敛。

9.机器为什么能学习

学习过程被分解为两个问题: 能否确保 Eout(g) 与 Ein(g) 足够相似? 能否使 Ein(g) 足够小? 规模较大的 N,有限的 dVC,较低的 Ein 条件下,学习是可能的。 切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。

10.VC 维:

11.噪声的种类:

12.误差函数(损失函数)

13.给出数据计算误差

14.线性回归算法:简单并且有效的方法,典型公式

线性回归的误差函数:使得各点到目标线/平面的平均距离最小!

15.线性回归重点算法部分:

16.线性分类与线性回归的区别:

17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。 解决方案:使用简单的模型,数据清洗(整形) ,正则化,验证。

18.正则化

19.分布式文件系统:

一种通过网络实现文件在多台主机上进行分布式存储的文件系统; 分布式文件系统一般采用 C/S 模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户 端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。

20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上, 成千上万的计算机节点构成计算机集 群。 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是, 目前的分布式文件系统 所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。

21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成, 这些节点分为两类, 一类 叫 “主节点” (MasterNode)或者也被称为 “名称结点” (NameNode), 另一类叫 “从节点” (Slave Node)或者也被称为“数据节点。

22.HDFS 主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
大的跨平台兼容性;

局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意
修改文件

块: hdfs 的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode 之间
的映射关系;hdfs

的数据节点存储文件内容、文件内容保存在磁盘、维护了 block id

到 datanode 本地文件的映射关系。

23.分布式数据库概述: 四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、 NoSQL 数据管理系统、NewSQL 数据管理系统、云数据管理系统。 并行数据库:

NoSQL 数据管理系统:

NewSQL 数据管理系统:

云数据管理系统:

Nosql 简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高; 关系数据库无法满足大数据表现: 无法满足海量数据的管理需求、 无法满足数据高并发的需 求、无法满足高可拓展性和高可用性的需求。

Nosql 与关系数据库的比较:

NoSQL 的四大类型:键值数据库、

列族数据库、

文档数据库、

图形数据库

NoSQL 的理论基础(CAP 与 ACID、BASE) CAP:

一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。

ACID(关系数据库的事务具有的四个特性)

BASE

NoSQL 到 NewSQL:

大数据应用: 百度大数据引擎的构成:开放云、数据工厂、百度大脑 开放云:

数据工厂:

百度大脑:

阿里大数据应用:去 IOE

大数据在电信行业的应用:

24.分布式并行编程框架 MapReduce

25.

MapReduce 的体系结构:Client、JobTracker、TaskTracker、Task

MapReduce 的工作流程:

Split(分片) :

Map 端的 Shuffle 过程详解:

Reduce 端的 shuffle 详解:

MapReduce 小结:

26.Spark 特点:

Hadoop 的局限性:

Spark 生态系统:

RDD:

RDD 的优势:

RDD 之间依赖关系的两种类型:

Stage 划分:

Sprak 小结:

流数据:

流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定) 、数据实时计算、实时 查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户) 。

流处理系统与传统数据处理系统的区别:

开源流计算框架——Storm(免费、开源的分布式实时计算系统) :

Storm 的工作流程:

流计算小结:

图计算系统——Pregel 简介:

BSP 模型:

图计算小结:

Pregel 计算模型:

Pregel 执行过程:

Pregel 容错机制:

HBase:

BigTable: 特点:

HBase:

HBase 与传统关系数据库的对比:

HBase 数据模型:

HBased 中的数据坐标:

HBase 功能组件:

Region 的定位:

HBased 系统架构:

Region 服务器工作原理:


推荐相关:

北邮 大数据技术课程重点总结_图文.doc

北邮 大数据技术课程重点总结 - 大数据技术 1.什么是数据挖掘,什么是机器学习

北邮在线解读大数据分析的5个基本方面.pdf

大数据分析的基础 就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深 入的、更加专业的大数据分析方法。 北邮在线大数据课程班火爆...

“大数据技术”学习方向.pdf

北邮在线大数据课程学习优势: 一、我们的讲师都来自于企业一线开发,同时引进企业技术负责人 授课(比如毕业于西安交大的张汉宁博士,为百度高级工程师), 每一位讲师...

大数据要学习哪些技术呢?.pdf

目前大数据技术平台有很多,归纳起来可以按照以下方式进行分类: 1. 从大数据处理...学大数据就选北邮在线!想拿高薪,选对行业很重要!学大数据,工资高,前景好! ...

信息安全课程总结(北邮).doc

信息安全课程总结(北邮)_工学_高等教育_教育专区。北邮研究生课程信息安全开卷...离群点是与数据集中大部分数据的观测值明显 不同的数据。 ?描述:发现概括数据...

2013-2017年北京邮电大学数字媒体技术专业毕业生就业大....pdf

2013-2017年北京邮电大学数字媒体技术专业毕业生就业大数据报告_院校资料_...!锐嗣 .,._II 专业样例 职业样例 专业介绍 专业课程 开设课程:程序...

Java:大数据技术领域的一匹黑马北邮在线_图文.doc

Java:大数据技术领域的一匹黑马 北邮在线 Java:大数据技术领域的一匹黑马 ...将上述能力汇总起来,Java 语言将成为成功的企业级物联网发展战略 当中不可或缺...

重庆邮电大学通信大数据实验报告1.doc

重庆邮电大学通信大数据实验报告1_学习总结_总结/汇报_实用文档。重邮通信学院大数据实验报告 姓名: 学号: 专业: 课程名称 实验地点 大数据技术及应用 YF317 课程...

大数据专业介绍-v3.0_图文.ppt

总结:对于消费者来说仅仅是大数据里的一员,对于...就业方向北邮在线大数据毕业之后主要从事的工作举例如...课程展示 课程结构 Android app 公共部分 课程体系...

北邮通信原理复习重点提示-高分考生总结.pdf

北邮通信原理复习重点提示-高分考生总结_研究生入学...这章讲编码,感觉跟通原关系不大了,像计算机的课程...正交频分复用与多载波调制技术第十一章的内容是通信...

北邮web技术.doc

北邮web技术_计算机软件及应用_IT/计算机_专业资料。阶段一 一、单项选择题(共...(错误) 若要提交大数据量的数据,则应采用( A. B. C. D. Get post ...

北邮《Web技术》阶段作业汇总.doc

北邮《Web技术》阶段作业汇总_工学_高等教育_教育专区。“Web 技术”作业 1....后的数据处理程序由(B)属性指定 B.Action 6.若要提交大数据量的数据,则应...

北邮大三上电子信息工程课程介绍.doc

北邮大三上电子信息工程课程介绍_教育学_高等教育_...《微处理器与接口技术》 先修课程:大学计算机基础、...专业的童鞋而言,是与数据库同样重要的专业基础课。...

信息网络安全课程总结(北邮研究生)_图文.pdf

信息网络安全课程总结(北邮研究生)_信息与通信_工程...技术复 杂、管理难度大); 6)安全的层次性; 7)...或双钥密码技术,即加密和解密数据使用不同的密钥 ...

高级计算机网络(英文)课程总结 北京邮电大学_图文.pdf

高级计算机网络(英文)课程总结 北京邮电大学_计算机...的数据,最后可以聚集成大数据,包含重新设计道路以...无线局域网络技术 IEEE 802.11 TECHNOLOGY, ...

2016_北邮期刊_图文.pdf

主要 研究方向为网络信息分析以及大数据处理技术,长期从事通信网管系统、网络信息...适合计算机学科研究生培 养质量保障体系研究》获得 2006 年北京邮电大学教学成果...

北京邮电大学2017年计算机技术专业目录_北邮考研论坛.pdf

北京邮电大学2017年计算机技术专业目录_北邮考研论坛_研究生入学考试_高等教育_...(全日制)数据科 学与大数据技术、 物联网 与服务计算 03(全日制)新型计 算...

2016北京邮电大学行政管理考研夏书章《行政管理学》重....pdf

2016北京邮电大学行政管理考研夏书章《行政管理学》...也比较大,考察对学 科整体的把握和对知识点的灵活...经过长期摸索,总结了一套成熟的考研专业课答题模 板...

北邮邹华老师分布式计算分布式计算环境_课程总结_图文.ppt

北邮邹华老师分布式计算分布式计算环境_课程总结_理学...点 信息视 点 计算视 点 工程视 技术视 点 ...保持其含义的,因此系统间交 换数据的可能性极大...

大数据的发展趋势及特征.pdf

大数据的发展趋势及特征大数据又一次引领技术变革大潮,作为中国官方重点...北邮在线 IT 培训机构根据时代需要,特开设大数据课程,并聘请一批核心...

网站首页 | 网站地图
All rights reserved Powered by 学霸学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com