tceic.com
学霸学习网 这下你爽了
相关标签
当前位置:首页 >> 工学 >>

北邮 大数据技术课程重点总结


大数据技术
1.什么是数据挖掘,什么是机器学习: 什么是机器学习
关注的问题:计算机程序如何随着经验积累自动提高性能; 研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识或技能, 重新组织已有的知识 结构使之不断改善自身的性能; 通过输入和输出,来训练一个模型。

2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程
预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。 手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达 成了特征,通常线性模型就能达到满意的精度。

4.大数据分析的主要思想方法
4.1 三个思维上的转变
关注全集(不是随机样本而是全体数据) :面临大规模数据时,依赖于采样分析;统计学习 的目的——用尽可能少的数据来证实尽可能重大的发现; 大数据是指不用随机分析这样的捷 径,而是采用大部分或全体数据。 关注概率(不是精确性而是概率) :大数据的简单算法比小数据的复杂算法更有效 关注关系(不是因果关系而是相关关系) :建立在相关关系分析法基础上的预测是大数据的 核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。

4.2 数据创新的思维方式
可量化是数据的核心特征(将所有可能与不可能的信息数据化) ;挖掘数据潜在的价值是数 据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。 数据混搭为创造新应用提供了重要支持。 数据坟墓:提供数据服务,其他人都比我聪明! 数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位 置、输入的信息。

4.3 大数据分析的要素
大数据“价值链”构成:数据、技术与需求(思维) ;数据的价值在于正确的解读。

5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用 0、1 表示的二进制码的过程

6.基于协同过滤的推荐机制
基于协同过滤的推荐 (这种机制是现今应用最为广泛的推荐机制) ——基于模型的推荐 (SVM、 聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度) :表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度) :表示绝对的距离 这种推荐方法的优缺点: 它不需要对物品或者用户进行严格的建模, 而且不要求物品的描述是机器可理解的; 推荐是 开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。 数据稀疏性问题, 大量的用户只是评价了一小部分的项目, 而大多数的项目是没有进行评分; 冷启动问题, 新物品和新用户依赖于用户历史偏好数据的多少和准确性, 一些特殊品味的用 户不能给予很好的推荐。

7.机器学习:构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数 据

8.机器学习的基础算法之 PLA 算法和 Pocket 算法(贪心 PLA)
感知器——线性二维分类器,都属于二分类算法 二者的区别:迭代过程有所不同,结束条件有所不同; 证明了线性可分的情况下是 PLA 和 Pocket 可以收敛。

9.机器为什么能学习

学习过程被分解为两个问题: 能否确保 Eout(g) 与 Ein(g) 足够相似? 能否使 Ein(g) 足够小? 规模较大的 N,有限的 dVC,较低的 Ein 条件下,学习是可能的。 切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。

10.VC 维:

11.噪声的种类:

12.误差函数(损失函数)

13.给出数据计算误差

14.线性回归算法:简单并且有效的方法,典型公式

线性回归的误差函数:使得各点到目标线/平面的平均距离最小!

15.线性回归重点算法部分:

16.线性分类与线性回归的区别:

17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。 解决方案:使用简单的模型,数据清洗(整形) ,正则化,验证。

18.正则化

19.分布式文件系统:

一种通过网络实现文件在多台主机上进行分布式存储的文件系统; 分布式文件系统一般采用 C/S 模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户 端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。

20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上, 成千上万的计算机节点构成计算机集 群。 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是, 目前的分布式文件系统 所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。

21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成, 这些节点分为两类, 一类 叫 “主节点” (MasterNode)或者也被称为 “名称结点” (NameNode), 另一类叫 “从节点” (Slave Node)或者也被称为“数据节点。

22.HDFS 主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
大的跨平台兼容性;

局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意
修改文件

块: hdfs 的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode 之间
的映射关系;hdfs

的数据节点存储文件内容、文件内容保存在磁盘、维护了 block id

到 datanode 本地文件的映射关系。

23.分布式数据库概述: 四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、 NoSQL 数据管理系统、NewSQL 数据管理系统、云数据管理系统。 并行数据库:

NoSQL 数据管理系统:

NewSQL 数据管理系统:

云数据管理系统:

Nosql 简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高; 关系数据库无法满足大数据表现: 无法满足海量数据的管理需求、 无法满足数据高并发的需 求、无法满足高可拓展性和高可用性的需求。

Nosql 与关系数据库的比较:

NoSQL 的四大类型:键值数据库、

列族数据库、

文档数据库、

图形数据库

NoSQL 的理论基础(CAP 与 ACID、BASE) CAP:

一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。

ACID(关系数据库的事务具有的四个特性)

BASE

NoSQL 到 NewSQL:

大数据应用: 百度大数据引擎的构成:开放云、数据工厂、百度大脑 开放云:

数据工厂:

百度大脑:

阿里大数据应用:去 IOE

大数据在电信行业的应用:

24.分布式并行编程框架 MapReduce

25.

MapReduce 的体系结构:Client、JobTracker、TaskTracker、Task

MapReduce 的工作流程:

Split(分片) :

Map 端的 Shuffle 过程详解:

Reduce 端的 shuffle 详解:

MapReduce 小结:

26.Spark 特点:

Hadoop 的局限性:

Spark 生态系统:

RDD:

RDD 的优势:

RDD 之间依赖关系的两种类型:

Stage 划分:

Sprak 小结:

流数据:

流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定) 、数据实时计算、实时 查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户) 。

流处理系统与传统数据处理系统的区别:

开源流计算框架——Storm(免费、开源的分布式实时计算系统) :

Storm 的工作流程:

流计算小结:

图计算系统——Pregel 简介:

BSP 模型:

图计算小结:

Pregel 计算模型:

Pregel 执行过程:

Pregel 容错机制:

HBase:

BigTable: 特点:

HBase:

HBase 与传统关系数据库的对比:

HBase 数据模型:

HBased 中的数据坐标:

HBase 功能组件:

Region 的定位:

HBased 系统架构:

Region 服务器工作原理:


推荐相关:

信息安全课程总结(北邮)

信息安全课程总结(北邮)_工学_高等教育_教育专区。...信息安全:是保护资产的一种概念、技术及管理方法。...离群点是与数据集中大部分数据的观测值明显 不同的...


北邮《Web技术》阶段作业汇总

北邮《Web技术》阶段作业汇总_工学_高等教育_教育专区。“Web 技术”作业 1....若要提交大数据量的数据,则应采用(B)方法 B.post 7.表单对象的提交方法由(...


北邮计算机大三上课程学习心得

北邮计算机大三上课程学习心得_工学_高等教育_教育专区...最好每章都有总结,复习的时候也就不会手忙脚 乱...建议买一本微机原理与接口技术的练习册做一做。 ...


北邮web技术

北邮web技术_计算机软件及应用_IT/计算机_专业资料。...<l><to> Toms </to></l> 知识点: 阶段作业...(错误) 若要提交大数据量的数据,则应采用( A. ...


北邮通信原理考研复习要点吐血版总结

北邮通信原理考研复习要点吐血版总结_工学_高等教育_教育专区。今日...2007年北邮通信原理考研... 11页 1下载券 北邮通信原理考研考试大... 3页 ...


我的考研心得——北京邮电大学计算机专业

为学生引路,为学员服务 我的考研心得——北京邮电...大四上: 我们大四上还有课,不过不多,这个时候每天...买了那本核心考点,总结的挺好的 0 等肖 4、任 ...


C程序设计课程总结

C语言设计课程,配合北邮版教科书 本课程总结第一章...教学重点:C 语言程序的结构特点;在 Turbo C 集成...从小到大排序 main() { int i,j,ma; int a[...


北邮学习思想报告

北邮学习思想报告_学习总结_总结/汇报_应用文书。光阴...全部课程,还对照自己平时实践中的不足,有重点的进行...大部分的知识还得靠自己的积累和实践中的领悟,在...


北邮分布式2010-2011年题目总结

分布式复习重点终极版 4页 2财富值 北邮通信新技术讲座2011 20页 免费 分布式(...(对具有层次关系的类的属性和操作进行共享.可大大地减少 设计和程序的重复性. ...


网络教育毕业自我鉴定(大全)_学习总结_总结/汇报_实用文档

我现在的工作中来, 我的实践能力也得到非常大的提...在学习过程中,以自学为主,充分利用现代网络技术,...通过网络这个平台 , 我认识了更多的教学点的同学和...

网站首页 | 网站地图
All rights reserved Powered by 学霸学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com