大数据技术刷题笔记1:
创始人
2025-05-30 05:32:48
0

大数据技术刷题笔记1:

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲


文章目录

  • 大数据技术刷题笔记1:
    • @[TOC](文章目录)
  • 不属于大数据技术的关键技术
  • 不属于大数据治理范畴的是
  • 不属于大数据存储和计算一体数据库管理系统的是
  • kafka默认接受的最大消息是
  • Hbase中删除表格的命令是
  • 管理MapReduce作业进程的是
  • 启动HDFS系统的命令,start最起码啊
  • 与zookeeper类似的框架是
  • 与HDFS类似的框架是GFS
  • MapReduce计算框架不擅长处理实时分析问题
  • 窄依赖,宽依赖
  • Hive适合处理非实时的在线数据分析,和MapReduce类似
  • 关于MapReduce说法正确的是,离线计算
  • 关于HDFS说法正确的是
  • 关于Hive说法正确的是
  • 关于Hbase说法正确的是
  • 大数据引擎的性能优化手段,包含下面
  • 使用Hbase的优势在于
  • 实时流式计算特征包含
  • 大数据治理标准涵盖的方面包括
  • MapReduce和Hbase之间并没有关系
  • 处理大数据常用的排序有
  • kafka有什么优势
  • 适合HDFS的场景有
  • 下列哪些方法可以将非结构化的文本数据结构化
  • pandas的三维数据分析工具为Panel
  • SEMMA是数据挖掘项目方法论的名称,而且数据分析没有规定数据分析要求几步
  • 同样的数据分析方法论适用于所有的分析领域????
  • 哪类分析对数据的时效性要求高?
  • 数据质量检验的方式错误的是
  • 大数据团队对外交付的数据不包含
  • 数据分析的第一个步骤是:明确分析目的
  • 数据分析的最高层次是优化???
  • np.var是求方差,std是标准差
  • 一手数据和二手数据,说法错误的是
  • RFM模型的R代表最近一次消费
  • 数据预处理特征选择的目标有很多
  • 数据归一化,不是数据转换
  • 数据规范化的方法有
  • 商业报告自然也是要建立在数据模型上
  • 并行度方面,transformer模型效率是最高
  • LSTM单元有几个输入?
  • attention,计算权重,当前词越近,权重越大
  • 单个感知机相当于线性回归
  • NLP应用实践不包含句法分析?
  • 词法分析不是NLP的核心技术吗????
  • ANN通过组合多个非线性模型实现非线性划分
  • BERT的fine-ting不解决下列哪个任务
  • 总结

不属于大数据技术的关键技术

在这里插入图片描述

不属于大数据治理范畴的是

在这里插入图片描述
你共享与否,跟大数据治理有啥关系呢

不属于大数据存储和计算一体数据库管理系统的是

在这里插入图片描述

kafka默认接受的最大消息是

在这里插入图片描述

Hbase中删除表格的命令是

在这里插入图片描述

管理MapReduce作业进程的是

在这里插入图片描述

启动HDFS系统的命令,start最起码啊

在这里插入图片描述

与zookeeper类似的框架是

在这里插入图片描述
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,
是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。
它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

与HDFS类似的框架是GFS

在这里插入图片描述
HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。
是根据 google 发 表的论文翻版的。论文为 GFS(Google File System)Google 文件系统。

俩题目都是一个样

MapReduce计算框架不擅长处理实时分析问题

它是离线大数据计算
在这里插入图片描述

1.MapReduce的优点

在大数据和人工智能时代,MapReduce如此受欢迎主要因为它具有以下几个优点。

**● MapReduce 易于编程。**通过简单接口完成分布式程序的编写,可运行在众多服务器组成的集群上。即编写一个分布式程序与编写一个简单的串行程序是一模一样的。也正是易于使用的特点使得 MapReduce 编程变得越来越流行。

良好的扩展性。出现资源不足的情况,可以直接增加机器数量来扩展集群的计算能力这与HDFS通过增加机器扩展集群存储能力的道理是一样的。

**● 高容错性。**高容错性提现在MapReduce能使程序能够部署在廉价商用服务器上。如果其中一台机器故障,自动切换到其他节点,而且这个过程不需要人工参与,完全在 Hadoop 内部完成。

● MapReduce 适合PB级以上海量数据的离线处理。

2.MapReduce的缺点

MapReduce 虽然具有很多优势,但也有不适用的场景,即有些场景下并不适合 MapReduce 来处理,主要表现在以下几个方面。

不适合实时计算。 MapReduce 无法毫秒级内返回结果。MapReduct 并不适合数据的在线处理。
不适合进行流式计算。 MapReduce设计之初 输入数据集是静态的,不适合输入动态数据,不适合即流式计算。
不适合 DAG(有向无环图)计算。程序之间的依赖性,MapReduce的处理方法是将使用后每个 MapReduce 作业的输出结果写入磁盘,这样会造成大量的磁盘 IO,导致性能非常低下。

尽管 Hadoop MapReduce 还有很多局限性,但也是目前最为成功、最易于使用的大数据并行处理技术。

ok

窄依赖,宽依赖

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Hive适合处理非实时的在线数据分析,和MapReduce类似

在这里插入图片描述

一、优点

1.操作接口采用类SQL语法,提高快速开发的能力(简单、容易上手)

2.避免了去写MapReduce,减少开发人员的学习成本

3.Hive擅长处理大数据,对小数据处理没有优势,因为Hive的延迟比较高

二、缺点

1.Hive的HQL表达能力有限,迭代算法无法表达

2.不擅长数据挖掘方面,由于MapReduce数据处理流程的限制,效率更高的算法却无法实现

3.Hive自动生成的MapReduce作业,通常情况下不够智能化

4.Hive调优比较困难,粒度较粗

5.Hive不擅长处理实时性高的场合

关于MapReduce说法正确的是,离线计算

在这里插入图片描述
别记混了

关于HDFS说法正确的是

在这里插入图片描述

关于Hive说法正确的是

在这里插入图片描述

关于Hbase说法正确的是

在这里插入图片描述

大数据引擎的性能优化手段,包含下面

在这里插入图片描述

使用Hbase的优势在于

在这里插入图片描述

实时流式计算特征包含

在这里插入图片描述

大数据治理标准涵盖的方面包括

在这里插入图片描述

MapReduce和Hbase之间并没有关系

在这里插入图片描述

处理大数据常用的排序有

在这里插入图片描述

kafka有什么优势

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

适合HDFS的场景有

在这里插入图片描述

下列哪些方法可以将非结构化的文本数据结构化

在这里插入图片描述
在这里插入图片描述

pandas的三维数据分析工具为Panel

在这里插入图片描述

SEMMA是数据挖掘项目方法论的名称,而且数据分析没有规定数据分析要求几步

在这里插入图片描述

同样的数据分析方法论适用于所有的分析领域????

在这里插入图片描述

哪类分析对数据的时效性要求高?

在这里插入图片描述

数据质量检验的方式错误的是

在这里插入图片描述

大数据团队对外交付的数据不包含

在这里插入图片描述

数据分析的第一个步骤是:明确分析目的

在这里插入图片描述

数据分析的最高层次是优化???

在这里插入图片描述

np.var是求方差,std是标准差

在这里插入图片描述

一手数据和二手数据,说法错误的是

在这里插入图片描述
一手确实成本高

RFM模型的R代表最近一次消费

在这里插入图片描述
一个客户的近期购买行为、
购买的总体频率
以及花了多少钱
RFM
recent
frequency
money
在这里插入图片描述

在这里插入图片描述

数据预处理特征选择的目标有很多

在这里插入图片描述

数据归一化,不是数据转换

在这里插入图片描述

数据规范化的方法有

在这里插入图片描述

商业报告自然也是要建立在数据模型上

在这里插入图片描述

并行度方面,transformer模型效率是最高

在这里插入图片描述
从复杂度上来说,单个Transformer Block计算量大于单层RNN和CNN。
**但是结合可并行,实际运行效率:Transformer Base最快,**CNN次之,再次Transformer Big,最慢的是RNN。RNN比前两者慢了3倍到几十倍之间。

LSTM单元有几个输入?

在这里插入图片描述

attention,计算权重,当前词越近,权重越大

在这里插入图片描述

单个感知机相当于线性回归

在这里插入图片描述

NLP应用实践不包含句法分析?

在这里插入图片描述

词法分析不是NLP的核心技术吗????

在这里插入图片描述

ANN通过组合多个非线性模型实现非线性划分

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
2017 年,谷歌在《Attention is All You Need》一文中提出了 Transformer。自

BERT的fine-ting不解决下列哪个任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

相关内容

热门资讯

特朗普:泽连斯基必须同意美国支... △美国总统特朗普(资料图) 当地时间21日,美国总统特朗普在白宫接受媒体采访时表示,乌克兰总统泽连斯...
库里空砍38分杨瀚森DNP N... 【搜狐体育战报】北京时间11月22日,2025-26赛季NBA常规赛继续进行,波特兰开拓者客场挑战金...
评论丨“劫囚大嫂”不是传奇,而... 当我们为“复仇爽文”“黑道传奇”拍手叫好时,是否也在默许对法律的轻蔑、对暴力的暧昧、对他人隐私的消费...
原创 2... 云南曲靖村民吴某为给次女办理落户上学,2015年被迫与村委会签订协议,2017年缴纳2万元“计划生育...
台当局宣布全面解禁日本食品进口... 【文/观察者网 齐倩】 日本首相高市早苗炒作“台湾有事”论调,导致中日关系恶化。中方已宣布暂停进口...
惠城区开展第九期“法律明白人”... 为深入推进基层依法治理,提升物业服务规范化水平,日前,惠城区司法局在龙丰司法所组织开展了第九期“法律...
荷兰驻华大使:暂停安世行政令后... 荷兰驻华大使昊使博在2025第十届中国全球智库创新年会上发言。 摄影/江玮 昊使博强调,行政令不是针...
原创 中... 据中国青年报报道,近日,中国四艘海警船编队进入钓鱼岛海域进行常规巡航,依照既定的维权程序,船队在海域...
原创 特... 2025年11月9日,美国总统特朗普在自己的社交平台TruthSocial上宣布,他提名约翰·科尔担...