【大数据之Hadoop】一、Hadoop概念、优势和组成
创始人
2025-05-31 20:13:53
0

1、Hadoop概念

特点“4V”:数据量大,数据产生速度快,数据类型多样,数据价值密度低。
在这里插入图片描述
Hadoop是分布式系统基础架构,多态服务器负责完成某项任务,主要解决海量数据的存储和分析计算问题。
优势:
1.高可靠性:Hadoop维持多个数据副本,某个元素或存储出故障也不会导致数据丢失。
2.高扩展性:在集群间分配任务数据,可以动态扩展节点。
3.高效性:在mapreduce下Hadoop是并行工作的,加快任务处理速度。
4.高容错性:可以自动将失败的任务重新分配。

2、Hadoop组成

在这里插入图片描述
大数据生态体系
在这里插入图片描述

2.1 HDFS框架概述

NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。(告知数据存储在哪些块上)
DataNode(dn):具体存储在本地文件系统的存储文件块数据,以及块数据的校验和。(数据的实际存储)
Secondary NameNode(2nn):每隔一段时间对NameNode元数据进行备份。(防止nn挂掉,所以2nn会备份数据,用于恢复nn一部分工作)

2.2 Yarn概述

Yarn是集群资源协调者,是Hadoop的资源管理器。任务执行在容器上。
在这里插入图片描述

2.3 MapReduce概述

MapReduce负责计算,分为两个部分:
1.Map阶段并行处理输入数据,每一个map独立工作。
2.Reduce阶段对Map结果进行汇总。
在这里插入图片描述

2.4 HDFS&Yarn&MapReducec的关系

客户端提交任务到集群,ResourceManager找一个单节点NodeManager开启一个容器Container传入任务ApplicationMaster,ApplicationMaster向ResourceManager申请资源。
ResourceManager在NodeManager节点中找资源,有则开启对应的资源到容器Container,任务ApplicationMaster则开启MapTask任务到容器中(Map阶段)。
MapTask返回结果到ReduceTask,再由ReduceTask写到磁盘某块DataNode进行存储(Reduce阶段)。
写入磁盘后在NameNode进行记录,Secondary NameNode也进行备份操作。
在这里插入图片描述

相关内容

热门资讯

1.57亿元!郑州官宣:这一补... 广大消费者、各有关汽车销售企业: 根据2025年郑州市消费品以旧换新工作安排,现统筹新增消费品以旧换...
马丁内利本场数据解析:错失良机... 在英超第16轮的较量中,阿森纳与狼队的对决以0-0平局收场,令人失望的结果让球迷们感到沮丧。尤其是阿...
力争2026年全国基本实现政策... 新华社北京12月13日电(记者彭韵佳)记者12月13日从全国医疗保障工作会议上获悉,为积极适应人口发...
江苏省人民代表大会常务委员会关... 江苏省人大常委会公告 第 47 号 《江苏省人民代表大会常务委员会关于修改〈江苏省学生体质健康促进条...
俄发动大规模空袭,摧毁多家乌军... 据新华社,根据俄罗斯国防部13日发布的战报,俄武装力量12日深夜至13日凌晨对乌克兰实施了密集火力打...
江苏省学生体质健康促进条例 目 录 第一章 总则 第二章 体育活动 第三章 卫生与营养 第四章 保障与监督 第五章 法律责任 第...
原创 越... 近年来,中美关系愈发紧张,尤其是在稀土资源的争夺上。越南作为东南亚的一颗新星,正试图借此机遇在全球稀...
关联公司混同用工的三个关键法律... 随着经济的发展,关联公司作为更具规模性和竞争性的现代企业组织型态在实践中广泛存在。关联公司是《公司法...
退休生活新指南!北京首个社管退... 12月11日,北京首个面向社会化管理退休人员的“乐活足迹”地图正式发布,标志着顺义区人力社保局在打造...
从“制度之异”到“制度之利”(... 本报记者 张 烁 贺林平 江 琳 图①:港珠澳大桥风光。 刘国兴摄(人民视觉) 图②:横琴粤澳深度...