【大数据之Hadoop】一、Hadoop概念、优势和组成
创始人
2025-05-31 20:13:53
0

1、Hadoop概念

特点“4V”:数据量大,数据产生速度快,数据类型多样,数据价值密度低。
在这里插入图片描述
Hadoop是分布式系统基础架构,多态服务器负责完成某项任务,主要解决海量数据的存储和分析计算问题。
优势:
1.高可靠性:Hadoop维持多个数据副本,某个元素或存储出故障也不会导致数据丢失。
2.高扩展性:在集群间分配任务数据,可以动态扩展节点。
3.高效性:在mapreduce下Hadoop是并行工作的,加快任务处理速度。
4.高容错性:可以自动将失败的任务重新分配。

2、Hadoop组成

在这里插入图片描述
大数据生态体系
在这里插入图片描述

2.1 HDFS框架概述

NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。(告知数据存储在哪些块上)
DataNode(dn):具体存储在本地文件系统的存储文件块数据,以及块数据的校验和。(数据的实际存储)
Secondary NameNode(2nn):每隔一段时间对NameNode元数据进行备份。(防止nn挂掉,所以2nn会备份数据,用于恢复nn一部分工作)

2.2 Yarn概述

Yarn是集群资源协调者,是Hadoop的资源管理器。任务执行在容器上。
在这里插入图片描述

2.3 MapReduce概述

MapReduce负责计算,分为两个部分:
1.Map阶段并行处理输入数据,每一个map独立工作。
2.Reduce阶段对Map结果进行汇总。
在这里插入图片描述

2.4 HDFS&Yarn&MapReducec的关系

客户端提交任务到集群,ResourceManager找一个单节点NodeManager开启一个容器Container传入任务ApplicationMaster,ApplicationMaster向ResourceManager申请资源。
ResourceManager在NodeManager节点中找资源,有则开启对应的资源到容器Container,任务ApplicationMaster则开启MapTask任务到容器中(Map阶段)。
MapTask返回结果到ReduceTask,再由ReduceTask写到磁盘某块DataNode进行存储(Reduce阶段)。
写入磁盘后在NameNode进行记录,Secondary NameNode也进行备份操作。
在这里插入图片描述

相关内容

热门资讯

“男子持刀入室盗窃”视频引发关... 近日,一段疑似“小偷”入室盗窃被业主家中监控拍下的视频在网上引发关注。11月21日晚,“翠屏公安”微...
绝不允许日本军国主义幽灵复活!... 2025年11月7日,日本首相高市早苗宣称,如果中国大陆对台湾出动军舰并使用武力,可能会构成“存亡危...
【解决】AI法律助手荣获202... 2025全球数字经济大会启幕,搭建国际数字合作高端平台 经国务院批准,由北京市人民政府、国家互联网信...
嘉兴男子与妻争吵,突然将行李箱... 近日,浙江嘉兴一对夫妻因琐事发生争吵,丈夫突然将装满衣物的行李箱从6楼扔到楼下,引发关注。11月22...
三地107家律所齐聚丰台,京津... 11月22日,京津冀律师驿站举办“党建业务深度融合 促进行业规范发展”主题活动,发布“百千万行动计划...
家装预付资金安全困局如何破解,... 家装预付资金安全困局如何破解 专家提出:建立“先验收后付款”装修资金存管制度 预交数万元甚至数十万元...
工行安康解放路支行积极开展《反... 为深入贯彻落实《国家金融监督管理总局安康监管分局办公室关于开展<反有组织犯罪法>宣传活动的通知》要求...
重庆公布育儿补贴制度实施方案 原标题:每孩每年3600元 重庆公布育儿补贴制度实施方案 11月21日,记者了解到,市卫生健康委、市...
十五运会组委会在深总结本届赛事... 深圳新闻网2025年11月22日讯(深圳报业集团记者 林炜航)11月21日,十五运会组委会在深圳市民...