【大数据之Hadoop】一、Hadoop概念、优势和组成_资讯

【大数据之Hadoop】一、Hadoop概念、优势和组成

创始人

2025-05-31 20:13:53

0次

1、Hadoop概念

特点“4V”：数据量大，数据产生速度快，数据类型多样，数据价值密度低。
在这里插入图片描述
Hadoop是分布式系统基础架构，多态服务器负责完成某项任务，主要解决海量数据的存储和分析计算问题。
优势：
1.高可靠性：Hadoop维持多个数据副本，某个元素或存储出故障也不会导致数据丢失。
2.高扩展性：在集群间分配任务数据，可以动态扩展节点。
3.高效性：在mapreduce下Hadoop是并行工作的，加快任务处理速度。
4.高容错性：可以自动将失败的任务重新分配。

2、Hadoop组成

在这里插入图片描述
大数据生态体系

2.1 HDFS框架概述

NameNode(nn)：存储文件的元数据，如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode等。（告知数据存储在哪些块上）
DataNode(dn)：具体存储在本地文件系统的存储文件块数据，以及块数据的校验和。（数据的实际存储）
Secondary NameNode(2nn)：每隔一段时间对NameNode元数据进行备份。（防止nn挂掉，所以2nn会备份数据，用于恢复nn一部分工作）

2.2 Yarn概述

Yarn是集群资源协调者，是Hadoop的资源管理器。任务执行在容器上。
在这里插入图片描述

2.3 MapReduce概述

MapReduce负责计算，分为两个部分：
1.Map阶段并行处理输入数据，每一个map独立工作。
2.Reduce阶段对Map结果进行汇总。
在这里插入图片描述

2.4 HDFS&Yarn&MapReducec的关系

客户端提交任务到集群，ResourceManager找一个单节点NodeManager开启一个容器Container传入任务ApplicationMaster，ApplicationMaster向ResourceManager申请资源。
ResourceManager在NodeManager节点中找资源，有则开启对应的资源到容器Container，任务ApplicationMaster则开启MapTask任务到容器中(Map阶段)。
MapTask返回结果到ReduceTask，再由ReduceTask写到磁盘某块DataNode进行存储（Reduce阶段）。
写入磁盘后在NameNode进行记录，Secondary NameNode也进行备份操作。
在这里插入图片描述

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：热点追踪｜国际调解院要来了

下一篇：【Linux】Linux基本指令（下）