特点“4V”:数据量大,数据产生速度快,数据类型多样,数据价值密度低。

Hadoop是分布式系统基础架构,多态服务器负责完成某项任务,主要解决海量数据的存储和分析计算问题。
优势:
1.高可靠性:Hadoop维持多个数据副本,某个元素或存储出故障也不会导致数据丢失。
2.高扩展性:在集群间分配任务数据,可以动态扩展节点。
3.高效性:在mapreduce下Hadoop是并行工作的,加快任务处理速度。
4.高容错性:可以自动将失败的任务重新分配。

大数据生态体系

NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。(告知数据存储在哪些块上)
DataNode(dn):具体存储在本地文件系统的存储文件块数据,以及块数据的校验和。(数据的实际存储)
Secondary NameNode(2nn):每隔一段时间对NameNode元数据进行备份。(防止nn挂掉,所以2nn会备份数据,用于恢复nn一部分工作)
Yarn是集群资源协调者,是Hadoop的资源管理器。任务执行在容器上。

MapReduce负责计算,分为两个部分:
1.Map阶段并行处理输入数据,每一个map独立工作。
2.Reduce阶段对Map结果进行汇总。

客户端提交任务到集群,ResourceManager找一个单节点NodeManager开启一个容器Container传入任务ApplicationMaster,ApplicationMaster向ResourceManager申请资源。
ResourceManager在NodeManager节点中找资源,有则开启对应的资源到容器Container,任务ApplicationMaster则开启MapTask任务到容器中(Map阶段)。
MapTask返回结果到ReduceTask,再由ReduceTask写到磁盘某块DataNode进行存储(Reduce阶段)。
写入磁盘后在NameNode进行记录,Secondary NameNode也进行备份操作。

上一篇:热点追踪|国际调解院要来了