hadoop三大版本
- Apache
- Cloudera 公司常用
- Hortonworks
hadoop优势
- 高可靠:hadoop底层维护多个数据副本(很少数据丢失)
- 高扩展:在集群分配任务数据,可方便的扩展数以千计的节点
- 高效性:在mapreduce思想下,hadoop是并行工作的,以加快任务处理速度。
- 高容错性:自动将失败任务重新分配
hadoop 1.x构成
- mapReduce计算+资源调度
- HDFS数据存储
- Common辅助工具
hadoop 2.x
- mapReduce计算
- yarn资源调度
- HDFS数据存储
- Common辅助工具
HDFS架构概述
NameNode 目录
存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间 、副本数、文件权限)
以及每个文件的块列表和块所在的datanode。DataNode 内容/数据
在本地文件系统存储文件块数据,以及块数据的校验和。Secondary NameNode 辅助namenode工作的
用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
YARN结构描述
ResourceManager(RM)主要作用如下负责多个节点
- 1.处理客户端请求
- 2.监控nodeManager
- 3.启动或监控ApplicationMaster(集群上运行的任务)
- 4.资源的分配和调度
nodeManager负责某个节点
- 1.管理单个节点上的资源
- 2.处理来自老大resourcemanager的命令
ApplicationManager负责某一个任务
- 1.负责数据的切分
- 2.为应用程序申请资源并分配给内部的任务
- 3.任务监控与容错
container
是yarn中的资源抽象,他封装了某个节点上的维度资源,如
内存、cpu、磁盘、网络等。(这些资源都虚拟化到container中)
MapReduce架构
将计算分为map和reduce