hadoop介绍

hadoop三大版本

  • Apache
  • Cloudera 公司常用
  • Hortonworks

hadoop优势

  • 高可靠:hadoop底层维护多个数据副本(很少数据丢失)
  • 高扩展:在集群分配任务数据,可方便的扩展数以千计的节点
  • 高效性:在mapreduce思想下,hadoop是并行工作的,以加快任务处理速度。
  • 高容错性:自动将失败任务重新分配

hadoop 1.x构成

  • mapReduce计算+资源调度
  • HDFS数据存储
  • Common辅助工具

hadoop 2.x

  • mapReduce计算
  • yarn资源调度
  • HDFS数据存储
  • Common辅助工具

HDFS架构概述

  • NameNode 目录
    存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间 、副本数、文件权限)
    以及每个文件的块列表和块所在的datanode。

  • DataNode 内容/数据
    在本地文件系统存储文件块数据,以及块数据的校验和。

  • Secondary NameNode 辅助namenode工作的
    用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照

YARN结构描述

  • ResourceManager(RM)主要作用如下负责多个节点

    • 1.处理客户端请求
    • 2.监控nodeManager
    • 3.启动或监控ApplicationMaster(集群上运行的任务)
    • 4.资源的分配和调度
  • nodeManager负责某个节点

    • 1.管理单个节点上的资源
    • 2.处理来自老大resourcemanager的命令
  • ApplicationManager负责某一个任务

    • 1.负责数据的切分
    • 2.为应用程序申请资源并分配给内部的任务
    • 3.任务监控与容错
  • container
    是yarn中的资源抽象,他封装了某个节点上的维度资源,如
    内存、cpu、磁盘、网络等。(这些资源都虚拟化到container中)

MapReduce架构

将计算分为map和reduce

分享到