- 版本管理混乱。
- 部署过程繁琐、升级过程复杂。
- 兼容性差。
- 安全性低。
- Apache Hadoop(原生版hadoop)
- Cloudera’s Distribution Including Apache Hadoop(CDH版本)
- Hortonworks Data Platform(HDP)
- MapR
- EMR
- …
1、CDH概述
Cloudera’s Distribution,including Apache Hadoop,它是Hadoop众多分支中的一种,由Cloudera维护,是基于稳定版本的Apache Hadoop构建的。CDH提供了Hadoop的核心:可扩展存储、分布式计算,且有基于Web的用户界面。

2、CDH的优势
- 版本划分清晰
- 版本更新速度快
- 支持Kerberos安全认证
- 文档清晰
- 支持多种安装方式(推荐Cloudera Manager方式)
3、CDH安装方式
-
Cloudera Manager方式(使用最多)
Cloudera Manager版本要≥CDH的版本,有两种方式:
(1)联网从外网一边下载一边安装(不推荐,太依赖于网络)
(2)下载好安装包,通过Cloudera Manager离线安装
-
yum安装
-
Rpm安装
-
Tarbail安装
1、Clouder a Manager概述
Cloudera Manager 是一个管理CDH的端到端应用。
作用:管理、监控、诊断、继承
2、Cloudera Manager 架构图

2.1 Server
Cloudera Mnager的主节点,用来管理整个集群。Server的职责如下:
- 安装的软件和服务器的逻辑关系(你要安装哪个软件,安装在哪个服务器)。
- 服务的安装、配置、启动等。
- 各个角色的启动、停止。
- 管理服务器。
2.2 agent
就是我们的集群,与Server保持心跳机制(若第一次失败,会再重复四次,若总共五次都失败,则判定节点出现问题)
ps:如果报错 ntp date 错误,而你查看发现节点间已经做了时间同步且时间是同步的,原因就是心跳时,某个节点可能前四次都失败了,最后一次成功了,造成了时间差,所以会报这个错误,不用理会。
Server所有的操作,最终都有agent完成,它是通过Python+shell的方式完成的。
2.3 Database
数据库,提供数据支撑,存储Cloudera Manager的一些数据信息。
2.4 Management Service
对整个集群硬件软件提供监控、预警报告等操作。
2.5 Cloudera Repository
软件包仓库
2.6 Clinets
客户端,可以通过客户端和API来控制Cloudera Manager
环境情况
云服务器:10台,网络互通,cdh1~cdh10
服务器配置:cpu8核,内存16g
操作系统情况:
操作系统版本:CentOS Linux release 7.6.1810 (Core)
操作系统内核:Linux version 3.10.0-957.21.3.el7.x86_64
准备要安装的CDH版本和Cloudera版本:
本次我准备下载
Cloudera Manager版本:5.16.2
CDH版本:5.16.1
官网网址:https://www.cloudera.com/documentation/enterprise/5-16-x/topics/cm_ig_reqs_space.html
1、系统环境准备
-
网络配置
# 1.配置网络(由于我使用的是云服务器,所以这块不详细描述) vi /etc/sysconfig/network # 2.配置主机映射 # 切记域名不可以有_ x.x.x.x cdh1 x.x.x.x cdh2 x.x.x.x cdh3 x.x.x.x cdh4 x.x.x.x cdh5 x.x.x.x cdh6 x.x.x.x cdh7 x.x.x.x cdh8 x.x.x.x cdh9 x.x.x.x cdh10 -
SSH免密
# 1.安装ssh服务(如果没有ssh服务的话) yum -y install openssh-client.x86_64 openssl openssh-serve










