文章标题:中小企业大数据平台全栈搭建:Hive、HDFS、YARN等组件的精细配置指南
文章内容:
目录
- 背景
- 一、环境规划与依赖预备
- 1. 服务器规划(3节点集群)
- 2. 系统及依赖
- 3. Hadoop生态组件版本与下载途径
- 4. 架构图
- 二、Hadoop(HDFS+YARN)安装与配置
- 1. 下载与解压(所有节点)
- 2. HDFS高可用配置
- 3. YARN资源配置
- 4. 启动Hadoop集群
- 三、MySQL安装与Hive元数据配置
- 1. 在Master节点安装MySQL
- 2. Hive连接MySQL的配置
- 3. Hive元数据的初始化
- 四、Sqoop安装与数据迁移实战
- 1. 在Master节点下载与配置
- 2. 环境变量的配置
- 五、Azkaban工作流调度系统部署
- 1. 在Master和Worker1节点安装Azkaban
- 2. Azkaban的配置
- 3. 服务的启动
- 六、Hue可视化平台与ZooKeeper配置
- 1. 在Master节点安装与配置Hue
- 2. ZooKeeper集群的配置
- 六、常见问题解决办法
- 七、总结与维护指南
- 1. 核心组件配置表
- 2. 维护建议
- 3. 部署建议
背景
针对中小企业来说,构建一套完整的本地化大数据平台要兼顾成本(5w 以内)、易用性和扩展性。依托Hadoop生态中的组件(像HDFS、YARN、Hive),结合数据工具(如Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现数据从存储、计算、调度到可视化的全流程管理。本文依据生产环境的实践情况,细致讲解下述组件的安装、配置以及它们之间的联动:
- 存储与计算:HDFS、YARN、Hive
- 数据迁移:Sqoop(实现Hive与MySQL的数据互通)
- 调度系统:Azkaban
- 可视化与协调:Hue、ZooKeeper
- 元数据管理:MySQL
(在一、环境规划与依赖准备中)提供了全组件的官方下载地址和配置模板,助力快速搭建企业级数据平台!
一、环境规划与依赖预备
1. 服务器规划(3节点集群)
节点角色 | IP地址 | 部署服务 |
---|---|---|
Master | 192.168.1.101 | NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL |
Worker1 | 192.168.1.102 | DataNode、NodeManager、ZooKeeper、Azkaban Executor |
Worker2 | 192.168.1.103 | DataNode、NodeManager、ZooKeeper |
2. 系统及依赖
- 操作系统:CentOS 7.9(所有节点)
- JDK:JDK 8u381(下载地址)
- MySQL:5.7.44(用于存储Hive元数据)
- Python:3.6+(Hue依赖)
3. Hadoop生态组件版本与下载途径
组件 | 稳定版本 | 官方下载路径 |
---|---|---|
HDFS | 3.3.6 | Apache Hadoop Releases |
YARN | 3.3.6 | 同上 |
Hive | 3.1.3 | Apache Hive Downloads |
Hue | 4.11.0 | Gethue Releases |
ZooKeeper | 3.7.1 | Apache ZooKeeper |
MySQL | 5.7.44 | MySQL Community Server |
Sqoop | 1.4.7 | Apache Sqoop |
Azkaban | 4.0.0 | Azkaban GitHub Releases |
Python 3.6+ | EPEL 仓库安装 | 1. sudo yum install -y epel-release 2. sudo yum install -y python36 python36-devel |
4. 架构图
二、Hadoop(HDFS+YARN)安装与配置
1. 下载与解压(所有节点)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz -C /opt
mv /opt/hadoop-3.3.6 /opt/hadoop
2. HDFS高可用配置
1)core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<property>
<name>
文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/13179.html