Hadoop云计算平台搭建最详细过程(共22页)

来源：用户分享时间：2026/1/10 11:15:13 本文由

loading 分享下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

图十五 datanode节点状态

（2）输入http://master:50030，如图十六，可看到：

图十六 jobtracker状态

点击2 nodes查看tasktracker信息,如图十七：

图十七 tasktracker状态

（3）输入http://master:50060，如图十八，可看到：

图十八 task状态

也可以通过命令：hadoop dfsadmin –report查看 9. 停止hadoop进程：bin/stop-all.sh

如图十九：

图十九停止hadoop集群

10. 以上为hadoop完全分布式集群配置

以上过程为由三台计算机组成的完全分布式Hadoop集群，主要参考《Hadoop实战-第二版》和《Hadoop权威指南》，主要讲解了Hadoop的安装和配置过程，关于更多Hadoop原理的知识不在详述，如果在家在安装的时候遇到问题，或者按以上步骤安装完成却不能运行Hadoop，建议查看Hadoop的日志信息，Hadoop记录了详尽的日志信息，日志文件保存的Hadoop/logs文件夹内。

三．其他组件安装过程简介

本Hadoop平台搭建过程中安装的组件及软件环境主要包括以下内容：

NO. 1 Project Hardware environment Operation system JDK Hadoop Zookeeper HBase Pig Hive Ganglia Eclipse Hadoop for eclipse plugin Chukwa Version CPU: Intel 2.00 GHz Disk : 150GB Memory: 2.00GB Ubuntu-12.04 jdk-7u51-linux-x64.tar.gz hadoop-1.2.1.tar.gz zookeeper-3.4.6.tar.gz Hbase-0.94.20.tar.gz pig-0.12.0.tat.gz hive-0.12.0.tar.gz Eclipse standard 4.3.2 Hadoop-eclipse-plugin-1.2.1.jar （可选） Content Master/NameNode IP:192.168.100.90 Slave1/DataNode IP:192.168.100.105 Slave2/DataNode IP:192.168.100.106 64-bit /usr/bin/jvm/jdk1.7.0_51 /home/majiangbo/hadoop-1.2.1 /home/majiangbo/hadoop-1.2.1/zookeeper-3.4.6 /home/majiangbo/hadoop-1.2.1/hbase-0.94.20 /home/majiangbo/hadoop-1.2.1/pig-0.12.0 /home/majiangbo/hadoop-1.2.1/hive-0.12.0 /home/majiangbo/hadoop-1.2.1/ /home/majiangbo/eclipse /home/majiangbo/eclipse/plugins 2 3 4 5 6 7 8 9 10 11 12

相关技术作以下介绍： 1. Pig和Hive

Hive是一个基于Hadoop文件系统之上的数据仓库架构，利用Mapreduce编程技术，实现了部分SQL语句，提供了类SQL的编程接口，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能可以将SQL语句转换为Mapreduce任务进行运行，但是这样在执行时会出现延迟现象，但能更好的处理不变的大规模数据集上的批量任务。此外，Hive的网络接口可以方便直观地对数据进行操作，在命令行下，要执行多个查询就要打开多个终端，而通过网络结构可以同时执行多个查询。配置Eclipse环境编写Hive 程序

Hive的优化策略，针对不同的查询进行优化，优化过程通过配置进行控制

图二十 Hive Web 接口界面

Pig提供了一个支持大规模数据分析的平台，Pig的基础结构层包括一个产生Mapreduce程序的编译器，能够承受大量的并行任务。Pig Latin语言更侧重于对数据的查询和分析，而不是对数据进行修改和删除，建立在Hadoop分布式平台之上，能够在短时间内处理海量的数据，比如：系统日志文件，处理大型数据库文件，处理特定web数据等。 2. Ganglia

Ganglia是UC Berkeley发起的一个开源集群监视项目，用于测量数以千计的节点集群。核心包含两个Daemon：客户端Ganglia Monitoring(gmond)和服务端Ganglia Meta(gmetad)，以及一个web前端，主要监控的系统性能有：CPU、memory、硬盘

搜索更多关于： Hadoop云计算平台搭建最详细过程(共22页) 的文档

Hadoop云计算平台搭建最详细过程(共22页).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c5wm6i8aewu5nrap1sknd_3.html（转载请注明文章来源）