图十五 datanode节点状态
(2)输入http://master:50030,如图十六,可看到:
图十六 jobtracker状态
点击2 nodes查看tasktracker信息,如图十七:
图十七 tasktracker状态
(3)输入http://master:50060,如图十八,可看到:
图十八 task状态
也可以通过命令:hadoop dfsadmin –report查看 9. 停止hadoop进程:bin/stop-all.sh
如图十九:
图十九 停止hadoop集群
10. 以上为hadoop完全分布式集群配置
以上过程为由三台计算机组成的完全分布式Hadoop集群,主要参考《Hadoop实战-第二版》和《Hadoop权威指南》,主要讲解了Hadoop的安装和配置过程,关于更多Hadoop原理的知识不在详述,如果在家在安装的时候遇到问题,或者按以上步骤安装完成却不能运行Hadoop,建议查看Hadoop的日志信息,Hadoop记录了详尽的日志信息,日志文件保存的Hadoop/logs文件夹内。
三.其他组件安装过程简介
本Hadoop平台搭建过程中安装的组件及软件环境主要包括以下内容:
NO. 1 Project Hardware environment Operation system JDK Hadoop Zookeeper HBase Pig Hive Ganglia Eclipse Hadoop for eclipse plugin Chukwa Version CPU: Intel 2.00 GHz Disk : 150GB Memory: 2.00GB Ubuntu-12.04 jdk-7u51-linux-x64.tar.gz hadoop-1.2.1.tar.gz zookeeper-3.4.6.tar.gz Hbase-0.94.20.tar.gz pig-0.12.0.tat.gz hive-0.12.0.tar.gz Eclipse standard 4.3.2 Hadoop-eclipse-plugin-1.2.1.jar (可选) Content Master/NameNode IP:192.168.100.90 Slave1/DataNode IP:192.168.100.105 Slave2/DataNode IP:192.168.100.106 64-bit /usr/bin/jvm/jdk1.7.0_51 /home/majiangbo/hadoop-1.2.1 /home/majiangbo/hadoop-1.2.1/zookeeper-3.4.6 /home/majiangbo/hadoop-1.2.1/hbase-0.94.20 /home/majiangbo/hadoop-1.2.1/pig-0.12.0 /home/majiangbo/hadoop-1.2.1/hive-0.12.0 /home/majiangbo/hadoop-1.2.1/ /home/majiangbo/eclipse /home/majiangbo/eclipse/plugins 2 3 4 5 6 7 8 9 10 11 12
相关技术作以下介绍: 1. Pig和Hive
Hive是一个基于Hadoop文件系统之上的数据仓库架构,利用Mapreduce编程技术,实现了部分SQL语句,提供了类SQL的编程接口,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能可以将SQL语句转换为Mapreduce任务进行运行,但是这样在执行时会出现延迟现象,但能更好的处理不变的大规模数据集上的批量任务。此外,Hive的网络接口可以方便直观地对数据进行操作,在命令行下,要执行多个查询就要打开多个终端,而通过网络结构可以同时执行多个查询。 配置Eclipse环境编写Hive 程序
Hive的优化策略,针对不同的查询进行优化,优化过程通过配置进行控制
图二十 Hive Web 接口界面
Pig提供了一个支持大规模数据分析的平台,Pig的基础结构层包括一个产生Mapreduce程序的编译器,能够承受大量的并行任务。Pig Latin语言更侧重于对数据的查询和分析,而不是对数据进行修改和删除,建立在Hadoop分布式平台之上,能够在短时间内处理海量的数据,比如:系统日志文件,处理大型数据库文件,处理特定web数据等。 2. Ganglia
Ganglia是UC Berkeley发起的一个开源集群监视项目,用于测量数以千计的节点集群。核心包含两个Daemon:客户端Ganglia Monitoring(gmond)和服务端Ganglia Meta(gmetad),以及一个web前端,主要监控的系统性能有:CPU、memory、硬盘
相关推荐: