利用率、I/O负载、网络流量情况等,可以帮助合理调整分配系统资源,优化系统性。
图二十一 Ganglia 监控总界面
图二十二 Ganglia-cpu监控界面
图二十三 Ganglia-cluster cpu 监控界面
图二十四 Ganglia-memory监控界面
图二十五 Ganglia-network监控界面
3. HBase
简单地说,hbase是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。Hbase的核心是将数据抽象成表,表中只有rowkey和column family,rowkey记录的是主键,通过key/value很容易找到,column存储实际的数据。
ZooKeeperHmasterHRegionServerHRegionServerHRegionServerHRegionHRegionHRegionHRegionHRegionHRegionHDFSHRegionHRegionHRegion
图二十六 HBase架构
4. Mahout
Mahout是Apache的一个开源的项目,基于Hadoop平台设计和开发的算法工具库。提供一些经典的机器学习算法,包含聚类、分类、推荐引擎、频繁子项挖掘。Apache
Mahout主要包括以下部分: ? ? ? ? ?
频繁模式挖掘:挖掘数据中频繁出现的项集;
聚类:将诸如文本、文档之类的数据分成局部相关的组;
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分离; 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物;
频繁子项挖掘:利用一个项集(查询记录或购物记录)去识别经常一起出现的项目。
Mahout的主要目标是建立可伸缩的机器学习算法,这种可伸缩性是针对大规模的数据集而言的,Mahout的算法运行在Apache Hadoop平台下,通过Mapreduce模式实现,但是Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台或Hadoop平台也可以。Mahout核心库的非分布式算法也具有良好的性能。
图二十七 Mahout提供的算法
Mahout中FPGrowth在Mapteduce模式下运行过程及用时:
相关推荐: