第一范文网 - 专业文章范例文档资料分享平台

Hadoop云计算平台搭建最详细过程(共22页)

来源:用户分享 时间:2025/6/7 9:36:08 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

利用率、I/O负载、网络流量情况等,可以帮助合理调整分配系统资源,优化系统性。

图二十一 Ganglia 监控总界面

图二十二 Ganglia-cpu监控界面

图二十三 Ganglia-cluster cpu 监控界面

图二十四 Ganglia-memory监控界面

图二十五 Ganglia-network监控界面

3. HBase

简单地说,hbase是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。Hbase的核心是将数据抽象成表,表中只有rowkey和column family,rowkey记录的是主键,通过key/value很容易找到,column存储实际的数据。

ZooKeeperHmasterHRegionServerHRegionServerHRegionServerHRegionHRegionHRegionHRegionHRegionHRegionHDFSHRegionHRegionHRegion

图二十六 HBase架构

4. Mahout

Mahout是Apache的一个开源的项目,基于Hadoop平台设计和开发的算法工具库。提供一些经典的机器学习算法,包含聚类、分类、推荐引擎、频繁子项挖掘。Apache

Mahout主要包括以下部分: ? ? ? ? ?

频繁模式挖掘:挖掘数据中频繁出现的项集;

聚类:将诸如文本、文档之类的数据分成局部相关的组;

分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分离; 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物;

频繁子项挖掘:利用一个项集(查询记录或购物记录)去识别经常一起出现的项目。

Mahout的主要目标是建立可伸缩的机器学习算法,这种可伸缩性是针对大规模的数据集而言的,Mahout的算法运行在Apache Hadoop平台下,通过Mapreduce模式实现,但是Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台或Hadoop平台也可以。Mahout核心库的非分布式算法也具有良好的性能。

图二十七 Mahout提供的算法

Mahout中FPGrowth在Mapteduce模式下运行过程及用时:

Hadoop云计算平台搭建最详细过程(共22页).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c5wm6i8aewu5nrap1sknd_4.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top