第一范文网 - 专业文章范例文档资料分享平台

先电大数据平台操作手册-iandian-bigdata-v2.1

来源:用户分享 时间:2025/6/10 10:03:35 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

查看HBase中user表中的数据: hbase(main):003:0> scan 'user' 以下是样例输出,实际包含五百多行。

8 部署Mahout数据挖据工具

8.1 部署Mahout

进入先电大数据平台主界面,点击左侧的动作按钮,添加Mahout服务。

8.2 运行案例

# slaver1

#su - mahout $ mahout

8.2.1 实现朴素贝叶斯分类器

# tar -zxvf mkdir 20news # mv 20news-bydate-test 20news # mv 20news-bydate-train 20news # cd 20news

# hadoop fs -mkdir /data/mahout/20news

# hadoop fs -mkdir /data/mahout/20news/20news-all # hadoop fs -put * /data/mahout/20news/20news-all 将测试文件转化为Hadoop序列文件,命令如下 #

mahout

seqdirectory

-i

/data/mahout/20news/20news-all

-o

/data/mahout/20news/output/20news-seq

使用hadoop fs -text命令行选项检验序列文件输出结果,命令如下

# hadoop fs -text /data/mahout/20news/output/20news-seq/part-m-00000 |more 样例输出类似如下:

序列文件创建完成后,还没有对单词和文本作任何分析。贝叶斯算法不能直接工作在单词和未加工的文本上,但是可以工作在与原始文档有关联的权重向量上。现在需要把原始文本转化为权重和频率向量。命令如下:

#

mahout

seq2sparse

-i

/data/mahout/20news/output/20news-seq

-o

/data/mahout/20news/output/20news-vectors -lnorm -nv -wt tfidf

# hadoop fs -ls /data/mahout/20news/output/20news-vectors

# mahout split -i /data/mahout/20news/output/20news-vectors/tfidf-vectors --trainingOutput /data/mahout/20news/output/20news-train-vectors --testOutput /data/mahout/20news/output/20news-test-vectors --overwrite --sequenceFiles -xm sequential

在训练向量集上训练朴素贝叶斯分类器,使用以下命令:

# mahout trainnb -i /data/mahout/20news/output/20news-train-vectors -el -o /data/mahout/20news/output/model -li /data/mahout/20news/output/labelindex –ow

# mahout testnb -i /data/mahout/20news/output/20news-test-vectors -m

--randomSelectionPct

40

/data/mahout/20news/output/model -l /data/mahout/20news/output/labelindex -ow -o /data/mahout/20news/output/20news-testing

8.2.2 基于项目的协同过滤

# hadoop fs -mkdir /data/mahout/project-collaborative # hadoop fs -put /data/mahout/project-collaborative

# mahout recommenditembased -i /data/mahout/project-collaborative/ -o /data/mahout/project-collaborative/output SIMILARITY_EUCLIDEAN_DISTANCE

-n

3 7

-b

false

-s 2

--maxPrefsPerUser --minPrefsPerUser

--maxPrefsInItemSimilarity 7 --tempDir /data/mahout/project-collaborative/temp

--input --output -- numRecommendations(-n) --usersFile 需要做出推荐的user,默认全部做推荐 偏好数据路径,文本文件。格式 userid\\t itemid\\t preference 推荐结果路径 推荐个数

先电大数据平台操作手册-iandian-bigdata-v2.1.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c9reqv47be06m3qp9xkwe9ersa9ps1u00x9f_13.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top