(2)创建一个名为HelloData的文件夹,命令如下所示。
(3)在HelloData文件夹下创建2个文件file1.txt和file2.txt,分别写入测试语句,过程如图1-40、1-41所示。
图1-40
图1-41
(4)使用hdfs命令在HDFS中创建名为“InputData”的文件夹,在命令终端输入命令如图1-42所示。
图1-42
(5)将本地文件夹HelloData内的文件file1.txt和file2.txt上传至HDFS下的InputData文件夹之中,虽然CentOS提供了文件系统,但是hadoop为了分布式计算方便,创建了hadoop专用的分布式文件系统HDFS,HDFS与CentOS的文件系统并不相容,所以需要特别的命令才能架起两个文件系统传输数据,命令如图1-43所示。
图1-43
借助hdfs命令中的“-ls”参数,查看“/InputData”文件夹内是否已有file1.txt和file2.txt,如图1-44所示。
图1-44
(6)使用hadoop.jar命令执行hadoop自带案例程序wordcount,这个程序完成的功能非常简单,就是对file1.txt和file2.txt中的单词出现的次数进行统计,在命令终端输入命令,如图1-45所示,输入后即可看到wordcount的执行过程。
图1-45
(7)查看程序执行后的输入信息,上述程序执行完毕后,会将结果输入/OutputData目录中,如前所示原因,不能直接在CentOS的文件系统中直接查看运行结果,可使用hdfs命令中的“-ls”选项来查看,如图1-46所示。
图1-46
图1-46中有2个文件,其中/OutputData/_SUCCESS表示hadoop成功,这个文件大小为0,文件名就告知了hadoop作业的执行状态;第二个文件/OutputData/part-r-00000才是
hadoop程序的运行结果。
(8)在命令终端利用“-cat”选项查看hadoop程序运行结果,如图1-47所示。
图1-47
(五)撰写实验报告
六、实验注意事项
(一)机房的使用规范和用电安全。 (二)配置SSH免密码登录。 (三)配置Hadoop。
七、实验报告要求
实验报告以书面形式提交。
实验报告主要内容包括实验名称、实验类型、实验地点、学时、实验环境、实验原理、实验步骤、实验结果、总结与思考等。
八、实验成绩考核
实验成绩根据实验课的出勤、课堂表现、实验思考以及实验报告的书写情况打分,按百分制,实验成绩的平均值按20%比例计入课程总成绩。
相关推荐: