Common
Avro Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库
Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。
HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。
HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。
Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。
Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交
精选
换数据。
Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。
第三章
1.试述分布式文件系统设计的需求。 设计需求 透明性 含义 HDFS的实现情况 具备访问透明性、位置透只能提供一定程度的访明性、性能、和伸缩透明问透明性,完全支持位置性 透明性、性能和伸缩透明性 并发控制 客户端对于文件的读写机制非常简单,任何时候不应该影响其他客户端都只允许有一个程序写对同一个文件的读写 入某个文件 文件复制 一个文件可以拥有不同HDFS采用了多副本机制 位置的多个副本 硬件和操作系统的异构可以在不同的操作系统采用Java语言开发,具性 和计算机上实现同样的有很好的跨平台能力 客户端和服务端程序 可伸缩性 支持节点的动态加入或建立在大规模廉价机器退出 上的分布式文件系统集群,具有很好的伸缩性 精选
容错 保证文件服务在客户端具有多副本机制和故障或者服务端出现问题的自动检测、恢复机制 时候能正常使用 安全
保证系统的安全性 安全性较弱 2.分布式文件系统是如何实现较高水平扩展的?
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)
3.试述HDFS中的块和普通文件系统中的块的区别。
答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。
HDFS中的块,默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。
4.试述HDFS中的名称节点和数据节点的具体功能。
答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;
数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。
hadoop fs -ls
精选
hadoop fs -cat
hadoop fs -mkdir
hadoop fs -get [-ignorecrc] [-crc]
hadoop fs -put
hadoop fs -rmr
第四章
1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。
答: HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase
精选
相关推荐: