大数据技术与应用习题答案第3-4章

来源：用户分享时间：2025/10/16 23:21:43 本文由

loading 分享下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

3.7 习题

一、选择题

1. B 2. C 3. B 4. D 5. B 6. C 7. D 8. D 二、填空题

1.在HDFS文件系统读取文件的过程中，客户端通过对输入流调用_read() 方法开始读取数据；写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。

2.HDFS全部文件的元数据是存储在NameNode节点的___硬盘 ______（硬盘/内存），为了解决这个瓶颈，HDFS产生了____HA_____机制。三、简答题

1. 举例说明Hadoop的体系结构。

Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块，它们各自负责了Hadoop的一部分功能，其中最主要的是Common、HDFS和YARN。Common提供远程调用RPC、序列化机制，HDFS负责数据的存储，YARN则负责统一资源调度和管理等。

2.HDFS中数据副本的存放策略是什么?

HDFS默认的副本系数是3,这适用于大多数情况。副本存放策略是将第一个副本存放在本地机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同机架的节点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。

3.NameNode和DataNode的功能分别是什么？

元数据节点NameNode是管理者，一个Hadoop集群只有一个NameNode节点，是一个通常在HDFS实例中的单独机器上运行的软件。NameNode主要负责HDFS文件系统的管理工作，具体包括命名空间管理（namespace）和文件block管理。NameNode决定是否将文件映射到DataNode的复制块上。对于最常见的3个复制块，第一个复制块存储在同一个机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

NameNode是HDFS的大脑，它维护着整个文件系统的目录树，及目录树里所有的文件和目录，这些信息以两种文件存储在本地文件中：一种是命名空间镜像，也称为文件系统镜像（file system image，FSImage），即HDFS元数据的完整快照，每次NameNode启动时，默认会加载最新的命名空间镜像，另一种是命名空间镜像的编辑日志（edit log）。

第二名字节点Secondary NameNode。第二名字节点是用于定期合并命名空间镜像和命名空间镜像的编辑日志的辅助守护进程。每个HDFS集群都有一个SecondaryNameNode，在生产环境下，一般Secondary NameNode也会单独运行在一台服务器上。

4.根据自己的理解画出HDFS文件系统中文件读取的流程，并解释其中的各个步骤。

5.根据自己的理解画出HDFS文件系统中文件写入的流程，并解释其中的各个步骤。

1）请阐述数据采集有哪些方法？（1）系统日志采集

许多公司的平台每天会产生大量的日志（一般为流式数据，如搜索引擎的pv，查询等），处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据，并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本特征。目前常用的开源日志采集平台包含有：Apache Flume、Fluentd、Logstash、Chukwa、Scribe以及Splunk Forwarder等。这些采集平台大部分采用的是分布式架构，以满足大规模日志采集的需要。具体的日志采集平台在下一节会介绍。（2）网络数据采集

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。目前网络数据采

集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛（或数据采集机器人）、分词系统、任务与索引系统等技术进行综合运用而完成，并且随着互联网技术的发展和网络海量信息的增长，对信息的获取与分拣会成为一种越来越大的需求。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。由于采用多个系统并行抓取数据，这种方式能充分利用机器的计算资源和存储能力，大大提高系统抓取数据的能力，同时大大降低了开发人员的开发速率，使得开发人员可以很快的完成一个数据系统的开发。（3）数据库采集

数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中，然后使用特定的数据处理系统进行进一步分析。目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。这种方法通常在采集端部署大量数据库，并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。

2）数据采集平台有哪些？

Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka

3）为什么要进行数据清洗？

数据的不断剧增是大数据时代的显著特征，大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而在众多数据中总是存在着许多“脏”数据，即不完整、不规范、不准确的数据，因此数据清洗就是指把“脏数据”彻底洗掉，包括检查数据一致性，处理无效值和缺失值等，从而提高数据质量。在实际的工作中，数据清洗通常占开发过程的50%-70%左右的时间。

4）数据清洗有哪些流程？（1）数据清洗-预处理

（2）数据清洗-缺省值清洗（3）数据清洗-格式与内容清洗（4）数据清洗-逻辑错误清洗（5）数据清洗-多余的数据清洗（6）数据清洗-关联性验证

5）什么是数据标准化？

数据的标准化，是通过一定的数学变换方式，将原始数据按照一定的比例进行转换，使之落入到一个小的特定区间内，例如0~1或-1~1的区间内，消除不同变量之间性质、量纲、数量级等特征属性的差异，将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的数值都处于同一个数量级别上，从而便于不同单位或数量级的指标能够进行综合分析和比较。

6）请阐述什么是数据仓库。

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境，它研究和解决从数据

库中获取信息的问题，并为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

7）实施ETL有哪些常见工具？

目前在市场上常见的ETL工具包含有：（1）Talend

Talend是第一家针对的数据集成工具市场的ETL开源软件供应商。Talend 以它的技术和商业双重模式为 ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务，提供了一个针对所有规模的公司的公开的，创新的，强大的灵活的软件解决方案。（2）DataStage

DataStage是IBM公司的商业软件，是一种数据集成软件平台，能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。DataStage 支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。并且Datastage全部的操作在同一个界面中，不用切换界面，能够看到数据的来源，整个job的情况。（3）Kettle

Kettle 中文名称叫水壶，是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。（4）Informatica PowerCenter

Informatica PowerCenter是一款非常强大的ETL工具，支持各种数据源之间的数据抽取、转换、加载等数据传输，多用于大数据和商业智能等领域。一般应用企业根据自己的业务数据构建数据仓库，在业务数据和数据仓库间进行ETL 操作。

搜索更多关于：大数据技术与应用习题答案第3-4章的文档

大数据技术与应用习题答案第3-4章.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c5b1xw7rim87g2499ip734mu7526kg600fs4_1.html（转载请注明文章来源）