Spark on YARN环境搭建

来源：用户分享时间：2025/12/16 0:46:27 本文由

loading 分享下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

dfs.permissions.enabled false

HA模式下该参数为streamcluster中namenode1节点对外服务的RPC地址

dfs.namenode.rpc-address.streamcluster.nn1 master:8033

HA模式下该参数为streamcluster中namenode1节点对外服务的RPC地址

dfs.namenode.rpc-address.streamcluster.nn2 slave1:8033

HA模式下该参数为streamcluster中namenode1节点对外服务的HTTP地址

dfs.namenode.http-address.streamcluster.nn1 master:50083

HA模式下该参数为streamcluster中namenode1节点对外服务的HTTP地址

dfs.namenode.http-address.streamcluster.nn2 slave1:50083

设置的为journalNode的地址，Activity状态中的Namenode会将edits的Log写入JournalNode，而standby状态中的Namenode会读取这些edits log.

dfs.namenode.shared.edits.dir

qjournal://master:8489;slave1:8489;slave2:8489/streamcluster

JournalNode 所在节点上的一个目录，用于存放 editlog 和其他状态信息。

dfs.journalnode.edits.dir

/home/hadoop/hadoop-2.6.4/data/jn

journalNode RPC服务地址和端口

dfs.journalnode.rpc-address

0.0.0.0:8489

journalNode HTTP服务地址和端口

dfs.journalnode.http-address 0.0.0.0:8484

此参数为客户端与activity状态下的Namenode进行交互的java实现类，DFS客户端通过该类寻找当前activity的Namenode

dfs.client.failover.proxy.provider.streamcluster

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

使HA模式下不会同时出现两个master，不允许出现两个activity状态下的Namenode

dfs.ha.fencing.methods shell(/bin/true)

SSH的超时时间设置,倘若超过此时间，则认为执行失败.

dfs.ha.fencing.ssh.connect-timeout 10000

指定streamcluster的两个NameNode共享edits文件目录时，使用的JournalNode集群信息

dfs.ha.automatic-failover.enabled true

每个datanode任一时刻可以打开的文件数量上限。

dfs.datanode.max.xcievers 4096

DataNode传送数据出入的最大线程数,等同于dfs.datanode.max.xcievers。

dfs.datanode.max.transfer.threads 4096

块的字节大小

dfs.blocksize 67108864

一般原则是将其设置为集群大小的自然对数乘以20，即20logN, NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。

dfs.namenode.handler.count 20

ha.zookeeper.quorum

master:2183,slave1:2183,slave2:2183

（3）yarn-site.xml

NodeManager的心跳间隔

yarn.resourcemanager.connect.retry-interval.ms 2000

是否启用RM HA，默认为false（不启用）。这里设置为启用。

yarn.resourcemanager.ha.enabled true

是否启用自动故障转移。默认情况下，在启用HA时，启用自动故障转移。

yarn.resourcemanager.ha.automatic-failover.enabled true

启用内置的自动故障转移。默认情况下，在启用HA时，启用内置的自动故障转移。

yarn.resourcemanager.ha.automatic-failover.embedded true

集群的ID，确保ResourceManager不会为成为其他集群的Activity活跃状态。

yarn.resourcemanager.cluster-id yarn-rm-cluster

HA下两个ResourceManager的逻辑名称

yarn.resourcemanager.ha.rm-ids rm1,rm2

用于标识ResourceManager,这里要注意一点，HA备用的RM的服务器需要修改为rm2

yarn.resourcemanager.ha.id rm1

启用重启ResourceManager的功能，默认为false

yarn.resourcemanager.recovery.enabled true

用于状态存储的类,可以设置为

org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore，基于Hadoop文件系统的实现，这里的设置是基于ZooKeeper的实现

yarn.resourcemanager.store.class

org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

存储RM状态的ZooKeeper Znode全路径。

搜索更多关于： Spark on YARN环境搭建的文档

Spark on YARN环境搭建.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c20l9p6i5bl4zk8m0hvkq6k2tg1xudp00s22_4.html（转载请注明文章来源）