第一范文网 - 专业文章范例文档资料分享平台

Hadoop面试题目及答案

来源:用户分享 时间:2025/7/23 4:41:58 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

45个题目及答案Hadoop面试

3个模式?1.Hadoop集群可以运行的 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点?上。这里同)中不会存在守护进程,所有东西都运行在一个在单机模式(standaloneJVM程序,DFS,使用的是本地文件系统。MapReduce单机模式适用于开发过程中运行样没有 这也是最少使用的一个模式。 伪分布模式中的注意点?3.

)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机Pseudo伪分布式( 器上运行。 ?4. VM是否可以称为Pseudo 。Pseudo只针对Hadoop不是,两个事物,同时 全分布模式又有什么注意点?5.

Hadoop集群,台主机组成一个Hadoop这里我们使用全分布模式通常被用于生产环境,N运行的主运行的主机,Datanode这里会存在守护进程运行在每台主机之上。Namenode task tracker运行的主机。在分布式环境下,主节点和从节点会分开。机,以及 模式?是否遵循6. HadoopUNIX ”目录。confHadoopUNIX是的,在用例下,还拥有“ 安装在什么目录下?7. Hadoop

cd/usr/lib/hadoop-0.20/。被安装在和ClouderaApache使用相同的目录结构,Hadoop task tracker的端口号是?和8. Namenode、Job tracker 。60;Task tracker,;Namenode,70Job tracker,30 的核心配置是什么?9. Hadoop,;2:件文来完成1,hadoop-default.xml两配Hadoop的核心置通过个xml中都有一些属性,包括名称格式,因此每个

xmlhadoop-site.xml。这些文件都使用xml 和值,但是当下这些文件都已不复存在。 10. 那当下又该如何配置?。hdfs-site.xml,;3,mapred-site.xmlcore-site.xml3Hadoop现在拥有个配置文件:1,;2 conf/这些文件都保存在子目录下。 11. RAM的溢出因子是? Spill factor)是临时文件中储存文件的大小,也就是Hadoop-temp目录。溢出因子( 只是单一的目录?12.

fs.mapr.working.dir 只是一个目录。fs.mapr.working.dir 的13. hdfs-site.xml3个主要属性?

DFS决定的是元数据存储的路径以及的存储方式(磁盘或是远端)dfs.name.dir dfs.data.dir决定的是数据存储的路径Namenode fs.checkpoint.dir用于第二 14. 如何退出输入模式?(如(如果你没有输入任何当下)或者键入:q:wq,键入;,按退出输入的方式有:1ESC2 。Enter,并且按下果你已经输入当下).

”时,系统究竟connection refused java exception'15. 当你输入hadoopfsck /造成“ 发生了什么? 之上。没有运行在你的VM这意味着Namenode,或者是默认就与

HadoopCloudera,那么我们该去哪里下载16. 我们使用Ubuntu及 一起安装?Ubuntu下载,然这个属于的dropbox的默认配置,你必须从Cloudera或者EdurekaHadoop或,Ubuntu后在你的系统上运行。当然,你也可以自己配置,但是你需要一个Linux box 者是Dropbox中有安装步骤。网站或者是Edureka的Red Hat。在Cloudera ”命令的用处?jps17. “ 、Job Tracker是否正常工作。Namenode、Datanode、Task Tracker这个命令可以检查 ?如何重启Namenode18.

。,再点击start-all.sh点击stop-all.sh及Enter),/etc/init.d/ha(Enter入键sudo hdfs(),su-hdfs Enter),( )。(/etc/init.d/hadoop-0.20-namenode startEnter 19. Fsck的全名? 。Check全名是:

是否正常运行?20. 如何检查Namenode/etc/init.d/hadoop-0.20-namenode 是否正常工作,使用命令如果要检查Namenode 或者就是简单的statusjps。 21. mapred.job.tracker命令的作用? 。Job Tracker可以让你知道哪个节点是

命令的作用是?22. /etc /init.d关Hadoop/etc /init.d说明了守护进程(服务)的位置或状

态,其实是LINUX特性,和 系不大。 ?如何在浏览器中查找23. NamenodeNamenode,如果你确实需要在浏览器中查找Namenode,你不再需要localhost:8021 。的端口号是50070 转到24. 如何从SUCloudera? ClouderaSU转到只需要键入exit。从 25. 启动和关闭命令会用到哪些文件? Slaves及Masters。 26. Slaves由什么组成? Slaves由主机的列表组成,每台1行,用于说明数据节点。 27. Masters由什么组成? NamenodeMasters同样是主机的列表组成,每台一行,用于说明第二服务器。 28. hadoop-env.sh是用于做什么的? 中. JAVA_HOME的运行环境。hadoop-env.sh提供了Hadoop 29. Master文件是否提供了多个入口? Master文件接口。是的你可以拥有多个 30. Hadoop-env.sh文件当下的位置? conf。hadoop-env.sh现在位于 代表了什么?Hadoop_PID_DIR中,PID在31. 。”Process ID代表了“PID.

32. /var/hadoop/pids用于做什么? PID/var/hadoop/pids用来存储。 33. hadoop-metrics.properties文件的作用是?not ,控制Hadoop初始状态是“报告,”hadoop-metrics.properties被用做“Reporting ”。to report 34. Hadoop需求什么样的网络?)来驱动从节点上的服务器进程,并在主节点和从节点之间Hadoop核心使用SSHShell( 连接。使用password-less SSH ?35. 全分布式环境下为什么需求password-less SSH 发布任务。需要尽可能快的给Task Tracker这主要因为集群中通信过于频繁,Job Tracker 这会导致安全问题吗?36.

集群是完全隔离的,通常情况下无法从互联网进行操作。与众不Hadoop完全不用担心。同的配置,因此我们完全不需要在意这种级别的安全漏洞,比如说通过互联网侵入等等。 Hadoop为机器之间的连接提供了一个相对安全的方式。 37. SSH工作的端口号是? 22是默认的端口号。,当然可以通过它来配置,SSH工作的端口号是NO.22 38. SSH中的注意点还包括?上的一种协议,只需要配置一个密码NO.22通信,可以把它当做SSH只是个安全的shell 就可以安

全的访问。 本地主机需要密码?为什么39. SSH 中使用密码主要是增加安全性,在某些情况下也根本不会设置密码通信。在SSH ,是否还需要设置密码?key中添加SSH如果在40. key是的,即使在SSH中添加了,还是需要设置密码。 41. 假如Namenode中没有数据会怎么样?肯定会有数Namenode,通常情况下,Namenode没有数据的Namenode就不能称之为 据。 宕掉时,Namenode会发生什么?Job Tracker42. 当 失败时,集群仍然可以正常工作,只要Job TrackerNamenode没问题。当 是客户端还是Namenode决定输入的分片?43.

这并不是客户端决定的,在配置文件中以及决定分片细则。 Hadoop44. 是否可以自行搭建集群? 环境足够熟悉,你完全可以这么做。是的,只要对Hadoop ?上运行Hadoop45. 是否可以在Windows的最佳操作系统。在才是HadoopLinuxRed Hat 或者是Ubuntu你最好不要这么做,Windows因为会出现各种各样的问题。因此,Hadoop安装中,Windows通常不会被使用, 的推荐系统。Hadoop绝对不是

第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。取出来,逐个写入到一个大文件中。注意到首先是这一天,并且是访问百度的日志中的IP,把整个1000比如模个32位的,最多有个2^32IP。同样可以采用映射的方法, 是IPhash_mapIP再找出每个小文中出现频率最大的(可以采用个小文件,大文件映射为1000个最大的1000的几个)及相应的频率。然后再在这 进行频率统计,然后再找出频率最大. IP中,找出那个频率最大的,即为所求。IP 或者如下阐述(雪域之鹰):+Hash

算法思想:分而治之 地址最多有1.IP2^32=4G种取值情况,所以不能完全加载到内存中处理;日志地址的Hash(IP)_x0010_24值,把海量IP2.可以考虑采用“分而治之”的思想,按照IP 个IP地址;个小文件中。这样,每个小文件最多包含分别存储到10244MB,同时记Hash map,

出现次数为3.对于每一个小文件,可以构建一个IP为keyvalue的 地址;IP录当前出现次数最多的那个再依据常规的排序算法得到总体上出现,IP4.可以得到1024个小文件中的出现次数最多的 ;次数最多的IP、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的2 1-255字节。长度为千万,但如果除假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1

百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是去重复后,不超过3 。1G,请你统计最热门的10个查询串,要求使用的内存不能超过)越热门。算法,还是在这篇文章里头有所阐述,详情请参见:十一、从头到尾彻底解K典型的Top

表算法。析Hash 文中,给出的最终算法是:表完成统计(之前写成了(N)的时间内用Hash第一步、先对这批海量数据预处理,在O );2011.04.27排序,特此订正。July、 。N,时间复杂度为‘logKTop K第二步、借助堆这个数据结构,找出该题K(移动。因此,维护一个/量级的时间内查找和调整log即,借助堆结构,我们可以在.

和根元素进行对比所以,我们目中是 万的Query,分别10)大小的小根堆,然后遍历300,okN'为300万)。为'+ N*O(logK),(N1000万,N最终的时间复杂度是:O()

更多,详情,请参考原文。个元素的10树,关键字域存该查询串出现的次数,没有出现为或者:采用trie0。最后用 最小推来对出现频率进行排序。字节,内存限163、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过 个词。制大小是1M。返回频数最高的100个小文5000,取hash(x)P00,然后按照该值存到x方案:顺序读文件中,对于每个词 200kx4999)中。这样每个文件大概是左右。x0,x1,件(记为…大小,还可以按照类似的方法继续往下分,直到分解得到如果其中的有的文件超过了1M 。的小文件的大小都不超过1M,等)树/hash_maptrie对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用个词及相应,并把100点的最小堆)100个词(可以用含100个结 并取出出现频率最大的个文件进行

搜索更多关于: Hadoop面试题目及答案 的文档
Hadoop面试题目及答案.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c9m9zg329091cf865breu5a66i6tmb7010tj_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top