收藏本站 您好,欢迎来到中国环保资讯网 请登录 免费注册 行业导航 产品 求购 企业 动态 展会 招聘
分享到:


在千锋学习的大数据技术,开始进入了就业周,同学们也陆陆续续开始面试,我参加了几个公司的大数据开发的面试,也拿下了3offer,准备在三个公司做一个选择。在面试中遇到很多奇葩问题,其中技术性的大体总结了一下下,希望每一位小伙伴都能成功通过面试,找到合适的工作!


       1、了解zookeeper吗?介绍一下它的选举机制和集群的搭建。

答:那当然是熟悉啦,ZooKeeper 是一个开源的分布式协调服务,是 Google Chubby 的开源实现。分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。

我们公司使用的flume集群,Kafka集群等等,都离不开ZooKeeper呀。每个节点上我们都要搭建ZooKeeper服务。首先我们要在每台pc上配置zookeeper环境变量,在cdzookeeper下的conf文件夹下在zoo_simjle.cfg文件中添加datadir路径,再到zookeeper下新建data文件夹,创建myid,在文件里添加上serverip地址。在启动zkserver.sh start便ok了。

        2、说一下你对yarn的理解:

答:YARNHadoop2.0版本引进的资源管理系统,直接从MR1演化而来。

核心思想:将MR1中的JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManagerApplicationMaster进程实现。

ResourceManager:负责整个集群的资源管理和调度 ;ApplicationMaster:负责应用程序相关事务,比如任务调度、任务监控和容错等。

YARN的出现,使得多个计算框架可以运行在同一个集群之中。 1. 每一个应用程序对应一个ApplicationMaster2. 目前可以支持多种计算框架运行在YARN上面,比如MapReducestormSparkFlink

        3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词。

答:Step1:顺序读文件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为f0 ,f1 ,... ,f4999)中,这样每个文件大概是200k左右,如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M

Step2:对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件;

Step3:把这5000个文件进行归并(类似与归并排序);

        4、如何配置spark masterHA

答:1)配置zookeeper

2)修改spark_env.sh文件,sparkmaster参数不在指定,添加如下代码到各个master节点

ExportSPARK_DAEMON_JAVA_OPTS=-Dspark.deploy.recoveryMode=ZOOKEEPER-

Dspark.deploy.zookeeper.url=zk01:2181,zk02:2181,zk03:2181-Dspark.deploy.zookeeper.dir=/spark

3) spark_env.sh分发到各个节点

4)找到一个master节点,执行./start-all.sh,会在这里启动主master,其他的master备节点,启动master命令: ./sbin/start-master.sh

5)提交程序的时候指定master的时候要指定三台master,例如

./spark-shell master spark://master01:7077,master02:7077,master03:7077

        5、一个datanode 宕机,怎么一个流程恢复

答:Datanode宕机了后,如果是短暂的宕机,可以实现写好脚本监控,将它启动起来。如果是长时间宕机了,那么datanode上的数据应该已经被备份到其他机器了,那这台datanode就是一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。

很多公司的侧重点不同,大家可以酌情参考,其实面试成功的一个关键点就是先将重要的大数据技术学到精髓,以不变应万变!



网址http://hz.mobiletrain.org/

咨询专线:400-811-9990/ 0571-86893632/0571-86094032

QQ : 1660794050

地址:浙江省杭州市江干区九堡旺田书画城A座4层

浙江省杭州市下沙经济技术开发区元成路199号龙驰智慧谷B座7层


分享到:
免责声明
1)本信息由“北京千锋互联科技有限公司”发布,由“北京千锋互联科技有限公司”负责信息的合法性;
2)本站平台目的在于分享更多信息,不代表本站的观点和立场;信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。
3)本信息如有侵权请将此链接发邮件至517763949@qq.com,本站将及时处理并回复。
4)《新著作权法草案》第六十九条规定:网络服务提供者为网络用户提供存储、搜索或者链接等单纯网络技术服务时,不承担与著作权或相关权有关的信息审查义务。网络用户利用网络服务实施侵犯著作权或者相关权行为的,被侵权人可以书面通知网络服务提供者,要求其采取删除、屏蔽、断开链接等必要措施。