原文地址:http://hbase.group/article/89 <http://hbase.group/article/89>

以下面试题都是群里小伙伴提供的,现场真题(包含校招题)
1.网易大数据面试题

* 说说项目
* Spark哪部分用得好,如何调优
* Java哪部分了解比较好
* 聊聊并发,并发实现方法,volatile关键字说说
* HashMap的底层原理
* 为什么要重写hashcode和equals
* 说说jvm
* 各个垃圾收集器运用在什么情形
* jvm调优
* 说说io
* 为什么考虑转行呢?是因为原专业不好就业吗?

2.蚂蚁金服面试题

* 小文件的合并
* MR与Spark的区别
* 关注哪些名人的博客
* 对大数据领域有什么自己的见解
* 平常怎么学习大数据的
* StringBuilder与StringBuffer的区别
* HashMap与Hashtable的区别
* 谈谈你对树的理解
* 数据库索引的实现
* jvm的内存模型
* jvm的垃圾收集器
* jvm的垃圾收集算法
* HDFS架构
* HDFS读写流程
* Hadoop3.0做了哪些改进
* 谈谈YARN
* 为什么项目选择使用Spark,你觉得Spark的优点在哪里
* 了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里
* 1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来
 
3.美图面试题

* 为什么选择美图,你知道美图地点在哪里嘛
* 介绍下你做的项目吧
* 数据统一管理平台,我挺感兴趣的,你说说吧
* 我大概知道是怎么回事了,java web这块你参与开发了吗
* 你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
* 还是hive,你对hive有哪些原理性了解呢
* 知道AST、operator tree这些长什么样吗
* 那你的hive转mr过程是怎么了解的呢?
* 除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
* jvm了解不,说下垃圾收集算法
* 平常用java和scala语言哪个多点
* 如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
* 如何去监控线程
* Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
* 你觉得join该怎么优化
* 你对未来的规划是什么?(五年内)
* 你也就是走技术路线咯

4.​美图二面

* ThriftServer的HA如何去实现,能说下实现的思路嘛
* 说下Zookeeper的watch机制是如何实现的嘛?
* 场景题:
   
 现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper),如何通信,说说具体实现?
 
5.七牛云面试题

* 快排
* hive和hdfs之间的联系
* inode和文件描述符
* linux指令如何创建文件
* http中header中放入key value 有什么变化
* 系统调用和库函数区别
* http缓冲实现机智
* session cookie  区别
* 进程间通信方式
* jsp本质
* http请求状状态
* get post put remove
* 数据库join 
* 数据库引擎
* hibernate和mybiters区别
* jvm垃圾回收
* hive和关系型数据库区别
* hive实现原理
* spark与mr的区别