互联网大数据面试题集锦 - 好文

原文地址:http://hbase.group/article/89 <http://hbase.group/article/89>

以下面试题都是群里小伙伴提供的，现场真题(包含校招题)
1.网易大数据面试题

* 说说项目
* Spark哪部分用得好，如何调优
* Java哪部分了解比较好
* 聊聊并发，并发实现方法，volatile关键字说说
* HashMap的底层原理
* 为什么要重写hashcode和equals
* 说说jvm
* 各个垃圾收集器运用在什么情形
* jvm调优
* 说说io
* 为什么考虑转行呢？是因为原专业不好就业吗？

2.蚂蚁金服面试题

* 小文件的合并
* MR与Spark的区别
* 关注哪些名人的博客
* 对大数据领域有什么自己的见解
* 平常怎么学习大数据的
* StringBuilder与StringBuffer的区别
* HashMap与Hashtable的区别
* 谈谈你对树的理解
* 数据库索引的实现
* jvm的内存模型
* jvm的垃圾收集器
* jvm的垃圾收集算法
* HDFS架构
* HDFS读写流程
* Hadoop3.0做了哪些改进
* 谈谈YARN
* 为什么项目选择使用Spark，你觉得Spark的优点在哪里
* 了解Flink与Storm嘛，他们与Spark Streaming的区别在哪里
* 1TB文件，取重复的词，top5指定的资源的场景下，如何快速统计出来

3.美图面试题

* 为什么选择美图，你知道美图地点在哪里嘛
* 介绍下你做的项目吧
* 数据统一管理平台，我挺感兴趣的，你说说吧
* 我大概知道是怎么回事了，java web这块你参与开发了吗
* 你刚刚项目提到了元数据，你能说说hive的元数据管理嘛，对它了解嘛
* 还是hive，你对hive有哪些原理性了解呢
* 知道AST、operator tree这些长什么样吗
* 那你的hive转mr过程是怎么了解的呢？
* 除了谓词下推，还能说说其它的优化嘛？别说数据倾斜的调优
* jvm了解不，说下垃圾收集算法
* 平常用java和scala语言哪个多点
* 如果我现在要使用map集合，你觉得哪种适合多线程情况下进行访问
* 如何去监控线程
* Spark 出现OOM，你觉得该怎么进行调优呢？不去动jvm的参数
* 你觉得join该怎么优化
* 你对未来的规划是什么？(五年内)
* 你也就是走技术路线咯

4.美图二面

* ThriftServer的HA如何去实现，能说下实现的思路嘛
* 说下Zookeeper的watch机制是如何实现的嘛？
* 场景题：

现在有1个client，2个server，当我动态加入一台机器，或者删除一台机器，或者某台机器宕机了，client该如何去感知到，说下实现思路(不使用Zookeeper),如何通信，说说具体实现?

5.七牛云面试题

* 快排
* hive和hdfs之间的联系
* inode和文件描述符
* linux指令如何创建文件
* http中header中放入key value 有什么变化
* 系统调用和库函数区别
* http缓冲实现机智
* session cookie 区别
* 进程间通信方式
* jsp本质
* http请求状状态
* get post put remove
* 数据库join
* 数据库引擎
* hibernate和mybiters区别
* jvm垃圾回收
* hive和关系型数据库区别
* hive实现原理
* spark与mr的区别

热门工具换一换