记录平安金融壹账通的面试过程 - 好文

今天上午做了两份现场笔试题，一份数据挖掘的（笔试题偏SQL），一份AI岗的笔试（偏深度神经网络）。

面了平安科技的AI岗和大数据（数据挖掘）岗位，现在记录一下：

1.AI岗位：

面试官很和善，但是看了我的简历项目经验和学术经验，明确我没有深度学习方面的相关经验和学习，所以认为我和这个岗位不匹配，尽管我在期间，也表达了我有很强的自助学习能力，和很强的转岗兴趣，但是，没有得到面试官的认可，最后还是把我调到大数据的（数据挖掘岗位）了。

这里得到的一点小总结：之前自己对深度学习也有过了解，用过tensorflow调包去实现一些小的案例，但是始终没有深入的去学习这块领域的知识，认为先学好传统机器学习的知识就可以了，去面试机器学习的岗位。

但是，这几次的面试下来，发现，大部分的岗位都需要有深度学习的基础，比如RNN，CNN的一些学习实践，所以在后期的学习力，我也要把这一块的知识再学习一下，简历上也放一些实践或者比赛的案例上去。

2.大数据（数据挖掘）岗位：

刚面试，从自我介绍说起，我就把自己的实习经历，学术经历按简历顺序一一叙述了一遍。

然后面试官也就顺着简历一路问下来，其中包括的一些问题，我总结一下：

1，用户画像，用到了哪些维度的数据? 这里，我就直接说了一些特征，从人口特征，到平安的平台数据等，回答的还可以

2，我用户画像用的是K-means算法，那么对于离散变量如何进行连续化？

我回答的是，因为离散变量不能导入模型直接计算距离，所以使用one-hot编码，可以实现离散变量的连续化。

面试官接着问：除了one-hot编码，还有其他比较好的编码方式吗，因为one-hot 编码的效果不是很好。

我的回答：我了解的离散变量转变成连续型变量，还有的方法有等距分箱法，卡方分箱法等，来实现。

（其实我也不是很清楚到底哪种方法好，这里就这么说了，所以后面需要去确定一下，到底哪种编码方式比较好？

面试官接着问：对于有序的属性可以这样处理，那么对于无序的属性呢？我没有给出比较满意的回答。。。。

3.一般k-means都使用欧式距离，还有没有其他的方法，你认为比较好的，来计算变量之间的距离？

这个问题，我真的不确定。我虽然知道，还有其他的方法可以计算变量之间的距离，比如马氏距离，余弦相似度计算，所以只说了这两个，也没有明确到底用哪种距离比较好？

23点更新：https://www.zhihu.com/question/60868444
<https://www.zhihu.com/question/60868444>
知乎上有解答，在西瓜书上也写到了VDM的距离方法，不过，虽然知乎上说了独热编码的缺点，会丢失信息，但是也说有什么好的编码方式。

只是说了有

所以基于K-means这种思路的算法：

1.处理连续变量的有K-means和K-means++[2]

2.处理categorical变量的有K-modes[3]

3.处理混合变量的有K-prototypes

4.开始问CART数的问题

1）为什么选用CART数作为分类是否是沉睡用户的模型？

我回答说，决策树模型可以接收非数值型的输入，所以选决策树比较好处理。相对于ID3 ，ID4.5决策树来说，CART数的性能更好，所以就选了这个。

2）对于输入数据有缺失值的情况，你们是怎么处理的？

我回答是：将缺失值作为一种特征，直接带入到模型中，不需要作缺失值处理。

面试官接着问：是如何将缺失值作为一种特征带入模型的。我没有给出满意的回答。。。。

这个答案可以学习一下，明天过来记录。23.21更新：
https://blog.csdn.net/u013185349/article/details/81094146
<https://blog.csdn.net/u013185349/article/details/81094146>

https://blog.csdn.net/u012328159/article/details/79413610
<https://blog.csdn.net/u012328159/article/details/79413610>

3）CART回归数，如何寻找叶子节点？

擦，我这里在面试的时候，没有明白面试官的意思，刚才查了一下，应该是就是如何分裂。就是怎么选择决策数的特征。就是根据GINI指数嘛。但是和分类树不一样，回归树是计算
Gain_σ

具体见：https://blog.csdn.net/zhihua_oba/article/details/72230427
<https://blog.csdn.net/zhihua_oba/article/details/72230427>

5.开始问申请评分卡的问题

1）缺失值是怎么处理？

我回答，缺失值就是用平均值进行填充了。面试官问：是不是有些武断了？

我接着回答说，也可以用回归的方法进行预测，但是这个做法工程量有点大，所以就没有这么做。

2）如何确定变量是否存在共线性，怎么进行剔除？

这里我不是很清楚，就回答了用PERSON相关性分析来确定是否存在共线性。。。如果两个变量相关，就剔除其中一个。

23.27多重共线性 https://blog.csdn.net/diyiziran/article/details/17025471
<https://blog.csdn.net/diyiziran/article/details/17025471>

然后面试官又问，如何判定离散变量和连续型变量，是否存在共线性呢？

这个我回答，还是要把离散变量连续化，再去判断，但是面试官对回答不是很满意。。。。

3）线性回归的基本假设是什么？

这个我真不知道，回答了：假设变量之间的关系是线性的。

刚才找到了一个解释的文章：

http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html
<http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html>

最后，面试官问，有什么要问他的？

我问了一下面试官所做的业务场景，是我知道的开放平台。然后对外面做一些模型输出。

下次，我还可以问一下自己的今天面试表现如何，有什么地方需要改进的。

热门工具换一换