今天上午做了两份现场笔试题,一份数据挖掘的(笔试题偏SQL),一份AI岗的笔试(偏深度神经网络)。

面了平安科技的AI岗和大数据(数据挖掘)岗位,现在记录一下:

1.AI岗位:


面试官很和善,但是看了我的简历项目经验和学术经验,明确我没有深度学习方面的相关经验和学习,所以认为我和这个岗位不匹配,尽管我在期间,也表达了我有很强的自助学习能力,和很强的转岗兴趣,但是,没有得到面试官的认可,最后还是把我调到大数据的(数据挖掘岗位)了。


这里得到的一点小总结:之前自己对深度学习也有过了解,用过tensorflow调包去实现一些小的案例,但是始终没有深入的去学习这块领域的知识,认为先学好传统机器学习的知识就可以了,去面试机器学习的岗位。


但是,这几次的面试下来,发现,大部分的岗位都需要有深度学习的基础,比如RNN,CNN的一些学习实践,所以在后期的学习力,我也要把这一块的知识再学习一下,简历上也放一些实践或者比赛的案例上去。

2.大数据(数据挖掘)岗位:

刚面试,从自我介绍说起,我就把自己的实习经历,学术经历按简历顺序一一叙述了一遍。

然后面试官也就顺着简历一路问下来,其中包括的一些问题,我总结一下:

1,用户画像,用到了哪些维度的数据?  这里,我就直接说了一些特征,从人口特征,到平安的平台数据等,回答的还可以

2,我用户画像用的是K-means算法,那么对于离散变量如何进行连续化?

我回答的是,因为离散变量不能导入模型直接计算距离,所以使用one-hot编码,可以实现离散变量的连续化。

面试官接着问:除了one-hot编码,还有其他比较好的编码方式吗,因为one-hot 编码的效果不是很好。

我的回答 : 我了解的离散变量转变成连续型变量,还有的方法有 等距分箱法,卡方分箱法等,来实现。

(其实我也不是很清楚到底哪种方法好,这里就这么说了,所以后面需要去确定一下,到底哪种编码方式比较好?

面试官接着问:对于有序的属性可以这样处理,那么对于无序的属性呢? 我没有给出比较满意的回答。。。。

3.一般k-means都使用欧式距离,还有没有其他的方法,你认为比较好的,来计算变量之间的距离?

这个问题,我真的不确定。我虽然知道,还有其他的方法可以计算变量之间的距离,比如马氏距离,余弦相似度计算,所以只说了这两个,也没有明确到底用哪种距离比较好?

23点更新:https://www.zhihu.com/question/60868444
<https://www.zhihu.com/question/60868444>
 知乎上有解答,在西瓜书上也写到了VDM的距离方法,不过,虽然知乎上说了独热编码的缺点,会丢失信息,但是也说有什么好的编码方式。

只是说了有

所以基于K-means这种思路的算法:

1.处理连续变量的有K-means和K-means++[2]

2.处理categorical变量的有K-modes[3]

3.处理混合变量的有K-prototypes

4.开始问CART数的问题

1) 为什么选用CART数作为分类是否是沉睡用户的模型?

我回答说,决策树模型可以接收非数值型的输入,所以选决策树比较好处理。相对于ID3 ,ID4.5决策树来说,CART数的性能更好,所以就选了这个。

2)对于输入数据有缺失值的情况,你们是怎么处理的?

我回答是:将缺失值作为一种特征,直接带入到模型中,不需要作缺失值处理。

面试官接着问:是如何将缺失值作为一种特征带入模型的。我没有给出满意的回答。。。。

这个答案可以学习一下,明天过来记录。23.21更新:
https://blog.csdn.net/u013185349/article/details/81094146
<https://blog.csdn.net/u013185349/article/details/81094146>

https://blog.csdn.net/u012328159/article/details/79413610
<https://blog.csdn.net/u012328159/article/details/79413610>

3)CART回归数,如何寻找叶子节点?


擦,我这里在面试的时候,没有明白面试官的意思,刚才查了一下,应该是就是如何分裂。就是怎么选择决策数的特征。就是根据GINI指数嘛。但是和分类树不一样,回归树是计算
Gain_σ

具体见:https://blog.csdn.net/zhihua_oba/article/details/72230427
<https://blog.csdn.net/zhihua_oba/article/details/72230427>

5.开始问申请评分卡的问题

1)缺失值是怎么处理?

我回答,缺失值就是用平均值进行填充了。面试官问:是不是有些武断了?

我接着回答说,也可以用回归的方法进行预测,但是这个做法工程量有点大,所以就没有这么做。

2)如何确定变量是否存在共线性,怎么进行剔除?

这里我不是很清楚,就回答了用PERSON相关性分析来确定是否存在共线性。。。如果两个变量相关,就剔除其中一个。

23.27多重共线性 https://blog.csdn.net/diyiziran/article/details/17025471
<https://blog.csdn.net/diyiziran/article/details/17025471>

然后面试官又问,如何判定离散变量和连续型变量,是否存在共线性呢?

这个我回答,还是要把离散变量连续化,再去判断,但是面试官对回答不是很满意。。。。

3)线性回归的基本假设是什么?

这个我真不知道,回答了:假设变量之间的关系是线性的。

刚才找到了一个解释的文章:

http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html
<http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html>

 

最后,面试官问,有什么要问他的?

我问了一下面试官所做的业务场景,是我知道的开放平台。然后对外面做一些模型输出。

下次,我还可以问一下自己的今天面试表现如何,有什么地方需要改进的。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信