机器学习的常见面试问题

2023年4月13日上午2:26 • 机器学习

1. 你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法？

答：推荐中用过CF,LR 分类中用过SVM,GBDT；

一般用法是什么，是不是自己实现的，有什么比较知名的实现，使用过程中踩过哪些坑；

优缺点分析。

2.你熟悉的机器学习/数据挖掘算法主要有哪些？

基础算法要多说，其它算法要挑熟悉程度高的说，不光列举算法，也适当说说应用场合；

答：协同过滤，聚类，分类，

3. 你用过哪些机器学习/数据挖掘工具或框架

答：mahout

主流的分布式框架如 Hadoop，Spark，Graphlab，Parameter Server 等择一或多使用了解；
通用算法包，如 mahout，scikit，weka 等；
专用算法包，如 opencv，theano，torch7，ICTCLAS 等。

4.基础知识

1.个人感觉高频话题是SVM,LR,决策树（决策森林）和聚类算法，要重点准备，

2.算法要从以下几个方面来掌握

产生背景，试用场合（数据规模，特征维度，是否有online 算法，离散/连续特征处理等角度）

原理推到：（最大间隔，软间隔，对偶）；

求解方法（随机梯度下降、拟牛顿法等优化算法）；

优缺点，相关改进；

和其他基本方法的对比；

3.不能停留在看懂的程度，还要对知识进行结构化整理，比如撰写自己的cheet sheet，我觉得面试是在有限的时间内向面试官输出自己知识的过程，如果仅仅是在面试现场才开始调动知识、组织表达，总还是不如系统的梳理准备；

从面试官的角度多问自己一些问题，通过查找资料总结出全面的解答，比如如何预防或克服过拟合。

问题：

1.无监督和有监督算法的区别?

2.SVM的推到，特性，多分类怎么处理？

3.LR的推到，特性？

4.决策树的特性？

5.SVM,LR，决策树的对比

6.GBDT和决策森林的区别？

7.如何判断函数的凸或非凸？

8.解释对偶的概念。

9.如何进行特征选择？

10.为什么会产生过拟合，有哪些方法可以预防或克服过拟合？

11.介绍卷积神经网络，和DBN有什么区别？

12.采用EM算法求解的模型有哪些，为什么不用牛顿法或梯度下降法？

13.用EM 算法推到解释Kmeans。

14.用过哪些聚类算法，解释密度聚类算法。

15.聚类算法中的距离度量有哪些？

16.如何进行实体识别？

17.解释贝叶斯公司和朴素贝叶斯分类

18.写一个hadoop版本的wordcount

5.开放问题

1.给你公司内部群组的聊天记录，怎样区分出主管和员工？

2.如何评估网站内容的真实性（针对代刷、作弊类）？

3.深度学习在推荐系统上可能有怎样的发挥？

4.路段平均车速反应了路况，在道路上布控采集车辆速度，如何对路况做出合理估计？采集数据中的异常值如何处理？

5.如何根据预料计算两个词词义的相似度？

6.在百度贴吧里发布app广告，问推荐策略？

7.如何判断自己实现的LR，K Means 算法是哦福正确？

8.100亿数字，怎么统计前100大的？