1. 你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法?

答:推荐中用过CF,LR  分类中用过SVM,GBDT;

 

一般用法是什么,是不是自己实现的,有什么比较知名的实现,使用过程中踩过哪些坑;

优缺点分析。

2.你熟悉的机器学习/数据挖掘算法主要有哪些?

基础算法要多说,其它算法要挑熟悉程度高的说,不光列举算法,也适当说说应用场合;

 

答:协同过滤,聚类,分类,

3. 你用过哪些机器学习/数据挖掘 工具或框架

答:mahout

主流的分布式框架如 Hadoop,Spark,Graphlab,Parameter Server 等择一或多使用了解;
通用算法包,如 mahout,scikit,weka 等;
专用算法包,如 opencv,theano,torch7,ICTCLAS 等。

4.基础知识

1.个人感觉高频话题是SVM,LR,决策树(决策森林)和聚类算法,要重点准备,

2.算法要从以下几个方面来掌握

产生背景,试用场合(数据规模,特征维度,是否有online 算法,离散/连续特征处理等角度)

原理推到: (最大间隔,软间隔,对偶);

求解方法(随机梯度下降、拟牛顿法等优化算法);

优缺点,相关改进;

和其他基本方法的对比;

3.不能停留在看懂的程度,还要对知识进行结构化整理,比如撰写自己的cheet sheet,我觉得面试是在有限的时间内向面试官输出自己知识的过程,如果仅仅是在面试现场才开始调动知识、组织表达,总还是不如系统的梳理准备;

从面试官的角度多问自己一些问题,通过查找资料总结出全面的解答,比如如何预防或克服过拟合。

问题:

1.无监督和有监督算法的区别?

2.SVM的推到,特性,多分类怎么处理?

3.LR的推到,特性?

4.决策树的特性?

5.SVM,LR,决策树的对比

6.GBDT和决策森林的区别?

7.如何判断函数的凸或非凸?

8.解释对偶的概念。

9.如何进行特征选择?

10.为什么会产生过拟合,有哪些方法可以预防或克服过拟合?

11.介绍卷积神经网络,和DBN有什么区别?

12.采用EM算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?

13.用EM 算法推到解释Kmeans。

14.用过哪些聚类算法,解释密度聚类算法。

15.聚类算法中的距离度量有哪些?

16.如何进行实体识别?

17.解释贝叶斯公司和朴素贝叶斯分类

18.写一个hadoop版本的wordcount

 

5.开放问题

1.给你公司内部群组的聊天记录,怎样区分出主管和员工?

2.如何评估网站内容的真实性(针对代刷、作弊类)?

3.深度学习在推荐系统上可能有怎样的发挥?

4.路段平均车速反应了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?采集数据中的异常值如何处理?

5.如何根据预料计算两个词词义的相似度?

6.在百度贴吧里发布app广告,问推荐策略?

7.如何判断自己实现的LR,K Means 算法是哦福正确?

8.100亿数字,怎么统计前100大的?

如果真的是以就业为导向就要在平时注意实战经验的积累,在科研项目、实习、比赛(Kaggle,Netflix,天猫大数据竞赛等)中摸清算法特性、熟悉相关工具与模块的使用。