1. 你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法?
答:推荐中用过CF,LR 分类中用过SVM,GBDT;
一般用法是什么,是不是自己实现的,有什么比较知名的实现,使用过程中踩过哪些坑;
优缺点分析。
2.你熟悉的机器学习/数据挖掘算法主要有哪些?
基础算法要多说,其它算法要挑熟悉程度高的说,不光列举算法,也适当说说应用场合;
答:协同过滤,聚类,分类,
3. 你用过哪些机器学习/数据挖掘 工具或框架
答:mahout
主流的分布式框架如 Hadoop,Spark,Graphlab,Parameter Server 等择一或多使用了解;
通用算法包,如 mahout,scikit,weka 等;
专用算法包,如 opencv,theano,torch7,ICTCLAS 等。
4.基础知识
1.个人感觉高频话题是SVM,LR,决策树(决策森林)和聚类算法,要重点准备,
2.算法要从以下几个方面来掌握
产生背景,试用场合(数据规模,特征维度,是否有online 算法,离散/连续特征处理等角度)
原理推到: (最大间隔,软间隔,对偶);
求解方法(随机梯度下降、拟牛顿法等优化算法);
优缺点,相关改进;
和其他基本方法的对比;
3.不能停留在看懂的程度,还要对知识进行结构化整理,比如撰写自己的cheet sheet,我觉得面试是在有限的时间内向面试官输出自己知识的过程,如果仅仅是在面试现场才开始调动知识、组织表达,总还是不如系统的梳理准备;
从面试官的角度多问自己一些问题,通过查找资料总结出全面的解答,比如如何预防或克服过拟合。
问题:
1.无监督和有监督算法的区别?
2.SVM的推到,特性,多分类怎么处理?
3.LR的推到,特性?
4.决策树的特性?
5.SVM,LR,决策树的对比
6.GBDT和决策森林的区别?
7.如何判断函数的凸或非凸?
8.解释对偶的概念。
9.如何进行特征选择?
10.为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
11.介绍卷积神经网络,和DBN有什么区别?
12.采用EM算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?
13.用EM 算法推到解释Kmeans。
14.用过哪些聚类算法,解释密度聚类算法。
15.聚类算法中的距离度量有哪些?
16.如何进行实体识别?
17.解释贝叶斯公司和朴素贝叶斯分类
18.写一个hadoop版本的wordcount
5.开放问题
1.给你公司内部群组的聊天记录,怎样区分出主管和员工?
2.如何评估网站内容的真实性(针对代刷、作弊类)?
3.深度学习在推荐系统上可能有怎样的发挥?
4.路段平均车速反应了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?采集数据中的异常值如何处理?
5.如何根据预料计算两个词词义的相似度?
6.在百度贴吧里发布app广告,问推荐策略?
7.如何判断自己实现的LR,K Means 算法是哦福正确?
8.100亿数字,怎么统计前100大的?
如果真的是以就业为导向就要在平时注意实战经验的积累,在科研项目、实习、比赛(Kaggle,Netflix,天猫大数据竞赛等)中摸清算法特性、熟悉相关工具与模块的使用。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:机器学习的常见面试问题 - Python技术站