机器学习
-
【学习篇】机器学习之模型评价
注:以下内容为本人学习心得,可能会存在不准确,有误导大家的可能。请酌情参考,感谢! 对于一个回归问题,可以使用MSE、RMSE、MAE、R方 对于一个分类问题,可以使用分类精准度(实际上,分类精准度是存在陷阱的) 分类准确度够用么?不够 若某事件产生概率为 0.1%,若某算法判断某事情是否产生的准确度为99.9% 时,与人工判定所有情况下都没…
-
WEKA——数据挖掘与机器学习工具
子将父做马,父愿子成龙 参考书籍 《数据挖掘与机器学习WEKA应用技术与实践》袁梅宇 编著 《数据挖掘:使用机器学习工具与技术》 Weka功能 Weka 主界面称为Weka GUI 选择器。 Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。 KnowledgeFlow…
-
数据挖掘和机器学习的基本概念
数据预处理: 聚集、抽样、维度归约、属性选择、属性创建、离散化和二元化、变量变换。 分类和回归:分类和回归是数据挖掘领域的重要技术。分类就是在已有的数据的基础上学习出一个分类函数或构造出一个分类模型,这是通常所说的分类器。分类预测出目标是离散值,回归预测输出连续值。 分类器模型:决策树分类、贝叶斯分类、K-最近邻分类、神经网络分类。 聚类分析:划分的方法、层…
-
4.结构化机器学习项目
如何判断这些idea是否是有效的?我们可以尝试和改变的东西太多了。我们需要知道要调整什么,达到什么样的效果,这个过程被称之为正交化 正交化就是一件事影响一件事 单一数字评估指标 交叉验证集与测试集应该服从同一分布 训练误差比人的误差大,那么说明模型在训练集上拟合的并不好,我们应该减少偏差,选择更大的神经网络,或者跑的更久一点梯度下降。 …
-
机器学习之Anaconda介绍
最受欢迎的Python / R数据科学发行版 轻松安装1,400多个Python / R数据科学包并管理您的包,依赖项和 环境 – 只需单击一下按钮即可。免费和开源。 数据科学图书馆 Anaconda数据科学图书馆 超过1,400个Anaconda策划和社区数据科学包 使用您喜欢的IDE开发数据科学项目,包括Jupyter,JupyterLab,Spyd…
-
机器学习之推荐算法分类
https://www.52ml.net/16177.html 以下部分内容来自论文引用: 【王立军. 基于协同过滤推荐系统的数据稀疏性问题研究[D]. 长春: 东北师范大学, 2009.】 一般来说,推荐模式有三种: 个性化推荐( personalized recommendation)——基于个人过去行为模式进行推荐 社会化推荐(social recom…
-
搜狗2016研发工程师笔试题中有关于机器学习的几个判断题及解析
1、SVM对噪声(如来自其他分布的噪声样本)鲁棒 错 SVM(支持向量机)本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平(如40%)时噪声对SVM没有太大影响,算法仍有效,但随着噪声率的不断增加,分类器的识别率会降低。http://www.docin.com/p-749158537.html 拓展:SVM在解决小样本、非线性及…
-
机器学习&深度学习资料收集
以下博客都是我在学习过程中看到的一些知识讲解非常好的博文,就不转载了,直接给出链接方便以后重复访问。有了自己的理解之后再重新整理资料发布吧 : ) sklearn系列 http://www.cnblogs.com/jasonfreak/tag/sklearn/ ROC和AUC介绍以及如何计算AUC http://alexkong.net/2013/06/in…
-
机器学习小记——KNN(K近邻) ^_^ (一)
为了让绝大多数人都可以看懂,所以我就用简单的话语来讲解机器学习每一个算法 第一次写ML的博文,所以可能会有些地方出错,欢迎各位大佬提出意见或错误 祝大家开心进步每一天~ 博文代码全部为python 简单的说一下什么是机器学习,机器学习英文名称是Machine Learning, ML 机器学习(Machine Learning, ML)是一门多领域交叉学…
-
机器学习之近邻算法模型(KNN)
1.、导引 如何进行电影分类 众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作…