机器学习
-
机器学习缺失值处理方法汇总
缺失值处理方法综述 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样,主要分为机械原因和人为原因。 机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。 人为原…
-
郑捷《机器学习算法原理与编程实践》学习笔记(第二章 中文文本分类(二)—朴素贝叶斯算法)
(上接第二章) 2.3 分类算法:朴素贝叶斯 2.3.1 贝叶斯公式推导(略) 分类的流程: 第一阶段:训练数据生成训练样本集:TF-IDF 第二阶段:对每个类别计算p(yi)。 第三个阶段:对每个特征属性计算所有划分的条件概率 第四个阶段:对每个类别计算P(x|yi)P(yi)。 第五个阶段:以P(x|yi)P(yi)的…
-
郑捷《机器学习算法原理与编程实践》学习笔记(第二章 中文文本分类(一))
2.1 文本挖掘与文本分类的概念 文本挖掘是指从大量的文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。 搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎个关键字搜索 文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类 文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘…
-
Python_sklearn机器学习库学习笔记(一)_Feature Extraction and Preprocessing(特征提取与预处理)
# Extracting features from categorical variables #Extracting features from categorical variables 独热编码 from sklearn.feature_extraction import DictVectorizer onehot_encoder=DictVec…
-
Python_sklearn机器学习库学习笔记(一)_一元回归
一、引入相关库 %matplotlib inline import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties font=FontProperties(fname=r’c:/windows/fonts/msyh.ttf’,size=10) 二、一元回归…
-
机器学习(二)分类决策树
分类决策树是一种基于特征对实例进行划分的树形结构。如下图: 图中包括有内部节点和叶子节点,叶子节点表示的是分类结果,而内部节点表示基于特征对实例的划分。如根节点,是根据特征x1是否大于a1进行划分,划分成两个内部节点,但是此时的两个内部节点各自所包含的实例中依然有不同类别的实例,需要进一步划分;于是在x1<a1(左子树)的实例中,根据特征x2是否大…
-
吴恩达机器学习笔记6-梯度下降II(Gradient descent intuition)–梯度下降的直观理解
在之前的学习中,我们给出了一个数学上关于梯度下降的定义,本次视频我们更深入研究一下,更直观地感受一下这个算法是做什么的,以及梯度下降算法的更新过程有什么意义。梯度下降算法如下: 描述:对????赋值,使得????(????)按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中????是学习率(learning rate),它决定了我们沿着能让…
-
吴恩达机器学习笔记16-决策边界(decision boundary)
现在讲下决策边界(decision boundary)的概念。这个概念能更好地帮助我们理解逻辑回归的假设函数在计算什么。 在逻辑回归中,我们预测:当ℎ????(????) >= 0.5时,预测 ???? = 1。当ℎ????(????) < 0.5时,预测 ???? = 0 。根据上面绘制出的 S 形函数图像,我们知道当???? = 0 时 …
-
吴恩达机器学习笔记15-假设陈述(Hypothesis Representation)
在分类问题中,要用什么样的函数来表示我们的假设呢?此前说过,希望我们的分类器的输出值在0 和1 之间,因 此,我们希望想出一个满足某个性质的假设函数,这个性质是它的预测值要在0 和1 之间。回顾在一开始提到的乳腺癌分类问题,我们可以用线性回归的方法求出适合数据的一条直线: 根据线性回归模型我们只能预测连续的值,然而对于分类问题,我们需要输出0 或1,…
-
吴恩达机器学习笔记21-正则化线性回归(Regularized Linear Regression)
对于线性回归的求解,我们之前推导了两种学习算法:一种基于梯度下降,一种基于正规方程。 正则化线性回归的代价函数为: 如果我们要使用梯度下降法令这个代价函数最小化,因为我们未对theta0进行正则化,所以梯度下降算法将分两种情形: 对上面的算法中???? = 1,2, . . . , ???? 时的更新式子进行调整可得: 可以看出,正则化线性回归…