Coursera机器学习week1 笔记

2023年4月9日下午11:48 • 机器学习

What is machine learning？

实际上，即使是在机器学习的专业人士中，也不存在一个被广泛认可的定义来准确定义机器学习是什么或不是什么，本课程中给出了两个定义

1：Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

这个是一种更久远的定义，Arthur Samuel将其定义为“给予计算机能自我学习的能力而不是编程”

2：Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

这一个更新的定义是Tom Mitchell 提出的，“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么我们称这个计算机程序在从经验E学习。”

Machine learning algorithms

1：Supervised learning（监督学习）

2：Unsupervised learning（无监督学习）

3:Others: Reinforcement learning, recommender systems.

Supervised Learning

通过已有的训练样本来训练，得到一个最优的模型，利用这个模型可以将新的数据输出相应的值。

监督学习分为“回归”（regression）和“分类”（classification）。

回归问题：预测一个连续的值。

列如通过房屋大小来预测相应的价值

Coursera机器学习week1 笔记

分类问题：预测一个离散的值。

列如给定肿瘤大小来判断是良性的还是恶性的。

Coursera机器学习week1 笔记

Unsupervised Learning

在监督学习中，我们明确的知道我们需要的结果是什么，但在无监督学习中，我们是不知道产生的结果是什么的。

在无监督学习中，我们只有一个数据集，聚类算法可以将一个数据集分成多个聚集簇。当然，无监督学习还有其它算法。

列如聚类:收集1,000,000个不同的基因，并找到一种方法，将这些基因自动组合成相似或相关的不同变量，如寿命、位置、角色等。

Coursera机器学习week1 笔记

Linear regression with one variable（单变量线性回归问题）

Model representaion

让我们看一个例子：

预测住房价格问题

如果你朋友的房子大小是1250平方尺大小，你要告诉他这个房子能卖多少钱。那么你可以做的就是建立一个模型，从这个数据模型上来看，也许你可以告诉你的朋友，他大概能卖220000美元。

Coursera机器学习week1 笔记

下面说下符号定义，为了更好的理解。

m：代表训练集中实例的数量

x：代表特征/输入变量

y：代表目标变量/输出变量

(x,y)：代表训练集中的实例

(x(i),y(i))：da代表第i个观察实例

h：代表学习算法的解决方案或函数也称为假设(hypothesis)

Coursera机器学习week1 笔记

下面是一个监督学习的工作方式：

Coursera机器学习week1 笔记

将y关于x的线性函数表示为 Coursera机器学习week1 笔记 ,因此这样的问题也叫做单变量线性回归问题。

Cost funcion（代价函数）

代价函数在我的理解中是使的目标函数最优。

Coursera机器学习week1 笔记

例如我们有m=47，我们的假设函数是 Coursera机器学习week1 笔记，我们需要的是为这个模型选择合适的参数θ0和θ1 ，使的误差最小。

可以向下面那样选择：

Coursera机器学习week1 笔记

而我们需要的是让误差最小，即目标函数最优解。也就是求下面J函数的最小值

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

设θ0=0，即过原点，θ1为x轴，J为y轴，可以得出不同的θ1对应的不同的J，由右图明显得出θ1=1时误差最小。

Coursera机器学习week1 笔记

学习算法的优化目的是找到一个最优的θ1，使的J(θ1)最小化，上图就是θ1=1时，J(θ1)最小化。

Coursera机器学习week1 笔记

上面那个例子的代价函数三维图如下：

Coursera机器学习week1 笔记

也可以在二维图种用轮廓图代替

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

Gradient descent（梯度下降法）

梯度下降法可以让代价函数J得到最优化

Coursera机器学习week1 笔记

假设只有两个θ，当然多个也是一样的。先初始化θ0=θ1=0，然后每次都往θ0，θ1下降最快的方向移动，不停的改变θ0和θ1的值，最后就可以得到最小值了。当然也可能是局部最小

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

可以想象成你在山顶，你想以最快的步伐到山地，看到每次都是往斜度最大的方向走，梯度下降法也是类似的。

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

α表示学习率，它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。

θ0，θ1必须同步更新，不然会出错。

Coursera机器学习week1 笔记

α要是个正值，负值的话会往高处走，得不偿失了。

Coursera机器学习week1 笔记

如果α大小，结果是它一点一点的挪动，非常的缓慢，需要很多步才能到达全局最低点。

如果α太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛乃至发散。知道你发现实际上离最低点越来越远。

如果θ1初始化在局部最低点，在这儿，它已经在一个局部的最优处或局部最低点。结果是此处的导数是0，那么θ1将不会变，一直是原来的那个θ1，这也解释了为什么即使学习速率α不变时，梯度下降法也可以收敛局部最低点。

让我们看下下面这个例子：

Coursera机器学习week1 笔记

先初始化θ1的值，然后用梯度下降法一步一步往下移，当越接近最低点时，导数就越小，那么幅度也越接近0，直到等于0时θ1的值将不会被改变。

Gradient descent for linear regression

用梯度下降法运用在平方误差代价函数中，下图是梯度下降法和线性回归算法的比较：

Coursera机器学习week1 笔记

想要最优化J(θ0,θ1),就要不断的改变θ0,θ1的值。直到J(θ0,θ1)收敛。J(θ0,θ1)的导数如下：

Coursera机器学习week1 笔记

那么梯度下降法就变成了：

Coursera机器学习week1 笔记

刚刚使用的算法有时候也叫批量梯度下降法，就是不断重复这个步骤，知道得到最优值。

找到最优解：

Coursera机器学习week1 笔记

Coursera机器学习week1 笔记

执行梯度下降时，根据你的初始值的不同，可能会得到不同的局部最优解。

Coursera机器学习week1 笔记

但是线性回归的“代价函数”总是这样一个弓形的样子（凸函数）凸函数是没有局部最优解，只有一个全局最优解。无论什么时候对这种代价函数使用线性回归，梯度下降得到的结果总是收敛至全局最小，没有全局最优以外的局部最优。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Coursera机器学习week1 笔记 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Coursera机器学习week1 单元测试

上一篇 2023年4月9日下午11:47

Coursera机器学习week4 笔记

下一篇 2023年4月9日下午11:49

机器学习二逻辑回归作业

作业在这，http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的。 57维特征，2分类问题。采用逻辑回归方法。但是上述数据集在kaggle中没法下载，于是只能用替代的方法了，下了breast-cancer-wisconsin数据集。链接在这http://arc…

机器学习 2023年4月13日
000
转载Mahout实现的机器学习算法

Mahout实现的机器学习算法见下表算法类算法名中文名分类算法 Logistic Regression 逻辑回归 Bayesian 贝叶斯 SVM 支持向量机 Perceptron 感知器算法 Neural Network 神经网络 Random Forests 随机森林 Restricted Boltzmann Machines 有限波尔兹曼机聚…

机器学习 2023年4月12日
000
机器学习

【机器学习】李宏毅——Explainable ML(可解释性的机器学习)

本文介绍了Explainable ML(可解释性的机器学习)的相关内容，抱愧这项技术的相关概述、当前发展等等。在前面的学习之中，我们已经学习了很多的模型，它能够针对特定的任务，接受我们的输入并产生目标的输出。但我们并不满足于此，我们甚至希望机器告诉我们，它是如何得到这个答案的，而这就是可解释的机器学习。 Why we need Explainable ML…

2023年4月17日
000
机器学习：决策树——分类树 ID3算法代码+案例

一、决策树ID3递归算法的实现 import numpy as np class DecisionTree: class Node: def __init__(self): self.value = None # 内部叶节点属性 self.feature_index = None self.children = {} def __str__(self): i…

机器学习 2023年4月10日
000
机器学习中的算法(2)-支持向量机(SVM)基础 – LeftNotEasy – 博客园

版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，…

机器学习 2023年4月13日
000
吴恩达机器学习复习3：分类、假设的表示方法、决策边界、损失函数、简化的损失函数和梯度下降、梯度下降、高等优化、多级分类

【分类】 ①两类或二分类问题：输出值为0或1 ②多分类问题：比如y可能有4个值，0、1、2、3 有关肿瘤的分类问题如果使用线性回归处理分类问题？为了尝试分类，方法是使用线性回归并且把大于0.5的映射为1，小于0.5的映射为0 然而这种方法并不能正常工作，因为分类不是一个线性函数【假设的表示方法】 Sigmoid函数…

机器学习 2023年4月11日
000
机器学习

Andrew Ng机器学习算法入门(四):阶梯下降算法

梯度降级算法简介之前如果需要求出最佳的线性回归模型，就需要求出代价函数的最小值。在上一篇文章中，求解的问题比较简单，只有一个简单的参数。梯度降级算法就可以用来求出代价函数最小值。梯度降级算法的在维基的定义: 梯度下降法是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向…

2023年4月9日
000
Coursera机器学习week3 编程作业

sigmoid.m g = 1./(1+exp(-z)); costFunction.m J = 1./m*(-y’*log(sigmoid(X*theta)) – (1-y)’*log(1-sigmoid(X*theta))); grad = 1/m * X’*(sigmoid(X*theta) – y); predict.m J = 1./m*(-y’*…

机器学习 2023年4月9日
000

合作推广

合作推广

返回顶部