4.结构化机器学习项目

2023年4月12日下午11:07 • 机器学习

如何判断这些idea是否是有效的？我们可以尝试和改变的东西太多了。我们需要知道要调整什么，达到什么样的效果，这个过程被称之为正交化

4.结构化机器学习项目

4.结构化机器学习项目

正交化就是一件事影响一件事

4.结构化机器学习项目

单一数字评估指标

4.结构化机器学习项目

4.结构化机器学习项目

交叉验证集与测试集应该服从同一分布

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

训练误差比人的误差大，那么说明模型在训练集上拟合的并不好，我们应该减少偏差，选择更大的神经网络，或者跑的更久一点梯度下降。

开发误差比训练误差大，那么说明模型在数据上过拟合了，此时应该减少方差，使用正则化或者使用更多的数据。

人类的误差比较接近贝叶斯误差。

训练误差和贝叶斯误差之间的差值称为可避免偏差，所以我们可以一直提高训练集合的表现，直至接近贝叶斯误差，但不能超过他

4.结构化机器学习项目

机器学习在结构化的工程中表现超过人类。

但在自然感知领域，比如计算机视觉，自然语言处理，语音识别等领域难以超越人类

4.结构化机器学习项目

第一种划分，虽然训练集，开发集，测试集是同一分布的，但是开发集中只有非常少量的手机图片。然而开发集使我们用来瞄准用的，所以这种情况就瞄准偏了。

第二种划分，训练集中有一小部分的手机图片，开发集和测试集都是手机图片，虽然瞄准了，但缺点是训练集不太好，但比第一种好。

4.结构化机器学习项目

训练集与训练开发集是同一分布的。

上左：高方差。上右：数据不匹配（分布不同）。下左：高偏差。下右：高偏差，数据不匹配。

4.结构化机器学习项目

从上到下依次是：偏差，方差，数据不匹配，模型对开发集过拟合程度（注意开发集和测试集是同一分布的）

4.结构化机器学习项目

数据不匹配的问题可以用人工合成的手段使得数据尽可能的匹配。但是噪声要尽可能的不重复，否则就会对部分噪声过拟合。

4.结构化机器学习项目

在迁移学习中，如果数据量较小，那么我们可以只训练最后的几层，如果数据量很多，那么我们可以将所有的层训练。

预训练就是未迁移之前的训练，微调就是迁移后的训练。迁移学习之所以有效，是因为迁移学习的预训练阶段已经学习到

了一些底层的特征，比如边缘检测，曲线检测等。学习到的这些点，曲线知识可以应用到后续的检测中。迁移学习往往用在，预训练有大量的数据，

微调只有少量的数据。

4.结构化机器学习项目

4.结构化机器学习项目

4.结构化机器学习项目

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：4.结构化机器学习项目 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习之Anaconda介绍

上一篇 2023年4月12日

数据挖掘和机器学习的基本概念

下一篇 2023年4月12日

循环神经网络

【ing 】CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？

CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络） DNN指的是包含多个隐层的神经网络，如图1所示，根据神经元的特点，可以分为MLP、CNNs、RNNs等，下文在区分三者的时候，都从神经元的角度来讲解。MLP是最朴素的DNN，CNNs是enco…

2023年4月5日
000
Keras

人工智能深度学习入门练习之（38）深度学习 – tensorflow实例之keras的siamese(孪生网络)实现案例

一、 keras的siamese(孪生网络)实现案例二、代码实现 import keras import numpy as np import matplotlib.pyplot as plt import random from keras.callbacks import TensorBoard from keras.datasets import m…

2023年4月8日
000
机器学习实战源码—–用线性回归找到最佳拟合曲线

1 #_*_coding:utf-8_*_ 2 import numpy as np 3 import matplotlib.pyplot as plt 4 5 def loadDataSet(fileName): 6 #numFeat表示特征的数量 7 numFeat = len(open(fileName).readline().split(“\t”))…

机器学习 2023年4月11日
000
机器学习

25个好用又免费的机器学习训练集！

你应该知道，训练数据集是机器学习不可或缺的一部分。在5—10年前，人们很难找到用于机器学习、数据科学的训练数据集，但现在，最大的问题不是寻找数据集，而是在巨量数据中筛选出业务相关的训练集。所以，基于此原因，本文章整理了25个好用又免费的机器学习训练数据集，您可以从这些网站中随便下载适用您业务的训练集！本文章欢迎转载，转载请标明来源：Python技术站（网…

2023年1月11日
001
Caffe的设计、主要结构

Caffe的设计 Caffe遵循了神经网络的一个假设：所有的计算都是以layer形式表示的，layer的作用就是根据输入数据，输出一些计算以后的结果。以卷积为例，就是输入一副图像，然后与这一层的参数(filter)进行卷积运算，然后输出卷积的结果。每一个layer需要进行两种运算:（1）forward，从输入计算输出；（2）backward根据上面的梯度(g…

Caffe 2023年4月6日
000
模型参数与超参数的区别

模型参数和超参数是机器学习模型中两个非常重要的概念，两者的区别不同但却很容易混淆。模型参数模型参数是指在训练过程中可以通过优化算法学习到的、用于决定模型预测值的内部变量。这些参数是模型的一部分，用于进行最终预测，因此它们的值在训练完毕后是固定的，不能再次修改。举个简单例子，对于线性回归模型，它的参数就是权重和截距，它们的值是在训练过程中被学习得到的。下…

artificial-intelligence 2023年3月27日
000
GAN生成对抗网络

GAN-生成对抗网络原理

最近一直在看GAN，我一直认为只有把博客看了一遍，然后再敲一遍。这样才会有深刻的感悟。 GAN（生成式对抗网络）（GAN, Generative Adversarial Networks ）是一种深度学习模型，分布在无监督学习上。分成两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）。简单来说就…

2023年4月6日
000
目标检测

目标检测数据集The Object Detection Dataset

目标检测数据集The Object Detection Dataset 在目标检测领域，没有像MNIST或Fashion MNIST这样的小数据集。为了快速测试模型，我们将组装一个小数据集。首先，我们使用一个开源的3D Pikachu模型生成1000张不同角度和大小的Pikachu图像。然后，我们收集一系列背景图像，并在每个图像上随机放置一个Pikachu图…

2023年4月6日
000

合作推广

合作推广

返回顶部