深度学习之权重衰减——2020.27

2023年4月10日下午1:14 • 深度学习

过拟合现象，即模型的训练误差远⼩于它在测试集上的误差。虽然增⼤训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价⾼昂。本节介绍应对过拟合问题的常⽤⽅法：权重衰减（weight decay）。

一、方法

权重衰减等价于范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较⼩，是应对过拟合的常⽤⼿段。我们先描述范数正则化，再解释它为何⼜称权重衰减。
范数正则化在模型原损失函数基础上添加范数惩罚项，从⽽得到训练所需要最⼩化的函数。范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。以3.1节（线性回归）中的线性回归损失函数：
深度学习之权重衰减——2020.27
为例，其中 \(w_1,W_2\) 是权重参数， \(b\) 是偏差参数，样本 \(x_1^{i},x_2^{i}\) 的输⼊为，标签为 \(y^{i}\)，样本数为 \(n\) 。将权重参数⽤向量 \(w = [w1,w2]\) 表示，带有 \(L_2\) 范数惩罚项的新损失函数为
深度学习之权重衰减——2020.27

二、实现

( 一 )导包

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l

n_train, n_test, num_inputs = 20,100,200
true_w, true_b = torch.ones(num_inputs,1) * 0.01,0.05

features = torch.randn((n_train + n_test, num_inputs))
labels = torch.matmul(features,true_w) + true_b
labels += torch.tensor(np.random.normal(0,0.01,size=lables.size()),dtype=torch.float)
train_features, tensorst_features = featuresatures[:n_train,:],features[n_train:, :]
train_labels, test_labels = labels[:n_train],labels[n_train:]

（二）定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习之权重衰减——2020.27 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习常用基本知识整理

上一篇 2023年4月10日

深度学习之稠密连接⽹络（DENSENET）

下一篇 2023年4月10日

转载-【深度学习】深入理解Batch Normalization批标准化

全文转载于郭耀华—【深度学习】深入理解Batch Normalization批标准化；文章链接Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift；发表于2015的ICML；这几天面试经常被问到BN层的原理，虽然回答…

深度学习 2023年4月11日
000
深度学习

深度学习性能提升的诀窍 How To Improve Deep Learning Performance

原文： How To Improve Deep Learning Performance 作者： Jason Brownlee 翻译： KK4SBB 责编：何永灿克服过拟合和提高泛化能力的20条技巧和诀窍你是如何提升深度学习模型的效果？这是我经常被问到的一个问题。有时候也会换一种问法：我该如何提高模型的准确率呢？ ……或者反过来问：如果我的网络模…

2023年4月10日
000
CentOS7服务器上部署深度/机器学习环境推荐首选anaconda3

CentOS7服务器上部署深度/机器学习环境推荐首选anaconda3，亲测~~ 因为可以创建不同的环境版本或虚拟环境 CentOS7服务器安装anaconda3后，CentOS7服务器开启后自动将anaconda3自身的root(或base)环境开启。用Xshell打开CentOS7服务器后，可以看见 (base) WARNING! The remote …

深度学习 2023年4月12日
000
时间序列深度学习：状态 LSTM 模型预测太阳黑子

目录时间序列深度学习：状态 LSTM 模型预测太阳黑子教程概览商业应用长短期记忆（LSTM）模型太阳黑子数据集构建 LSTM 模型预测太阳黑子 1 若干相关包 2 数据 3 探索性数据分析 3.1 使用 COWPLOT 可视化太阳黑子数据 3.2 计算 ACF 4 回测：时间序列交叉验证 4.1 开发一个回测策略 4.2 可视化回测策略 5 用 …

深度学习 2023年4月11日
000
详解 Facebook 田渊栋 NIPS2017 论文：深度强化学习研究的 ELF 平台

这周，机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了，许多作者都马上发 Facebook/Twitter/Blog/ 朋友圈分享了论文被收录的喜讯。大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选，论文名为「ELF: An Extensive, Lightweight and Flexible Resea…

深度学习 2023年4月13日
000
深度学习

时尚与深度学习系列：Fashion forward: Forecasting visual style in fashion

https://arxiv.org/pdf/1705.06394.pdf 将深度学习与时尚预测联系在一起，是一个很有趣但是估计结果会没什么成效的话题。因为，时尚预测这一领域，与股票金融房价之类的预测不一样，不是一个结合街区环境，经济环境，天气等客观情况就能预测综合走向的，而是依据某些fashion icon的主观性，时尚编辑的意…

2023年4月9日
000
深度学习之加载VGG19模型分类识别

主要参考博客： https://blog.csdn.net/u011046017/article/details/80672597#%E8%AE%AD%E7%BB%83%E4%BB%A3%E7%A0%81http://www.cs.toronto.edu/~frossard/post/vgg16/ 1、物体分类 imagenet_classes.py cla…

深度学习 2023年4月11日
000
深度学习如何提取特征

参考文献：深度学习如何提取特征引题：一个粗糙的想法，简单粗暴：法1：每幅图我让机器一个一个像素看，从像素来说，它最能准确地表达某个具体的物体具体的姿势。可以想到，来了一个像素，你能干嘛，你能判断它是谁？逐像素，你只能：（1）对比一张图片和你有损压缩之后相差多少（2）设一个阀值，然后灰度分级。一旦涉及特征，不会只是像素（尽管有raw features…

深度学习 2023年4月13日
000

合作推广

合作推广

返回顶部