深度学习7softmax回归

2023年4月11日上午2:11 • 深度学习

softmax回归可以解决两种以上的分类，该模型是logistic回归模型在分类问题上的推广。

对于y可以取两个以上的值，比如说判断一份邮件是垃圾邮件、个人邮件还是工作邮件。

这边也参考http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

即，对于训练集，我们有

也就是对于给定的输入x，我们想用假设函数针对每一个类别j估算p(y=j|x)，也就是估算出每一种分类结果出现的概率。对于logistic回归中，y取0跟1，我们采用假设函数我们将训练模型参数，使其能够最小化代价函数：

就是这边为什么乘以-1/m

而在softmax回归中，y取多个值k，因此，我们的假设函数将要输出一个维的向量（向量元素的和为1）来表示这个估计的概率值。具体地说，我们的假设函数形式如下：

下面就看看这个是怎么来的。

首先定义每个结果的概率，

则有，这样我也就可以把最后一个概率用前面几项表示，即

则，这个问题我们可以看成事k-1维的问题。则这个时候的T(y)就不是y，而是一组k-1维的向量，也就是T(y)要给出每一个y=i的概率（i从1到k-1）对于这个问题也演化到一般线性模型上面，即

将这多个向量也转化到指数分布上。下面定义:

用表示第i个向量，第i为1，其他为0，符号表示

，

另外我们有

好，下面我们的目的也就是使得每个在其i时的概率最大，转化到一般线性模型下，即

则：

则对于每一个有

这边，接着有

则，带入得到

从η到φ我们就叫做softmax回归。

这样我们就得到了上面的假设函数，换个写法

下面再反过来求最大似然估计

最后我们再用牛顿法或者梯度下降法解出θ

整个过程有了，但是还没有能够进行深入理解，对于更多细节参考

http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

下面做一下这个后面的练习来加深理解。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习7softmax回归 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习6一般线性模型

上一篇 2023年4月11日

深度学习5牛顿法

下一篇 2023年4月11日

深度学习

基于深度学习的智能PCB板缺陷检测系统（Python+清新界面+数据集）

智能PCB板缺陷检测系统用于智能检测工业印刷电路板（PCB）常见缺陷，自动化标注、记录和保存缺陷位置和类型，以辅助电路板的质检。本文详细介绍智能PCB板缺陷检测系统，在介绍算法原理的同时，给出Python的实现代码以及PyQt的UI界面和训练数据集。在界面中可以选择各种图片、视频进行检测识别；可对图像中存在的多种缺陷进行识别分类，检测速度快、识别精度高。博文…

2023年4月10日
000
深度学习

深度学习之PyTorch实战（5）——对CrossEntropyLoss损失函数的理解与学习

　　其实这个笔记起源于一个报错，报错内容也很简单，希望传入一个三维的tensor，但是得到了一个四维。 RuntimeError: only batches of spatial targets supported (3D tensors) but got targets of dimension: 4 　　查看代码报错点，是出现在pytorch计算交叉熵…

2023年4月10日
000
GIS地理处理脚本案例教程——批量栅格分割-批量栅格裁剪-批量栅格掩膜-深度学习样本批量提取 – 风过无痕

GIS地理处理脚本案例教程——批量栅格分割-批量栅格裁剪-批量栅格掩膜-深度学习样本批量提取 GIS地理处理脚本案例教程——批量栅格分割-批量栅格裁剪-批量栅格掩膜-深度学习样本批量提取商务合作，科技咨询，版权转让：向日葵，135-4855_4328，xiexiaokui#qq.com 关键词：GIS地理处理脚本案例教程—批量栅格分割-批量栅格数据分割-批…

深度学习 2023年4月11日
000
深度学习中环境配置的一些经验总结(conda 常用命令)

　　前两个月参加了学校的国创项目，和一个外院的同学组队。课题是基于深度学习的新闻图片中网络暴力元素的检查。 6月末最后一门试考完，正式开始暑假，便有了大把时间搞这个国创项目（反正没有其他事干）。两个组凑钱买了服务器。实验室的师兄老早告诉我们，配环境是第一步，我们可能要搞很久。下面总结一下配环境中获得的经验。　　首先是要有独立的环境，因为github上的代码…

深度学习 2023年4月16日
000
《神经网络和深度学习》系列文章十五：反向传播算法

出处： Michael Nielsen的《Neural Network and Deep Learning》，点击末尾“阅读原文”即可查看英文原文。本节译者：哈工大SCIR本科生王宇轩声明：如需转载请联系wechat_editors@ir.hit.edu.cn，未经授权不得转载。使用神经网络识别手写数字反向传播算法是如何工作的热身：一个基于矩阵的…

深度学习 2023年4月12日
000
斯坦福深度学习与nlp第四讲词窗口分类和神经网络

斯坦福大学深度学习与自然语言处理第四讲：词窗口分类和神经网络 3条回复斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，以下为相关的课程笔记。第四讲：词窗口分类和神经网络（Word Wi…

深度学习 2023年4月13日
000
盘点深度学习中的损失函数

损失函数度量的是训练的模型与真实模型之间的距离。一般以最小化损失函数为目标，对模型进行不断优化。常见的损失函数在计算过程中都会接受两个参数：模型预测值y_pred和正确答案y_true。由于背后的数学计算过程相同，所以即使是不同深度学习框架这些损失函数的api也是大同小异。本文以keras为例，罗列出几个常见的损失函数。均方误差 mean square…

深度学习 2023年4月10日
000
技术 | 使用深度学习检测DGA（域名生成算法）

摘要： DGA(域名生成算法)是一种利用随机字符来生成C&C域名，从而逃避域名黑名单检测的技术手段。例如，一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com，如果我们的进程尝试其它建立连接，那么我们的机器就可能感染Cryptolocker勒索病毒。 DGA(域名生成算法)是一种利用随机字符来生成C&C域名，从而…

深度学习 2023年4月11日
000

深度学习7softmax回归

相关文章