深度学习笔记目标函数的总结与整理 model.compile(loss=’categorical_crossentropy’,optimizer=sgd,metrics=[‘accuracy’])

2023年4月10日下午9:05 • 深度学习

keras model.compile(loss='目标函数 ', optimizer='adam', metrics=['accuracy'])

　　目标函数，或称损失函数，是网络中的性能函数，也是编译一个模型必须的两个参数之一。由于损失函数种类众多，下面以keras官网手册的为例。

在官方keras.io里面，有如下资料：

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
binary_crossentropy（亦称作对数损失，logloss）
categorical_crossentropy：亦称作多类的对数损失，注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏标签。注意，使用该函数时仍然需要你的标签与输出值的维度相同，你可能需要在标签数据上增加一个维度：np.expand_dims(y,-1)
kullback_leibler_divergence:从预测值概率分布Q到真值概率分布P的信息增益,用以度量两个分布的差异.
cosine_proximity：即预测值与真实标签的余弦距离平均值的相反数

mean_squared_error

　　顾名思义，意为均方误差，也称标准差，缩写为MSE，可以反映一个数据集的离散程度。

　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。

　　公式：

　　公式意义：可以理解为一个从n维空间的一个点到一条直线的距离的函数。（此为在图形上的理解，关键看个人怎么理解了）

mean_absolute_error

　　译为平均绝对误差，缩写MAE。

　　平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。

　　公式：（f_i是预测值，y_i是实际值,绝对误差 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$ )

mean_absolute_percentage_error

　　译为平均绝对百分比误差，缩写MAPE。

　　公式：（A_t表示实际值，F_t表示预测值）

mean_squared_logarithmic_error

　　译为均方对数误差,缩写MSLE。

　　公式： 深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy']) （n是整个数据集的观测值，p_i为预测值，a_i为真实值）

squared_hinge

　　公式为max(0,1-y_true*y_pred)^2.mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的平方的累加均值。

hinge

　　公式为为max(0,1-y_true*y_pred).mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的累加均值。

　　Hinge Loss 最常用在 SVM 中的最大化间隔分类中，

　　对可能的输出 t = ±1 和分类器分数 y，预测值 y 的 hinge loss 定义如下：

　　L(y) = max(0,1-t*y)

　　看到 y 应当是分类器决策函数的“原始”输出，而不是最终的类标。例如，在线性的 SVM 中

　　y = w*x+b

　　可以看出当 t 和 y 有相同的符号时（意味着 y 预测出正确的分类）

　　|y|>=1

　　此时的 hinge loss

　　L(y) = 0

　　但是如果它们的符号相反

　　L(y)则会根据 y 线性增加 one-sided error。（译自wiki）

binary_crossentropy

　　即对数损失函数，log loss，与sigmoid相对应的损失函数。

　　公式：L(Y,P(Y|X)) = -logP(Y|X)

　　该函数主要用来做极大似然估计的，这样做会方便计算。因为极大似然估计用来求导会非常的麻烦，一般是求对数然后求导再求极值点。

　　损失函数一般是每条数据的损失之和，恰好取了对数，就可以把每个损失相加起来。负号的意思是极大似然估计对应最小损失。

categorical_crossentropy

　　多分类的对数损失函数，与softmax分类器相对应的损失函数，理同上。

　　tip：此损失函数与上一类同属对数损失函数，sigmoid和softmax的区别主要是，sigmoid用于二分类，softmax用于多分类。

一种解释:
softmax公式:

logistic regression的目标函数是根据最大似然来做的.也就是假设x属于类y,预测出概率为oy,那么需要最大化oy.

softmax_loss的计算包含2步：

（1）计算softmax归一化概率

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

（2）计算损失

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

这里以batchsize=1的2分类为例：
设最后一层的输出为[1.2 0.8],减去最大值后为[0 -0.4]，
然后计算归一化概率得到[0.5987 0.4013]，
假如该图片的label为1，则Loss=-log0.4013=0.9130

可选参数

（1） ignore_label

int型变量，默认为空。
如果指定值，则label等于ignore_label的样本将不参与Loss计算，并且反向传播时梯度直接置0.

（2） normalize

bool型变量，即Loss会除以参与计算的样本总数；否则Loss等于直接求和

（3） normalization
enum型变量，默认为VALID，具体代表情况如下面的代码。

  enum NormalizationMode {
    // Divide by the number of examples in the batch times spatial dimensions.
    // Outputs that receive the ignore label will NOT be ignored in computing the normalization factor.
    FULL = 0;

    // Divide by the total number of output locations that do not take the
    // ignore_label.  If ignore_label is not set, this behaves like FULL.
    VALID = 1;

    // Divide by the batch size.
    BATCH_SIZE = 2;

    // 
    NONE = 3;
  }

归一化case的判断：

（1）如果未设置normalization，但是设置了normalize。
则有normalize==1 -> 归一化方式为VALID
normalize==0 -> 归一化方式为BATCH_SIZE

（2）一旦设置normalization，归一化方式则由normalization决定，不再考虑normalize。

使用方法


layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "fc1"
  bottom: "label"
  top: "loss"
  top: "prob"
  loss_param{
    ignore_label：0
    normalize: 1
    normalization: FULL
  }
}

扩展使用

（1）如上面的使用方法中所示，softmax_loss可以有2个输出，第二个输出为归一化后的softmax概率

（2）最常见的情况是，一个样本对应一个标量label，但softmax_loss支持更高维度的label。
当bottom[0]的输入维度为N*C*H*W时,
其中N为一个batch中的样本数量，C为channel通常等于分类数，H*W为feature_map的大小通常它们等于1.

此时我们的一个样本对应的label不再是一个标量了，而应该是一个长度为H*W的矢量，里面的数值范围为0——C-1之间的整数。
至于之后的Loss计算，则采用相同的处理。

在kaggle比赛中，经常需要提交log loss，对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实

标签的负对数似然率。

每一个样本的对数损失就是在给定真实样本标签的条件下，分类器的负对数似然函数：

-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))

当某个样本的真实标签y=1时，loss=-log（p），分类器的预测概率值为p=pr（y=1）的概率如果越大，越接近1，则损失越小；如果p=pr（y=1）的概率值越小，则分类损失越大。

在提交结果中，使用官方提供的测试集是没有标签的，提交基于测试集模型的预测值，属于每一类预测值的概率值，官方评价指标使用log loss，会返回一个负对数似然值作为评价的目标值。

举个例子：

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

两个类别，spam，ham是真实标签值，四个预测值，预测属于正确类别的概率值基本正确，所以返回的对数损失是0.21......，值比较小，说明预测还是可以的。

sparse_categorical_crossentrop

　　在上面的多分类的对数损失函数的基础上，增加了稀疏性（即数据中多包含一定0数据的数据集），如目录所说，需要对数据标签添加一个维度np.expand_dims(y,-1)。

kullback_leibler_divergence

　　（译自WIKI）

　　对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为

　　即按概率P求得的P和Q的对数差的平均值。KL散度仅当概率P和Q各自总和均为1，且对于任何i皆满足

　　Q(i)>0及P(i)>0时，才有定义。式中出现0Ln0的情况，其值按0处理。

　　对于连续随机变量，其概率分布P和Q可按积分方式定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　其中p和q分别表示分布P和Q的密度。

　　更一般的，若P和Q为集合X的概率测度，且Q关于P绝对连续，则从P到Q的KL散度定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　其中，假定右侧的表达形式存在，则 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$ 为Q关于P的R–N导数。

　　相应的，若P关于Q绝对连续，则

　　即为P关于Q的相对熵，用以度量两个分布的差异。

cosine_proximity

　　此方法用余弦来判断两个向量的相似性。

　　设向量 A = (A1,A2,...,An)，B = (B1,B2,...,Bn)，则有

　　深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

　　余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，他们的方向更加一致。相应的相似度也越高。

　　目标函数，或称损失函数，是网络中的性能函数，也是编译一个模型必须的两个参数之一。由于损失函数种类众多，下面以keras官网手册的为例。

在官方keras.io里面，有如下资料：

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
binary_crossentropy（亦称作对数损失，logloss）
categorical_crossentropy：亦称作多类的对数损失，注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏标签。注意，使用该函数时仍然需要你的标签与输出值的维度相同，你可能需要在标签数据上增加一个维度：np.expand_dims(y,-1)
kullback_leibler_divergence:从预测值概率分布Q到真值概率分布P的信息增益,用以度量两个分布的差异.
cosine_proximity：即预测值与真实标签的余弦距离平均值的相反数

mean_squared_error

　　顾名思义，意为均方误差，也称标准差，缩写为MSE，可以反映一个数据集的离散程度。

　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。

　　公式：

　　公式意义：可以理解为一个从n维空间的一个点到一条直线的距离的函数。（此为在图形上的理解，关键看个人怎么理解了）

mean_absolute_error

　　译为平均绝对误差，缩写MAE。

　　平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。

　　公式：（f_i是预测值，y_i是实际值,绝对误差 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$ )

mean_absolute_percentage_error

　　译为平均绝对百分比误差，缩写MAPE。

　　公式：（A_t表示实际值，F_t表示预测值）

mean_squared_logarithmic_error

　　译为均方对数误差,缩写MSLE。

squared_hinge

　　公式为max(0,1-y_true*y_pred)^2.mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的平方的累加均值。

hinge

　　公式为为max(0,1-y_true*y_pred).mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的累加均值。

　　Hinge Loss 最常用在 SVM 中的最大化间隔分类中，

　　对可能的输出 t = ±1 和分类器分数 y，预测值 y 的 hinge loss 定义如下：

　　L(y) = max(0,1-t*y)

　　看到 y 应当是分类器决策函数的“原始”输出，而不是最终的类标。例如，在线性的 SVM 中

　　y = w*x+b

　　可以看出当 t 和 y 有相同的符号时（意味着 y 预测出正确的分类）

　　|y|>=1

　　此时的 hinge loss

　　L(y) = 0

　　但是如果它们的符号相反

　　L(y)则会根据 y 线性增加 one-sided error。（译自wiki）

binary_crossentropy

　　即对数损失函数，log loss，与sigmoid相对应的损失函数。

　　公式：L(Y,P(Y|X)) = -logP(Y|X)

　　该函数主要用来做极大似然估计的，这样做会方便计算。因为极大似然估计用来求导会非常的麻烦，一般是求对数然后求导再求极值点。

　　损失函数一般是每条数据的损失之和，恰好取了对数，就可以把每个损失相加起来。负号的意思是极大似然估计对应最小损失。

categorical_crossentropy

　　多分类的对数损失函数，与softmax分类器相对应的损失函数，理同上。

　　tip：此损失函数与上一类同属对数损失函数，sigmoid和softmax的区别主要是，sigmoid用于二分类，softmax用于多分类。

一种解释:
softmax公式:

logistic regression的目标函数是根据最大似然来做的.也就是假设x属于类y,预测出概率为oy,那么需要最大化oy.

softmax_loss的计算包含2步：

（1）计算softmax归一化概率

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

（2）计算损失

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

可选参数

（1） ignore_label

int型变量，默认为空。
如果指定值，则label等于ignore_label的样本将不参与Loss计算，并且反向传播时梯度直接置0.

（2） normalize

bool型变量，即Loss会除以参与计算的样本总数；否则Loss等于直接求和

（3） normalization
enum型变量，默认为VALID，具体代表情况如下面的代码。

  enum NormalizationMode {
    // Divide by the number of examples in the batch times spatial dimensions.
    // Outputs that receive the ignore label will NOT be ignored in computing the normalization factor.
    FULL = 0;

    // Divide by the total number of output locations that do not take the
    // ignore_label.  If ignore_label is not set, this behaves like FULL.
    VALID = 1;

    // Divide by the batch size.
    BATCH_SIZE = 2;

    // 
    NONE = 3;
  }

归一化case的判断：

（1）如果未设置normalization，但是设置了normalize。
则有normalize==1 -> 归一化方式为VALID
normalize==0 -> 归一化方式为BATCH_SIZE

（2）一旦设置normalization，归一化方式则由normalization决定，不再考虑normalize。

使用方法


layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "fc1"
  bottom: "label"
  top: "loss"
  top: "prob"
  loss_param{
    ignore_label：0
    normalize: 1
    normalization: FULL
  }
}

扩展使用

（1）如上面的使用方法中所示，softmax_loss可以有2个输出，第二个输出为归一化后的softmax概率

在kaggle比赛中，经常需要提交log loss，对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实

标签的负对数似然率。

每一个样本的对数损失就是在给定真实样本标签的条件下，分类器的负对数似然函数：

-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))

举个例子：

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

sparse_categorical_crossentrop

kullback_leibler_divergence

　　（译自WIKI）

　　对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为

　　即按概率P求得的P和Q的对数差的平均值。KL散度仅当概率P和Q各自总和均为1，且对于任何i皆满足

　　Q(i)>0及P(i)>0时，才有定义。式中出现0Ln0的情况，其值按0处理。

　　对于连续随机变量，其概率分布P和Q可按积分方式定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　其中p和q分别表示分布P和Q的密度。

　　更一般的，若P和Q为集合X的概率测度，且Q关于P绝对连续，则从P到Q的KL散度定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　相应的，若P关于Q绝对连续，则

　　即为P关于Q的相对熵，用以度量两个分布的差异。

cosine_proximity

　　此方法用余弦来判断两个向量的相似性。

　　设向量 A = (A1,A2,...,An)，B = (B1,B2,...,Bn)，则有

　　深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

　　余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，他们的方向更加一致。相应的相似度也越高。

　　目标函数，或称损失函数，是网络中的性能函数，也是编译一个模型必须的两个参数之一。由于损失函数种类众多，下面以keras官网手册的为例。

在官方keras.io里面，有如下资料：

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
binary_crossentropy（亦称作对数损失，logloss）
categorical_crossentropy：亦称作多类的对数损失，注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏标签。注意，使用该函数时仍然需要你的标签与输出值的维度相同，你可能需要在标签数据上增加一个维度：np.expand_dims(y,-1)
kullback_leibler_divergence:从预测值概率分布Q到真值概率分布P的信息增益,用以度量两个分布的差异.
cosine_proximity：即预测值与真实标签的余弦距离平均值的相反数

mean_squared_error

　　顾名思义，意为均方误差，也称标准差，缩写为MSE，可以反映一个数据集的离散程度。

　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。

　　公式：

　　公式意义：可以理解为一个从n维空间的一个点到一条直线的距离的函数。（此为在图形上的理解，关键看个人怎么理解了）

mean_absolute_error

　　译为平均绝对误差，缩写MAE。

　　平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。

　　公式：（f_i是预测值，y_i是实际值,绝对误差 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$ )

mean_absolute_percentage_error

　　译为平均绝对百分比误差，缩写MAPE。

　　公式：（A_t表示实际值，F_t表示预测值）

mean_squared_logarithmic_error

　　译为均方对数误差,缩写MSLE。

squared_hinge

　　公式为max(0,1-y_true*y_pred)^2.mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的平方的累加均值。

hinge

　　公式为为max(0,1-y_true*y_pred).mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的累加均值。

　　Hinge Loss 最常用在 SVM 中的最大化间隔分类中，

　　对可能的输出 t = ±1 和分类器分数 y，预测值 y 的 hinge loss 定义如下：

　　L(y) = max(0,1-t*y)

　　看到 y 应当是分类器决策函数的“原始”输出，而不是最终的类标。例如，在线性的 SVM 中

　　y = w*x+b

　　可以看出当 t 和 y 有相同的符号时（意味着 y 预测出正确的分类）

　　|y|>=1

　　此时的 hinge loss

　　L(y) = 0

　　但是如果它们的符号相反

　　L(y)则会根据 y 线性增加 one-sided error。（译自wiki）

binary_crossentropy

　　即对数损失函数，log loss，与sigmoid相对应的损失函数。

　　公式：L(Y,P(Y|X)) = -logP(Y|X)

　　该函数主要用来做极大似然估计的，这样做会方便计算。因为极大似然估计用来求导会非常的麻烦，一般是求对数然后求导再求极值点。

　　损失函数一般是每条数据的损失之和，恰好取了对数，就可以把每个损失相加起来。负号的意思是极大似然估计对应最小损失。

categorical_crossentropy

　　多分类的对数损失函数，与softmax分类器相对应的损失函数，理同上。

　　tip：此损失函数与上一类同属对数损失函数，sigmoid和softmax的区别主要是，sigmoid用于二分类，softmax用于多分类。

一种解释:
softmax公式:

logistic regression的目标函数是根据最大似然来做的.也就是假设x属于类y,预测出概率为oy,那么需要最大化oy.

softmax_loss的计算包含2步：

（1）计算softmax归一化概率

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

（2）计算损失

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

可选参数

（1） ignore_label

int型变量，默认为空。
如果指定值，则label等于ignore_label的样本将不参与Loss计算，并且反向传播时梯度直接置0.

（2） normalize

bool型变量，即Loss会除以参与计算的样本总数；否则Loss等于直接求和

（3） normalization
enum型变量，默认为VALID，具体代表情况如下面的代码。

  enum NormalizationMode {
    // Divide by the number of examples in the batch times spatial dimensions.
    // Outputs that receive the ignore label will NOT be ignored in computing the normalization factor.
    FULL = 0;

    // Divide by the total number of output locations that do not take the
    // ignore_label.  If ignore_label is not set, this behaves like FULL.
    VALID = 1;

    // Divide by the batch size.
    BATCH_SIZE = 2;

    // 
    NONE = 3;
  }

归一化case的判断：

（1）如果未设置normalization，但是设置了normalize。
则有normalize==1 -> 归一化方式为VALID
normalize==0 -> 归一化方式为BATCH_SIZE

（2）一旦设置normalization，归一化方式则由normalization决定，不再考虑normalize。

使用方法


layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "fc1"
  bottom: "label"
  top: "loss"
  top: "prob"
  loss_param{
    ignore_label：0
    normalize: 1
    normalization: FULL
  }
}

扩展使用

（1）如上面的使用方法中所示，softmax_loss可以有2个输出，第二个输出为归一化后的softmax概率

在kaggle比赛中，经常需要提交log loss，对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实

标签的负对数似然率。

每一个样本的对数损失就是在给定真实样本标签的条件下，分类器的负对数似然函数：

-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))

举个例子：

深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

sparse_categorical_crossentrop

kullback_leibler_divergence

　　（译自WIKI）

　　对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为

　　即按概率P求得的P和Q的对数差的平均值。KL散度仅当概率P和Q各自总和均为1，且对于任何i皆满足

　　Q(i)>0及P(i)>0时，才有定义。式中出现0Ln0的情况，其值按0处理。

　　对于连续随机变量，其概率分布P和Q可按积分方式定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　其中p和q分别表示分布P和Q的密度。

　　更一般的，若P和Q为集合X的概率测度，且Q关于P绝对连续，则从P到Q的KL散度定义为

　　 $深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])$

　　相应的，若P关于Q绝对连续，则

　　即为P关于Q的相对熵，用以度量两个分布的差异。

cosine_proximity

　　此方法用余弦来判断两个向量的相似性。

　　设向量 A = (A1,A2,...,An)，B = (B1,B2,...,Bn)，则有

　　深度学习笔记目标函数的总结与整理 model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

　　余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，他们的方向更加一致。相应的相似度也越高。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习笔记目标函数的总结与整理 model.compile(loss=’categorical_crossentropy’,optimizer=sgd,metrics=[‘accuracy’]) - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习检测视频马赛克

上一篇 2023年4月10日

深度学习基础–Bottleneck(瓶颈) Architectures

下一篇 2023年4月10日

【RS】CoupledCF: Learning Explicit and Implicit User-item Couplings in Recommendation for Deep Collaborative Filtering-CoupledCF：在推荐系统深度协作过滤中学习显式和隐式的用户物品耦合

【论文标题】CoupledCF: Learning Explicit and Implicit User-item Couplings in Recommendation for Deep Collaborative Filtering （IJCAI-2018 ）【论文作者】Quangui Zhang， Longbing Cao，Chengzhang Z…

深度学习 2023年4月12日
000
深度学习

ChatGPT，我彻彻底底沦陷了！

当谈到人工智能技术的时候，我们会经常听到GPT这个术语。它代表“Generative Pre-trained Transformer”，是一种机器学习模型，采用了神经网络来模拟人类语言的理解和生成。但是与其他GPT不同的是chatgpt，它是专门设计用于自然语言对话的GPT模型。在以下三个方面，我们可以看出原因: 1. 精准和逼真的文本生成 ChatGPT强…

2023年4月10日
000
华为软挑2020之深度学习题目

1.1 输入信息输入分为三部分： l train_data.txt为已经做好特征工程处理的本地训练集文件。每一行为一条数据记录，以逗号分开。最后一列为类别（二分类），前面的列为特征值。 l test_data.txt 为需要预测的本地测试集文件。特征数和训练集一致。不含类别信息。 l 示例代码为准确率和性能待优化的参考代码，支持的语言分别为C++/Pyth…

深度学习 2023年4月10日
000
TensorFlow实战Google深度学习框架8-9章学习笔记

目录第8章循环神经网络第9章自然语言处理第8章循环神经网络循环神经网络的主要用途是处理和预测序列数据。循环神经网络的来源就是为了刻画一个序列当前的输出与之前信息的关系。也就是说，循环神经网络的隐藏层之间的节点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。下面给出一个长度为2的RNN前向传播示例代码： impo…

深度学习 2023年4月15日
000
深度学习深入浅出

目录一基本原理二深度学习的优点三深度学习的缺点四深度学习应用手写数字识别深度学习是机器学习的一个分支，其核心思想是利用深层神经网络对数据进行建模和学习，从而实现识别、分类、预测等任务。在过去几年中，深度学习技术取得了许多突破性的成果，如在图像识别、语音识别、自然语言处理、游戏AI等领域中。本文将简要介绍深度学习的基本原理，并使用Pyth…

深度学习 2023年4月10日
000
深度学习

NVIDIA深度学习Tensor Core性能解析（下）

NVIDIA深度学习Tensor Core性能解析（下） DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM，虽然测试中可以选择FP16，但实际上它们都只支持FP32运算。虽然RNN可能会有加速，但DeepBench和NVI…

2023年4月10日
000
Atitit 机器学习算法分类五大分类v5 t56.docx Atitit 机器学习算法分类目录 1. 传统的机器学习算法 vs 深度学习 1 1.1. 传统的机器学习算法包括决策树、聚类、贝

Atitit 机器学习算法分类五大分类v5 t56.docx Atitit 机器学习算法分类目录 1. 传统的机器学习算法 vs 深度学习 1 1.1. 传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。 2 2. 监督学习与非监督学习 2 3. 连续型学习跳跃型学习 2 4. 根据学习方式分类 3 4.1…

深度学习 2023年4月11日
000
深度学习原理与框架-卷积网络细节-数据增强策略 1.翻转 2.随机裁剪 3.平移 4.旋转角度

数据增强表示的是，在原始图像的基础上，对数据进行一定的改变，增加了数据样本的数量，但是数据的标签值并不发生改变，图片中可以看出对猫这张图片进行了灰度值的变化，但是猫的标签并没有发生改变常见的数据增强的策略： 1. Horizontal flips 翻转，左右翻转，将左边的像素点放在右边，将右边的像素点放在左边 2.Random crops/scales…

深度学习 2023年4月13日
000

深度学习笔记 目标函数的总结与整理 model.compile(loss=’categorical_crossentropy’,optimizer=sgd,metrics=[‘accuracy’])

可选参数

使用方法

扩展使用

可选参数

使用方法

扩展使用

可选参数

使用方法

扩展使用

相关文章

深度学习笔记目标函数的总结与整理 model.compile(loss=’categorical_crossentropy’,optimizer=sgd,metrics=[‘accuracy’])