【AI-1000问】softmax loss和交叉熵有什么关系？

2024-05-07 11:47:21

往期视频

softmax loss和交叉熵有什么关系？

想必大家也都听过熵这个概念，也都知道softmax以及softmax loss这个概念，那么它们两个有什么区别和联系呢?

作者/编辑言有三

softmax loss是由softmax和交叉熵(cross-entropy loss)组合而成，全称是softmax with cross-entropy loss，所以我们可以想见，它们是不同的，但是又有关系。

解答1：首先我们得知道什么是交叉熵。

在物理学有一个概念，就是熵，它表示一个热力学系统的无序程度。为了解决对信息的量化度量问题，香农在1948年提出了“信息熵”的概念，它使用对数函数表示对不确定性的测量。熵越高，表示能传输的信息越多，熵越少，表示传输的信息越少，我们可以直接将熵理解为信息量。

按照香农的理论，熵背后的原理是任何信息都存在冗余，并且冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。概率大，出现机会多，则不确定性小，这个关系就用对数函数来表征。

为什么选择对数函数而不是其他函数呢？首先，不确定性必须是概率P的单调递降函数，假设一个系统中各个离散事件互不相关，要求其总的不确定性等于各自不确定性之和，对数函数是满足这个要求的。将不确定性f定义为log(1/p)=-log(p)，其中p是概率。

对于单个的信息源，信源的平均不确定性就是单个符号不确定性-logpi的统计平均值，信息熵的定义如下。

假设有两个概率分布p(x)和q(x)，其中p是已知的分布，q是未知的分布，则其交叉熵函数是两个分布的互信息，可以反应其相关程度。

从这里，就引出了分类任务中最常用的loss，即log loss，又名交叉熵loss，后面我们统一称为交叉熵loss，它的定义形式如下：

n对应于样本数量，m是类别数量，yij 表示第i个样本属于分类j的标签，它是0或者1。对于单分类任务，只有一个分类的标签非零。f(xij) 表示的是样本i预测为j分类的概率。loss的大小，完全取决于分类为正确标签那一类的概率，当所有的样本都分类正确时，loss=0，否则大于0。

解答2：假如log loss中的f(xij)的表现形式是softmax概率的形式，那么交叉熵loss就是我们熟知的softmax with cross-entropy loss，简称softmax loss，所以说softmax loss只是交叉熵的一个特例。

深度学习中的概率论与信息论基础

1.1 自信息自信息(self-information),由香农提出,是与离散随机变量的值相关的信息量的量度,常用 bit 作为单位.通俗点来说就是一个随机事件以某个概率发生时携带的信息量有多大.可 ...
浅谈压缩算法的那些事儿

来自公众号:后端研究所 1. 开场白好久不见,我是所长大白. 无论是做研究还是实际工作,都需要经过长期的积累,才能深刻理解存在的问题.解决方法.瓶颈所在.突破方向等等. 今天和大家聊一下压缩算法相关 ...
卷积神经网络系列之softmax，softmax loss和cross entropy的讲解

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
损失函数技术总结及Pytorch使用示例

作者丨仿佛若有光来源丨CV技术指南编辑丨极市平台极市导读本文对损失函数的类别和应用场景,常见的损失函数,常见损失函数的表达式,特性,应用场景和使用示例作了详细的总结. 前言一直想写损失函数的 ...
交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别？

一.概念区别 1. 均方差损失函数(MSE) 简单来说,均方误差(MSE)的含义是求一个batch中n个样本的n个输出与期望输出的差的平方的平均值 2. Cross-entropy(交叉熵损失函数) ...
有三AI 1000问回归，备战秋招，更多，更快，更好，等你来战！

最近遇到了很多朋友来询问<有三AI 1000问>在哪里?本来我做这个专栏的初衷只是想提醒大家要多主动思考,多注意细节,没想到击中了很多同学的痛点,不过之前已经停更了.今天就是要告诉大家,有 ...
DL之SoftmaxWithLoss：SoftmaxWithLoss算法(Softmax+交叉熵误差)简介、使用方法、应用案例之详细攻略

DL之SoftmaxWithLoss:SoftmaxWithLoss算法(Softmax函数+交叉熵误差)简介.使用方法.应用案例之详细攻略SoftmaxWithLoss算法简介softmax 函数称 ...
《柑橘知识1000问》柑橘缺镁总结，如何全面施镁？【0026】

最近,有果友反应柑橘叶片黄化,而柑橘黄化有诸多原因,缺素就是最典型的一种.镁是柑橘重要的矿物质元素,镁也是叶绿素分子中唯一的金属元素.那么,缺镁该怎么防治呢? 首先来看一张缺素黄化综合图,新老叶结合分 ...
『本草纲目1000问』第一篇李时珍和他的《本草纲目》

第一篇李时珍和他的<本草纲目> 伟大的医学巨著为什么古代把医药学称为"本草"? 这是因为药物中以草药为多,含有以草药为本的意思.在后蜀韩宋舁所著的<蜀本草& ...
『本草纲目1000问』第三篇《本草纲目》之草部

山草类李时珍认为人参有何功用? 人参生在上党山谷及辽东.二.四.八月上旬采根,竹刀刮暴干,不要使之见到风,根像人形者最好.以百济.高丽.新罗(也就足今天的朝鲜)所产人参为最好. 人参容翳被虫蛀．要 ...
『本草纲目1000问』第四篇《本草纲目》之菜部

荤辛类李时珍认为韭有何功用? 李时珍说:韭丛生而根丰硕,叶长而青翠.可以分根栽种,可以子种.叶高三寸便剪,但不宜于中午剪,一年不能超过五次,留种的只能剪一次.,八月开花成丛,收取腌藏供食用,谓长生韭 ...
『本草纲目1000问』第五篇《本草纲目》之木部

第五篇 <本草纲目>之木部香木类李时珍认为柏有何功用? 李时珍说:<史记>里把柏称为百木之长,树高而且直,皮很薄,质地很细腻,开细琐的花:它的果实是圆形的,到秋霜后自然裂开 ...
『本草纲目1000问』第六篇《本草纲目》之果部

五果类李时珍认为李有何功用? 李的种类很多.京口有麦李,在麦子吐穗开花时成熟,果实小但果肉多,味甜,果核不入药.姑熟有南居李,果核像杏子,入药较好.李有绿李.黄李.紫李.中李.水李,均味道甜美好吃, ...
『本草纲目1000问』第七篇《本草纲目》之谷部

麻麦稻类李时珍认为胡麻有何功用? 李时珍认为:胡麻就是脂麻,有迟.早两种,黑.白.赤三种颜色,茎都是方形.秋天开白花,亦有略带紫色的.节节结角,有一寸长,角有四棱.六棱的,子房小而子少,亦有七棱.八 ...

【AI-1000问】softmax loss和交叉熵有什么关系？

相关推荐