熵是什么

本文想要用尽量通俗的语言介绍熵到底是什么。为了更加全面,我们将分别从熵的热力学定义熵的统计力学定义(玻尔兹曼熵,吉布斯熵)和熵的信息学定义(香农熵,冯·诺依曼熵)来介绍,并揭示这些定义的相互联系。

1. 熵的热力学定义

利用卡诺热机和卡诺循环,我们可以证明如下的克劳修斯不等式,即对任一闭循环,我们有

等号当且仅当该过程是可逆过程时候成立。所以,对可逆过程
这告诉我们 的积分和路径无关,所以它是恰当微分,它的积分是一个态函数(所谓态函数,就是那些值只和状态有关而和怎么达到这个状态的路径无关的函数),我们把这个态函数就定义为熵
这就是熵的热力学定义。联立克劳修斯不等式和熵的定义式,我们可以得到
等号当且仅当可逆过程可以取到。对于绝热系统, dQ=0 ,所以我们有
这正是热力学第二定律的一种等价表述,它告诉我们:对于绝热系统,熵永不减少。如果过程可逆,那么熵不变,如果过程不可逆,那么熵增加。
利用熵的定义,我们可以把热力学第一定律 改写为

2. 熵的统计力学定义

为了得到从熵的热力学定义得到熵的统计力学定义,我们先来考察温度的统计定义。
我们考虑两个相互之间可以传递热量的系统,但是它们整体和环境绝热。设两个系统的内能(即平均能量,是宏观量)分别为 和 ,随着两个系统之间的热量交换, 和 都会改变,但总能量 是一个常数,因为两个系统整体和环境绝热。设两个系统此时的微观状态数分别为 和 ,则此时整体的微观状态数为 。
这两个系统不停地发生能量交换,经过足够长的时间后,它们将达到热平衡,之后和将固定不变(再次强调,和 都是宏观量,是系统的平均能量,它们在系统达到平衡态后是不变的,但是因为涨落的存在,系统的瞬时能量(微观量)在达到平衡态后也可以不停地变化。关于宏观量和微观量的详细介绍,可以参看这篇文章:统计物理的基本思想。)
一个自然的问题是:当两个系统达到热平衡以后, 和 分别应该取什么值呢?或者说,平衡状态下,总能量 是怎么样在两个系统中进行分割的呢?
为此,我们先作出以下几个很合理的假设:
  • 等概率假设:孤立系统所有可能的微观态有相同出现的可能性;
  • 系统内部的动力学使得系统的微观态是连续变化的;
  • 各态历经假设:经过足够长的时间,系统会遍历所有可能的微观态且经历每个态的时间相同。
根据这几个假设,我们得出以下结论:系统最有可能处于那个包含最多微观态数目的宏观态。对于一个大系统而言,“最有可能”将成为“压倒性的可能”。
所以,平衡态下总能量 在两个系统中的分割应该使得总微观态数 最大。为了确定 ,我们只需要求解下式
用链式法则展开
因为 是常数,所以 ,所以
也就是说,上面这个等式对应了热平衡下两个系统的使得总微观态数目最大的那种能量分割方式,也就是热平衡下两个系统需要满足的条件。根据热力学第零定律,处于热平衡的两个系统具有相同的温度,这和上面的等式是一致的,所以我们定义温度 为
上述定义温度的方式就是温度的统计定义,其中 是玻尔兹曼常数。这种定义方式和热力学中的绝对温度的定义是一致的。有了温度的统计定义,将其与热力学第一定律
联立,我们就得到了熵的统计力学定义
这样,我们就从熵的热力学定义和温度的统计定义出发,推出了熵的统计力学定义。上式定义的熵称为玻尔兹曼熵(它刻在了玻尔兹曼的墓碑上),它告诉我们:一个系统的玻尔兹曼熵正比于这个系统的微观状态数的对数。所以玻尔兹曼熵是系统混乱度的衡量,系统的微观状态数越多,系统的玻尔兹曼熵就越大。
为了与信息学相联系,我们下面来推导熵的另一种统计力学定义。
假设一个系统含有 个等概率的微观态,则系统的总熵为 。但是,这 个微观态并不都是可以通过实验测量进行区分的,也就是说,它们对应的总熵并不全部可以测量。我们假设这些微观态被分成了几组,其中第 组包含了 个微观态,当然有 。
这些组是可以通过实验测量区分的,因为它们可能对应某一个宏观可测的性质,但是每个组内部的那些微观态是不可区分的。现在我们想知道对应可测量部分的熵的大小是多少?
因为第 个组包含了 个微观态,所以系统位于第 个组中的概率 ,第 个组中的熵为 ,因为每个组内部的微观态不可区分,所以 不可测量。
因为微观状态数具有可乘性,所以熵具有可加性(熵是微观状态数的对数),所以可测量部分的熵等于总熵减去不可测量部分的熵,不可测量部分的熵可以写为
所以可测量部分的熵等于
因为 ,所以最后我们得到可测量部分的熵的表达式为
上述熵的定义称为吉布斯熵,吉布斯熵的形式可以很容易和信息论联系起来,这点在下一节中将会看到。

3. 熵的信息学定义

这一节我们将尝试将信息量与前面介绍的熵联系起来,并给出熵的信息学定义。首先,我们考虑以下三句话:
  • 牛顿的生日处在一年之中的特定一天;
  • 牛顿的生日处在下半年;
  • 牛顿的生日是某月的25日。
假如我们事先对牛顿的生日一无所知(事实上,牛顿出生于公元1643年元月4日),我们来看看这三句话提供的信息量和这三句话正确的概率之间的关系。第一句话正确的概率是百分之百,但这是一句废话,不能提供任何信息量,因为所有人的生日都是一年之中的特定一天;第二句话正确的概率是1/2,它能提供一定的信息量;第三句话正确的概率只有12/365,但是它能提供最大的信息量。所以我们看到,在缺乏任何先验信息的条件下,一句话正确的概率越大,则它提供的信息量越小。
在知道表述的信息量和表述正确的概率是反相关后,接下来我们来建立它们之间的定量关系。一个自然的假设是两个独立表述的信息量具有可加性,例如上面第二句话和上面第三句话提供的总信息量是它们各自提供的信息量之和;另一方面,两个独立表述正确的概率具有可乘性,例如上面第二句话和第三句话同时正确的概率为 ,是它们各自正确概率的乘积。信息量和概率的这种性质促使我们把信息量定义为概率的对数
假设一个表述正确的概率是P,则这个表述包含的信息量Q定义为
这里 是一个正的常数,这保证了当正确概率上升时,信息量会下降。
上述这种信息量的定义是由香农 (Shannon) 给出的。如果我们取 ,并且选取自然常数为底 ,则这种定义将和热力学与统计物理中的结论一致;如果我们取 ,并且选取2为底 ,则此时信息量 的单位将用比特 (bit) 来量度。
假设我们有一组的表述,正确的概率分别为 ,信息量分别为 ,则我们把信息熵定义为平均信息量
这种熵的定义称为香农熵
我们来举一个简单的例子。设一个非均匀的骰子可以掷出6种结果,它们的概率分别为:1/10,1/10,1/10,1/10,1/10,1/2,则与每个结果相联系的信息量分别为 klog10,klog10,klog10,klog10,klog2(取k=1并取2为底,则它们分别为3.32比特,3.32比特,3.32比特,3.32比特,3.32比特,1比特),香农熵为
取 ,并取2为底,则香农熵=2.16比特。
从形式上来看,香农熵(信息熵)和吉布斯熵(热力学熵)完全一样。并且,两种熵都衡量了系统的不确定度。一个系统的微观状态数越多,则混乱度越大,不确定度越大,系统的热力学熵就越大;类似的,一个表述正确的概率越低,它的不确定度就越大,从而它的信息量就越大,而香农熵对平均信息量进行了量化。所以,我们得出结论:热力学熵和信息熵本质上是一回事,它们都是对系统不确定度(混乱度)的衡量。这种热力学熵和信息熵的等价性,使得我们可以从信息论的观点着手理解热力学;同时,也意味着我们可以用热力学和统计力学中发展出来的工具去研究信息论
最后,我们简单地介绍一下量子系统中的信息熵。上面的香农熵只适用于经典系统,对于量子系统,我们要如何定义信息熵呢?我们知道,经典统计中的核心问题是求系统处于某个微观态的概率,而量子统计中的核心问题则是求系统的密度矩阵,关于密度矩阵的详细讨论,可以参看:统计物理的基本思想
设量子系统的密度矩阵为 ,则量子系统的信息量定义为
信息熵仍然定义为平均信息量
其中 为密度矩阵 的本征值。量子系统中熵的上述定义称为冯·诺依曼熵

4. 总结

我们上面一共介绍了熵的五种等价定义:熵的热力学定义、玻尔兹曼熵、吉布斯熵、香农熵、冯·诺依曼熵,其中前三个定义属于热力学和统计物理的范畴,而后两个定义属于信息论的范畴。
但是我们上面证明了,热力学熵和信息熵本质上是一回事,它们都是对系统不确定度(混乱度)的衡量。这给我们展示了一个惊人的结果:本来看似毫不相干的热物理和信息论这两门学科,其实是可以通过熵来紧密相连的。
完美展示热物理和信息论联系的一个例子就是著名的麦克斯韦妖:擦除硬盘中信息的过程必然伴随着环境中热量的增加和环境中熵的增加。麦克斯韦妖的“微操”虽然可能使得系统的熵短时间内减少,但是当麦克斯韦妖的记忆容量被塞满时,它必须通过擦除记忆中的信息来重新储存新的信息,这种擦除信息的行为增加了环境的熵,这增量抵消了之前的微操所减少的系统的熵。所以整个宇宙的熵是不会减少的,热力学第二定律仍然成立。
(0)

相关推荐