信息论+傅祖芸+答案

更新时间：2024-03-03 20:21:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

解：从信息论的角度看，

第二章课后习题

【2.1】设有 12 枚同值硬币，其中有一枚为假币。只知道假币的重量与真币的重量不同，但不知究竟是重还是轻。现用比较天平左右两边轻重的方法来测量。为了在天平上称出哪一枚是假币，试问至少必须称多少次？

1“12 枚硬币中，某一枚为假币”该事件发生的概率为 P???；

12 1 “假币的重量比真的轻，或重”该事件发生的概率为 P???；

为确定哪一枚是假币，即要消除上述两事件的联合不确定性，由于二者是独立的，因

此有

1 而用天平称时，有三种可能性：重、轻、相等，三者是等概率的，均为 P???，因此天

3 平每一次消除的不确定性为 I?? log 3 比特

因此，必须称的次数为

I 1 I 2

-35log 3 ???????? 2.9 次 -30log 24 I?? log12?? log 2?? log 24 比特

因此，至少需称 3 次。

【延伸】如何测量？分 3 堆，每堆 4 枚，经过 3 次测量能否测出哪一枚为假币。【2.2】同时扔一对均匀的骰子，当得知“两骰子面朝上点数之和为 2”或“面朝上点数之和为 8”或“两骰子面朝上点数是 3 和 4”时，试问这三种情况分别获得多少信息量？解：

??“两骰子总点数之和为 2”有一种可能，即两骰子的点数各为 1，由于二者是独立的， 1 1 1 ，该事件的信息量为：因此该种情况发生的概率为 P???6 6 36

I?? log 36?? 5.17 比特

“两骰子总点数之和为 8”共有如下可能：2 和 6、3 和 5、4 和 4、5 和 3、6 和 2，概

1 1 5 ，因此该事件的信息量为：率为 P?????? 5???

6 6 36

36 I?? log

? 2.85 比特 5 ??? 2???

1 1 1 ， “两骰子面朝上点数是 3 和 4”的可能性有两种：3 和 4、4 和 3，概率为 P???6 6 18 因此该事件的信息量为：

I?? log18?? 4.17 比特

多少信息量？如果你在已知今天是星期四的情况下提出同样的问题，则答案中你能获得多

少信息量（假设已知星期一至星期日的顺序）？解：

如果不知今天星期几时问的话，答案可能有七种可能性，每一种都是等概率的，均为

1 P???，因此此时从答案中获得的信息量为

I?? log 7?? 2.807 比特

而女孩中身高 1.6 米以上的占总数一半。假如我们得知“身高 1.6 米以上的某女孩是大学

设 A 表示女孩是大学生， P( A)?? 0.25 ；

B 表示女孩身高 1.6 米以上， P( B | A)?? 0.75 ， P( B)?? 0.5

“身高 1.6 米以上的某女孩是大学生”的发生概率为生”的消息，问获得多少信息量？解：

而当已知今天星期几时问同样的问题，其可能性只有一种，即发生的概率为 1，此时获得的信息量为 0 比特。

【2.4】居住某地区的女孩中有 25%是大学生，在女大学生中有 75%是身高 1.6 米以上的，【2.3】如果你在不知道今天是星期几的情况下问你的朋友“明天星期几？”则答案中含有

P( AB) P( A | B)???P( B) 已知该事件所能获得的信息量为

P( A) P(B | A) P( B)

0. 25?? 0. 75 0.5

? 0.375

I?? log ? 1.415 比特

0.375 ? X????a1?? 0 a2?? 1 a3?? 2 a4?? 3??

【 2.5 】设离散无记忆信源???????? 3 / 8 1/ 4 1 / 4 1/ 8?? ，其发出的消息为

?P( x)??????????????????????????????

（202120130213001203210110321010021032011223210），求（1）此消息的自信息是多少？

（2）在此消息中平均每个符号携带的信息量是多少？

解：

信源是无记忆的，因此，发出的各消息之间是互相独立的，此时发出的消息的自信息

即为各消息的自信息之和。根据已知条件，发出各消息所包含的信息量分别为：

8 ? 1.415 比特 I (a0?? 0)?? log 3

I (a1?? 1)?? log 4?? 2 比特

I?? 14??1.415?? 13?? 2?? 12?? 2?? 6?? 3?? 87.81 比特

45 个符号共携带 87.81 比特的信息量，平均每个符号携带的信息量为

87.81 I???? 1.95 比特/符号

注意：消息中平均每个符号携带的信息量有别于离散平均无记忆信源平均每个符号携带的

信息量，后者是信息熵，可计算得

H ( X )????? P( x) log P( x)?? 1.91比特/符号I (a2?? 2)?? log 4?? 2 比特 I (a3?? 3)?? log 8?? 3 比特

在发出的消息中，共有 14 个“0”符号，13 个“1”符号，12 个“2”符号，6 个“3” 符号，则得到消息的自信息为：

【2.6】如有 6 行 8 列的棋型方格，若有二个质点 A 和 B，分别以等概率落入任一方格内，

且它们的坐标分别为（XA,YA）和（XB,YB），但 A 和 B 不能落入同一方格内。

（1）求质点 A 落入任一格的平均自信息量，即求信息熵，首先得出质点 A 落入任一

格的概率空间为：

? a1 ? ? P?????? 1 ??????

? 48 X???

a2 1 48

a3 L a48???1 1???48 L??????48???（1）若仅有质点 A，求 A 落入任一个格的平均自信息量是多少？（2）若已知 A 已落入，求 B 落入的平均自信息量。

（3）若 A、B 是可分辨的，求 A、B 同都落入的平均自信息量。解：

平均自信息量为

H ( A)?? log 48?? 5.58 比特/符号

（2）已知质点 A 已落入，求 B 落入的平均自信息量，即求 H ( B | A) 。

1 。平均自信息量为 A 已落入，B 落入的格可能有 47 个，条件概率 P(b j | ai ) 均为 H ( B | A)??????? P(ai )P(b j | ai ) log P(b j | ai )?? log 47?? 5.5547 比特/符号 48 47

i??1 j??1

（3）质点 A 和 B 同时落入的平均自信息量为

H ( AB)?? H ( A)?? H (B | A)?? 11.13 比特/符号

【2.7】从大量统计资料知道，男性中红绿色盲的发病率为 7%，女性发病率为 0.5%，如果你问一位男同志：“你是否是红绿色盲？”，他的回答可能是“是”，也可能是“否”，问这两个回答中各含有多少信息量？平均每个回答中含有多少信息量？如果你问一位女同志，则答案中含有的平均自信息量是多少？解：

男同志红绿色盲的概率空间为：

? X???? a1 a 2???? P??????0.07 0.93?????????????????

问男同志回答“是”所获昨的信息量为： 1

I?? log ? 3.836 比特/符号

0.07 问男同志回答“否”所获得的信息量为：

I?? log ? 0.105 比特/符号

0.93 男同志平均每个回答中含有的信息量为

H ( X )????? P( x) log P( x)?? 0.366 比特/符号

同样，女同志红绿色盲的概率空间为

?Y??? b1 b2???

??? P????????????0.005 0.995??问女同志回答“是”所获昨的信息量为：

I?? log ? 7.64 比特/符号

0.005 问女同志回答“否”所获昨的信息量为：

? 7.23?? 10??3 比特/符号 I?? log 0.995 女同志平均每个回答中含有的信息量为

H (Y )????? P( x) log P( x)?? 0.045 比特/符号

? X???? a1 a2 a3 a 4 a5 a6???

【2.8】设信源????????0.2 0.19 0.18 0.17 0.16 0.17? ，求此信源的熵，并解释为什 ?P( x)??????????????????????????????????么 H ( X )?? log 6 ，不满足信源熵的极值性。

解：

H ( X )????? P( x) log P( x)?? 2.65?? log 6

原因是给定的信源空间不满足概率空间的完备集这一特性，因此不满足极值条件。

【 2.9 】设离散无记忆信源 S 其符号集 A?? {a1 , a2 ,..., aq } ，知其相应的概率分别为

(P1 , P2 ,..., Pq ) 。设另一离散无记忆信源 S?? ，其符号集为 S 信源符号集的两倍，

A??? {ai , i?? 1,2,...,2q}，并且各符号的概率分布满足

Pi??? (1???? ) Pi i?? 1,2,..., q

i?? q?? 1, q?? 2,...,2q Pi?????Pi 试写出信源 S?? 的信息熵与信源 S 的信息熵的关系。

解：

H (S??)????? P( x) log P( x)

???? (1???? ) Pi log(1???? )Pi??????Pi log??Pi

???(1???? )? Pi log(1???? )?? (1???? )? Pi log Pi?????? Pi log???????? Pi log Pi

???(1???? ) log(1???? )???? log???? H (S ) ? H (S )?? H (? ,1???? )

【2.10】设有一概率空间，其概率分布为 { p1 , p 2 ,..., p q } ，并有 p1?? p2 。若取 p1??? p1???? ，

p?2?? p2???? ，其中 0?? 2??? p1?? p2 ，而其他概率值不变。试证明由此所得新的概率空间的

H ( X )?? H ( X??)?? ( p1???? ) log( p1???? )?? ( p2???? ) log( p 2???? )?? p1 log p1?? p2 log p 2

令 f ( x)?? ( p1?? x) log( p1?? x)?? ( p2?? x) log( p2?? x) ， x????? 0, 1 ? ，则 ? p?? p2???

p 2?? x f??( x)?? log ? 0

p1?? x ? 2????

设新的信源为 X?? ，新信源的熵为：

H ( X??)????? pi log pi????( p1???? ) log( p1???? )?? ( p2???? ) log( p2???? )?? L?? pq log p q 原信源的熵

H ( X )????? pi log pi???? p1 log p1?? p2 log p 2?? L?? pq log p q

因此有，

熵是增加的，并用熵的物理意义加以解释。解：

即函数 f ( x) 为减函数，因此有 f (0)?? f (? ) ，即

( p1???? ) log( p1???? )?? ( p 2???? ) log( p2???? )?? p1 log p1?? p 2 log p2

因此 H ( X )?? H ( X??) 成立。

H ( p1 , p2 ,K, p L?1 , q1 , q2 ,K, qm ) ??? p1 log p1?? p 2 log p2?? K?? p L??1 log p L??1?? q1 log q1?? q2 log q 2?? K?? q m log qm ??? p1 log p1?? p 2 log p2?? K?? p L??1 log p L??1?? p L log p L?? p L log p L ? q1 log q1?? q2 log q2?? K?? qm log qm

??? p1 log p1?? p 2 log p2?? K?? p L??1 log p L??1?? p L log p L?? (q1?? q2?? q3?? L?? qm ) log p L ? q1 log q1?? q2 log q2?? K?? qm log qm ??? p1 log p1?? p 2 log p2?? K?? p L??1 log p L??1?? p L log p L

q q q1

? q1 log ? q 2 log 2?? K?? qm log m

p L p L p L ??? p1 log p1?? p 2 log p2?? K?? p L??1 log p L??1?? p L log p L

q q q q q q1

? p L (??log 1?? 2 log 2?? K?? m log m ) p L p L p L p L p L p L

q q1 q2

? H ( p1 , p2 ,K, p L?1 , p L )?? p L H m ( , ,K, m ) p L p L p L

将原信源中某一信源符号进行分割，而分割后的符号概率之和等于被分割的原符号的

概率，则新信源的信息熵增加，熵所增加的一项就是由于分割而产生的不确定性量。【2.12】（1）为了使电视图像获得良好的清晰度和规定的适当的对比度，需要用 5×105 个【意义】

【2.11】试证明：若?? pi?? 1，?? q j?? p L ，则 i?1 j??1 L m

【解释】

当信源符号的概率趋向等概率分布时，不确定性增加，即信息熵是增加的。

H ( p1 , p2 ,K, p L?1 , q1 , q 2 ,K, qm )?? H ( p1 , p2 ,K, p L??1 , p L )?? p L H ( 并说明等式的物理意义。解：

q q1 q

, 2 ,K, m ) p L p L p L

像素和 10 个不同亮度电平，求传递此图像所需的信息率（比特/秒）。并设每秒要传送 30

帧图像，所有像素是独立变化的，且所有亮度电平等概率出现。

（2）设某彩电系统，除了满足对于黑白电视系统的上述要求外，还必须有 30 个不同的色彩度，试证明传输这彩色系统的信息率要比黑白系统的信息率约大 2.5 倍。解：

每个像素的电平取自 10 个不同的电平，每一个像素形成的概率空间为：

? a1 a2 L a10???? X???1?????? 1 1

? P???L?????????????10 10 10???这样，平均每个像素携带的信息量为：

H ( X )?? log10?? 3.32 比特/像素

H ( X N )?? NH ( X )?? 5?? 105?? log10?? 1.66?? 10 6 比特/帧

30?? H ( X N )?? 4.98?? 10 7 比特/秒

除满足黑白电视系统的要求外，还需 30 个不同的色彩度，不妨设每个色彩度等概率出现，则其概率空间为：

? b1 b2 L b30????Y???1?????? 1 1

?P??L????????????? 30 30 30???

按每秒传输 30 帧计算，每秒需要传输的比特数，即信息传输率为：现在所有的像素点之间独立变化的，因此，每帧图像含有的信息量为：

其熵为 log 30 比特/符号，由于电平与色彩是互相独立的，因此有

H ( XY )?? H ( X )?? H (Y )?? log 300

这样，彩色电视系统的信息率与黑白电视系统信息率的比值为

H ( XY ) log 300 ? 2.5

H ( X ) log10

【2.13】每帧电视图像可以认为是由 3×105 个像素组成，所以像素均是独立变化，且每一

像素又取 128 个不同的亮度电平，并设亮度电平等概率出现。问每帧图像含有多少信息量？

H ( X )?? log128?? 7 比特/像素

H ( X N )?? NH ( X )?? 2.1? 10 6 比特/帧

如果用汉字来描述此图像，平均每个汉字携带的信息量为 H (Y )?? log10000?? 13.29 比特

/汉字，选择 1000 字来描述，携带的信息量为

H (Y N )?? NH (Y )?? 1.329?? 10 4 比特

数为：

H ( X N ) 2.1106 ? 1.58?? 105 字 H (Y ) 13.29 如果要恰当的描述此图像，即信息不丢失，在上述假设不变的前提下，需要的汉字个每帧图像由 3×105 个像素组成，且像素间是独立的，因此每帧图像含有的信息量为：

每个像素的电平亮度形成了一个概率空间，如下：

? a1 a2 L a128???? X???1?????? 1 1

? P???L?????????????128 128 128???平均每个像素携带的信息量为：

若现有一广播员在约 10000 个汉字的字汇中选 1000 个来口述此电视图像，试问广播员描述此图像所广播的信息量是多少（假设汉字是等概率分布，并且彼此无依赖）？若要恰当地描述此图像，广播员在口述中至少需用多少汉字？解：

【2.14】为了传输一个由字母 A、B、C 和 D 组成的符号集，把每个字母编码成两个二元

码脉冲序列，以 00 代表 A，01 代表 B，10 代表 C，11 代表 D。每个二元码脉冲宽度为 5ms。（1）不同字母等概率出现时，计算传输的平均信息速率？

1 （2）若每个字母出现的概率分别为 p A???， p B???5

平均速率？

1 ， pC???4 1 ， p D???4 310

，试计算传输的

解：

H ( X )?? log 4?? 2 比特

n?? 100 个，因此信息传输速率为：

R?? nH ( X )?? 100?? 2?? 200 比特/秒

当不同字母概率不同时，平均传输每个字母携带的信息量为

1 1 1 310 ? 1.985 比特/符号 log H ( X )?? log 5?? log 4?? log 4???

5 4 4 10 3 此时传输的平均信息速度为

R?? nH ( X )?? 1.985?? 10 2 比特/秒

【2.15】证明离散平稳信源有 H ( X 3 | X 1 X 2 )?? H ( X 2 | X 1 ) ，试说明等式成立的条件。

解：

H ( X 3 | X 1 X 2 )????????? P( x1 x2 x3 ) log P( x3 | x1 x2 )

X 1 X 2 X 3

假设不同字母等概率出现时，平均每个符号携带的信息量为

每个二元码宽度为 5ms，每个字母需要 2 个二元码，则其传输时间为 10ms，每秒传送

?????? P( x1 x 2 )? P( x3 | x1 x2 ) log P( x3 | x1 x2 )

X 1 X 2 X 3

?????? P( x1 x2 )? P( x3 | x1 x2 ) log P( x3 | x2 ) ? H ( X 3 | X 2 )

根据信源的平稳性，有 H ( X 3 | X 2 )?? H ( X 2 | X 1 ) ，因此有 H ( X 3 | X 1 X 2 )?? H ( X 2 | X 1 ) 。

等式成立的条件是 P( x3 | x1 x2 )?? P( x3 | x2 ) 。

【2.16】证明离散信源有 H ( X 1 X 2 L X N )?? H ( X 1 )?? H ( X 2 )?? L?? H ( X N ) ，并说明等式成立

的条件。证明：

H ( X 1 X 2 L X N )?? H ( X 1 )?? H ( X 2 | X 1 )?? L?? H ( X N | X 1 X 2 L X N??1 )

H ( X N | X 1 X 2 L X N??1 ) )|(log)( L 12121 NNN xxxxPxxxP??????????????????????????????????????????????????LL X 1 X 2 X N

而

??????L?? P( x1 x2 L x N??1 )? P( x N | x1 x2 L x N??1 ) logP( x N | x1 x2 L x N??1 )

X 1 X 2 X N??1 X N

??????L?? P( x1 x2 L x N??1 )? P( x N | x1 x2 L x N??1 ) logP( x N )

X 1 X 2 X N??1 X N

? H ( X N )

即

H ( X 2 | X 1 )?? H ( X 2 )

H ( X 3 | X 1 X 2 )?? H ( X 3 ) ……

代入上述不等式，有

H ( X 1 X 2 L X N )?? H ( X 1 )?? H ( X 2 )?? L?? H ( X N )

P( x N | x1 x2 L x N??1 )?? P( x N ) P( x N??1 | x1 x 2 L x N??2 )?? P( x N??1 )

……

等号成立的条件是：

P( x 2 | x1 )?? P( x2 )

符号，均按 P(0)?? 0.4 ， P(1)?? 0.6 的概率发出符号。

（1）试问这个信源是否是平稳的？

（2）试计算 )( 2XH 、 )|( 213 XXXH 及 )(lim XH N 。 N????（3）试计算 H ( X 4 ) 并写出 X 4 信源中可能有的所有符号。解：

即离散平稳信源输出的 N 长的随机序列之间彼此统计无依赖时，等式成立。

【2.17】设有一个信源，它产生 0、1 序列的消息。它在任意时间而且不论以前发生过什么

该信源任一时刻发出 0 和 1 的概率与时间无关，因此是平稳的，即该信源是离散平稳

H ( X 2 )?? 2H ( X )?? 1.942 比特/符号

H ( X 3 | X 1 X 2 )?? H ( X )?? 0.971 比特/符号

1H ( X 1 X 2 L X N )?? H ( X )?? 0.971比特/符号 lim H N ( X )?? lim N??? N????N H ( X 4 )?? 4H ( X )?? 3.884 比特/符号

X 4 信源中可能的符号是所有 4 位二进制数的排序，即从 0000~1111 共 16 种符号。

【2.18】设有一信源，它在开始时以 P(a)?? 0.6 ， P(b)?? 0.3 ， P(c)?? 0.1的概率发出 X 1 。如 1 1 果 X 1 为 a 时，则 X 2 为 a、b、c 的概率为；如果为 b 时，则 X 2 为 a、b、c 的概率为；

3 3 1 如果 X 1 为 c 时，则 X 2 为 a、b 的概率为，为 c 的概率为 0。而且后面发出 X i 的概率只与

2 X i?1 有关，又当 i?? 3 时， P( X i | X i??1 )?? P( X 2 | X 1 ) 。试用马尔克夫信源的图示法画出状态

转移图，并计算此信源的熵 H?? 。

信源。其信息熵为

H ( X )????? P( x) log P( x)?? 0.971 比特/符号

信源是平稳无记忆信源，输出的序列之间无依赖，所以

解：

信源为一阶马尔克夫信源，其状态转换图如下所示。

1 1 a : a : 3 3 1 b : 3

1 c : 3 1 b : 3 1 2

1 2 1 c : 3 根据上述状态转换图，设状态极限概率分别为 P(a) 、P(b) 和 P(c) ，根据切普曼—柯尔莫哥洛夫方程有

? 1 1 1 ?Q(a)?? 3 Q(a)?? 3 Q(b)?? 2 Q(c) ??1 1 1 ?Q(b)?? Q(a)?? Q(b)?? Q(c) ? 3 3 2 ? 1 1 ?Q(c)?? Q(a)?? Q(b) ? 3 )?Q ( a )?? Q (b ) ?? Q(3 ?? 1

解得：

3 1 Q(a)?? Q(b)???， Q(c)???8 4

得此一阶马尔克夫的信息熵为：

H?????? Q( Ei )H ( X | Ei )?? 1.439 比特/符号

0 【2.19】一阶马尔克夫信源的状态图如右图所示，信源 X 的符号集为{0,1,2} 并定义 p?? 1?? p 。

（1）求信源平稳后的概率分布 P(0) 、 P(1) p 和

2 P(2) ；（2）求此信源的熵 H?? ；

2 p 2 p 2 2 p 1 p p 2 2

（3）近似认为此信源为无记忆时，符号的概率分布等于平稳分布。求近似信源的熵 H ( X )

并与 H?? 进行比较；

（4）对一阶马尔克夫信源 p 取何值时， H?? 取最大值，又当 p?? 0 和 p?? 1时结果如何？解：

根据切普曼—柯尔莫哥洛夫方程，可得

? P??? P (0) ?? pP (0) ?? 2p (1) 2p P(2)

???P(1)???p P(1) (0) ?? pP ??? p ??P(2)

2 2 ??P (2) ??? p P (0) ??? p P(1)?? pP(2) ?P(0)?? P(1)2 ?? P (2)2 ?? 1 ?

解得： P(0)?? P(1)?? P(2)???

1 3

该一阶马尔克夫信源的信息熵为：

H?????? Q( Ei ) H ( X | Ei )???? p log p?? p log p?? p 比特/符号

当信源为无记忆信源，符号的概率分布等于平稳分布，此时信源的概率空间为：

? 0 1 2???? X??????1 1 1???? P????????? 3 3 3????此时信源的信息熵为 H ( X )?? log 3?? 1.585 比特/符号

由上述计算结果可知： H ( X )?? H (?) 。

求一阶马尔克夫信源熵 H?? 的最大值， H?????? p log p?? p log p?? p ，有

p) dH???? log 2(1??dp p

2 可得，当 p???时， H?? 达到最大值，此时最大值为 log 3?? 1.585 比特/符号。

当 p?? 0 时， H???? 0 比特/符号； p?? 1时， H???? 1比特/符号

【2.20】黑白气象传真图的消息只有黑色和白色两种，即信源 X?? {黑,白}，设黑色出现的

概率为 P(黑)?? 0.3 ，白色出现的概率为 P(白)?? 0.7 。

（2）假设消息前后有关联，其依赖关系为 P(白 |白)?? 0.9 ，P(黑 |白)?? 0.1 ，P(白 | 黑)?? 0.2 ，

P(黑 | 黑)?? 0.8 ，求此一阶马尔克夫信源的熵 H 2 。

（3）分别求上述两种信源的冗余度，并比较 H ( X ) 和 H 2 的大小，并说明其物理意义。

解：

如果出现黑白消息前后没有关联，信息熵为：

H ( X )????? pi log pi?? 0.881 比特/符号

当消息前后有关联时，首先画出其状态转移图，如下所示。（1）假设图上黑白消息出现前后没有关联，求熵 H ( X ) ；

设黑白两个状态的极限概率为 Q(黑) 和 Q(白) ，根据切普曼—柯尔莫哥洛夫方程可得：

?Q(黑)?? 0.8Q(黑)?? 0.1Q(白) ??

?Q(白)?? 0.2Q(黑)?? 0.9Q(白) ?

??Q(黑)?? Q(白)?? 1

解得：

Q(黑)???此信源的信息熵为：

1 2 ， Q(白)???3 3

H?????? Q( Ei ) H ( X | Ei )?? 0.553比特/符号

源熵小于信源消息之间无依赖时的信源熵，这表明信源熵正是反映信源的平均不确定的大

小。而信源剩余度正是反映信源消息依赖关系的强弱，剩余度越大，信源消息之间的依赖关系就越大。

两信源的冗余度分别为：

H ( X ) ? 0.119 ? 1?? 1???log 2

H???? 0.447

? 1?? 1???log 2 结果表明：当信源的消息之间有依赖时，信源输出消息的不确定性减弱。就本题而言，当有依赖时前面已是白色消息，后面绝大多数可能是出现白色消息；前面是黑色消息，后面基本可猜测是黑色消息。这时信源的平均不确定性减弱，所以信源消息之间有依赖时信

H ( X | Y )????? P( x)? P( y | x) log P( x | y)

X Y

3?? 2 6 1 3?? 1?? 1 1 2 2???

????? log?? log?????? log?? log???4?? 3 7 3 5?? 4?? 3 7 3 5???? 0.749比特 / 符号

I ( X ;Y )?? H ( X )?? H ( X | Y )?? 0.062 比特/符号

（2）此信道是对称信道，因此其信道容量为：

2 1 C?? 1?? H ( p)?? 1?? H ( , )?? 0.082 比特/符号 3 3

1 根据对称信道的性质可知，当 P(0)?? P(1)???时，信道的传输率 I ( X ;Y ) 达到

2 信道容量。

其余是 1/4W。现已知 2kΩ 阻值的电阻中 80%是 1/8W。问通过测量阻值可以平

均得到的关于瓦数的信息量是多少？解：

根据已知条件，设电阻的阻值为事件 X，电阻的功耗为事件 Y，则两事件的概率空间为：

? X????x1?? 2k? x2?? 5k?????Y???? y1?? 1/ 8W ?? ，0.7 0.3 ?? P ?????? 0.64 ??? P???????????给定条件为 P( y1 | x1 )?? 0.8 ， P( y2 | x1 )?? 0.2 ，而

0.64?? P( y1 )?? P( x1 )P( y1 | x1 )?? P( x2 )P( y1 | x2 )?? 0.7 * 0.8?? 0.3 * P( y1 | x2 )

0.36?? P( y2 )?? P( x1 ) P( y 2 | x1 )?? P( x2 ) P( y 2 | x2 )?? 0.7 * 0.2?? 0.3 * P( y2 | x2 )

解得：

4 11 P( y1 | x2 )???， P( y2 | x2 )???15 15

? 4 4 11 11???log H (Y | X )????0.7 *??0.8 log 0.8?? 0.2 log 0.2??? 0.3 *?????log ??? 0.7567 15 15 ? 15 15???

I ( X ;Y )?? H (Y )?? H (Y | X )?? 0.186 比特/符号

【3.4】设有一批电阻，按阻值分 70%是 2kΩ，30%是 5kΩ；按功耗分 64%是 1/8W，

y2?? 1/ 4W???0.36 ????

【3.5】若 X 、 Y 和 Z 是三个随机变量，试证明：

（1） I ( X ;YZ )?? I ( X ;Y )?? I ( X ; Z | Y )?? I ( X ; Z )?? I ( X ;Y | Z )

（2） I ( X ;Y | Z )?? I (Y ; X | Z )?? H ( X | Z )?? H ( X | YZ )

（3） I ( X ;Y | Z )?? 0 当且仅当 ( X , Z , Y ) 是马氏链时等式成立。

（1）

P( x | yz) I ( X ;YZ )????P( x, y, z) log ?P( x) X ,Y ,Z ? P( x | yz) P( x | y)???

??????? P( x, y, z) log???X ,Y ,Z??????????? P( x | y) P( x)????? P( x | yz) P( x | y) ?P( x, y, z) log ? P( x, y, z) log P( x | y) ???P( x) X ,Y ,Z X ,Y ,Z

? I ( X ; Z | Y )?? I ( X ;Y )

同理， I ( X ;YZ )?? I ( X ; Z )?? I ( X ;Y | Z )

（2）

P( x | yz) I ( X ;Y | Z )????P( x, y, z) log ?P( x | z) X ,Y ,Z P( xyz)P( z) ??? P( x, y, z) log P( xz)P( yz) X ,Y ,Z

P( y | xz) ??P( x, y, z) log P( y | z) X ,Y ,Z

? I (Y ; X | Z )

证明：

（3）

P( x | yz) I ( X ;Y | Z )???? P( x, y, z) log P( x | z) X ,Y ,Z

????? P( x, y, z) log P( x | z)???? P( x, y, z) log P( x | yz) X ,Y ,Z X ,Y ,Z

? H ( X | Z )?? H ( X | YZ )

? I ( X ;Y | Z )???

X ,Y ,Z ??

P( x, y, z) log ? log?? P( x, y, z)

P( y | z)?? P( y | xz) ，即 ( X , Z ,Y ) 是马氏链。

? log X ,Y ,Z

P( x | z) P( x | yz) P( x | z) P( x | yz)

??X ,Y ,Z P( xz)P( yz) P( z)

? 0 P( x | z) P( xz) P( yz) P( y | z)

等号成立当且仅当，即 ? 1???P( x | yz) P( xyz) P( z) P( y | xz) 【3.6】若有三个离散随机变量，有如下关系： X?? Y?? Z ，其中 X 和 Y 相互统计

（1） H ( X )?? H (Z ) ，当且仅当 Y 是常量时等式成立；

（2） H (Y )?? H (Z ) ，当且仅当 X 为常量时等式成立；

（3）H (Z )?? H ( XY )?? H ( X )?? H (Y ) ，当且仅当 X ，Y 中任意一个为常量时

（4） I ( X ; Z )?? H (Z )?? H (Y ) ；

（5） I ( XY ; Z )?? H (Z ) ；

（6） I ( X ;YZ )?? H ( X ) ；

（7） I (Y ; Z | X )?? H (Y ) ；

（8） I ( X ;Y | Z )?? H ( X | Z )?? H (Y | Z ) 。

证明：

?0 z?? x?? y ，即 H (Z | XY )?? 0 ，而当 X?? Y?? Z 时，有 P( z | xy)?????

z?? x?? y ?1 等式成立；独立，试证明：

H (Z | XY )?? H (Z )?? I ( XY ; Z ) ，因此 I ( XY ; Z )?? H (Z ) 。

H (Z | X )????? P( x, z) log P( z | x)

P( x, z) ???? P( x, z) log P( x)

P( x, y) ???? P( x, y) log P( x)

根据互信息的性质，有 I ( X ; Z )?? 0 ，因此 H (Z )?? H (Y ) 成立，而当 X 为常量

H ( XY | Z )?? 0 ，因此 H (Z )?? H ( XY ) 成立。

?0 z?? x?? y

根据条件，有 P( x | yz)?????

?1 z?? x?? y

，因此 H ( X | YZ )?? 0 ，而

同理， H (Z )?? H ( X ) 成立。

由于 I ( XY ; Z )?? H (Z )?? H (Z | XY )?? H ( XY )?? H ( XY | Z )?? H (Z )

，而

时， Z 和 X 的概率分布相同，因此上述不等式中的等号成立。

? H (Y )

而 I ( X ; Z )?? H (Z )?? H (Z | X ) ，因此 I ( X ; Z )?? H (Z )?? H (Y ) 。

I ( X ;YZ )?? H ( X )?? H ( X | YZ ) ，因此 I ( X ;YZ )?? H ( X ) 。

I (Y ; Z | X )?? H (Y | X )?? H (Y | XZ )?? H (Y | X )?? H (Y )

I ( X ;Y | Z )?? H ( X | Z )?? H ( X | YZ )

? H ( X | Z ) ? I (Y ; X | Z ) ? H (Y | Z )?? H (Y | XZ ) ? H (Y | Z )

【3.7】设 X ， Y 是两个相互统计独立的二元随机变量，其取“0”或“1”的概率为等概率分布。定义另一个二元随机变量 Z ，而且 Z?? XY （一般乘积），试计算：

（1） H ( X ) ， H (Y ) ， H (Z ) ；

（2） H ( XY ) ， H ( XZ ) ， H (YZ ) ， H ( XYZ ) ；

（3） H ( X | Y ) ， H ( X | Z ) ， H (Y | Z ) ， H (Z | X ) ， H (Z | Y ) ；

（4） H ( X | YZ ) ， H (Y | XZ ) ， H (Z | XY ) ；

（5） I ( X ;Y ) ， I ( X ; Z ) ， I (Y ; Z ) ；

（6） I ( X ;Y | Z ) ， I (Y ; X | Z ) ， I (Z ; X | Y ) ， I (Z ;Y | X ) ；

H ( X )?? H (Y )?? 1 比特/符号

?Z???? 0 1???

1?? ，因此而符号 Z 的概率空间为：???????? 3 ?P????? 4 4????

3 1 H (Z )?? H ( , )?? 0.811比特/符号

4 4

H ( XY )?? H ( X )?? H (Y )?? 2 比特/符号

根据已知条件可得

1 P( x?? 0, z?? 0)?? P( x?? 0)???， P( x?? 0, z?? 1)?? 0

1 1 P( x?? 1, z?? 0)?? P( x?? 1, y?? 0)???， P( x?? 1, z?? 1)?? P( x?? 1, y?? 1)???4 4

P( z?? 0, x?? 0) P( z?? 1, x?? 0) P( z?? 0 | x?? 0)???? 1， P( z?? 1 | x?? 0)???? 0

P( x?? 0) P( x?? 0)

P( z?? 0, x?? 1) P( z?? 1, x?? 1) 1 1 P( z?? 0 | x?? 1)???， P( z?? 1 | x?? 1)???2 2 P( x?? 1) P( x?? 1)

1 1 1 1 1 ? 0.5 比特/符号 H (Z | X )????? P( x, z) log P( z | x)???? log1?? log?? log 2 4 2 4 2 H ( XZ )?? H ( X )?? H (Z | X )?? 1.5 比特/符号

同理， H (Z | Y )?? 0.5 比特/符号， H (YZ )?? H (Y )?? H (Z | Y )?? 1.5 比特/符号

?1 z?? xy ，因此 H (Z | XY )?? 0 比特/符号由于 P( z | xy)??????0 z?? xy H ( XYZ )?? H ( XY )?? H (Z | XY )?? 2 比特/符号

H ( X | Y )?? H ( XY )?? H (Y )?? 1比特/符号（7） I ( XY ; Z ) ， I ( X ;YZ ) ， I (Y ; XZ ) ；解：

由于 X 和 Y 是相互独立的等概率分布的随机变量，因此有

H ( X | Z )?? H ( XZ )?? H (Z )?? 0.689 比特/符号

H (Y | Z )?? H (YZ )?? H (Z )?? 0.689 比特/符号

H ( X | YZ )?? H ( XYZ )?? H (YZ )?? 2?? 1.5?? 0.5 比特/符号

同理， H (Y | XZ )?? 0.5 比特/符号

I ( X ;Y )?? H ( X )?? H ( X | Y )?? 0 比特/符号

I ( X ; Z )?? H ( X )?? H ( X | Z )?? 0.311比特/符号

I (Y ; Z )?? H (Y )?? H (Y | Z )?? 0.311比特/符号

I ( X ;Y | Z )?? H ( X | Z )?? H ( X | YZ )?? 0.689?? 0.5?? 0.189 比特/符号

I (Y ; X | Z )?? I ( X ;Y | Z )?? 0.189 比特/符号

I (Z ; X | Y )?? H (Z | Y )?? H (Z | XY )?? 0.5 比特/符号

I (Z ;Y | X )?? H (Z | X )?? H (Z | XY )?? 0.5 比特/符号

I ( XY ; Z )?? H (Z )?? H (Z | XY )?? 0.811比特/符号

I ( X ;YZ )?? H ( X )?? H ( X | YZ )?? 1?? 0.5?? 0.5 比特/符号

I (Y ; XZ )?? H (Y )?? H (Y | XZ )?? 0.5 比特/符号

【3.8】有一个二元信道，其信道如右图所示。设该信道以 1500 个二元符号/秒的速度传输输入符号，现有一消息序列共有 14000 个二元符号，并设在这消息中

1 P(0)?? P(1)???。问从信息传输的角度来考虑，10 秒内

2 能否将这消息序列无失真地传送完。

0 1 0.98 0.98 1 0

解：

?0.98 0.02??

该信道的信道矩阵为???? ，信道容量为： ?0.02 0.98??

C?? log 2?? H (0.98,0.02)?? 0.8586 比特/符号

10 秒内可以传输的最大信息量为：

1500?? 0.8586??10?? 1.288??10 4 比特

10 秒钟内不可能把上述 14000 个符号传输完。

【3.9】求下图中信道的信道容量及其最佳的输入概率分布。

1/2

1/6 1/2 1/6 1/2 1/6 而 14000 个符号中所含有的信息量为：14000 比特，因此从信息的角度来考虑，

解：两个信道的信道矩阵分别如下：

? 1

? 1 1 1 1???? 2 ??

? 3 6 3 6?? ，?? 1 ? 1 1 1 1??????? 6 ??? 6 3 6 3????? 1 ?? 3

1 3 1 2 1 6

1???6 ???1?????3???1???2????

可见，两个信道均是对称信道，信道容量分别为：

1 1 1 1 C1?? log 4?? H ( , , , )?? 0.0817 比特/符号

3 6 3 6 1 1 1 C2?? log 3?? H ( , , )?? 0.126 比特/符号

2 6 3

输入的最佳分布是等概率分布。

【3.10】求下列两个信道的信道容量，并加以比较

???? p?????p??（1）??????? p?????p??

2????

???? p?????p??（2）??????2?????? p?????p??

2??0

0???2?????

解：这两个信道均是准对称信道，当输入符号等概率时，平均互信息达到信道容量，具体如下：

（1）该准对称信道的信道容量为：

H ( p???? , p???? ,2? ) C1 ? max{H (Y )}??1?? 2? 1?? 2? 1?? 2? 1?? ? 2? log 2??? H ( p???? , p???? ,2? ) ??????2??log log 2 2 2 2

2 ? (1?? 2? ) log ? ( p???? ) log( p???? )?? ( p???? ) log( p???? )

1?? 2??（2）该准对称信道的信道容量为：

H ( p???? , p???? ,2? ) C2 ? max{H (Y )}????????1?? 2? 1?? 2? 1?? 2? 1?? ??? log?????? log???? H ( p???? , p???? ,2? )

2??log log 2 2 2 2

? (1?? 2? ) log ? ( p???? ) log( p???? )?? ( p???? ) log( p???? )?? 2??1?? 2??? C1?? 2??【3.11】求下图中信道的信道容量及其最佳的输入概率分布，并求出???? 0 和

1 ????时的信道容量 C 。

1 0 0 1-ε 1 1

1-ε 2 2 解：

该信道的信道矩阵如下：

?0 1????? ?1 0 0?????????????0?????1???????

该信道既非对称信道，也非准对称信道，因此根据一般信道容量的计算公式，有

? P(b j | ai )? j???? P(b j | ai ) log P(b j | ai ) 即

??1?? 0 ???(1???? )? 2????? 3?? (1???? ) log(1???? )???? log?????? )? 3??? (1???? ) log(1???? )???? log??????? 2?? (1??

解得：

?1?? 0 ，?? 2???? 3?? (1???? ) log(1???? )???? log???而信道容量

??C ? log?? 2 j

? log 1?? 2(1?????? )1?????

??1

1?? 2(1???? )1???????信道的输出符号概率为：

P(b1 )?? 2??1?C???

可得：

P(b2 )?? 2?? 2??C???(1???? )1???????1?? 2(1???? )1???????

(1???? )1???????P(b3 )?? 2? 3??C???1?? 2(1???? )1???????而

P(b1 )?? P(a1 )

P(b2 )?? (1???? ) P(a2 )????P(a3 ) P(b3 )????P(a2 )?? (1???? ) P(a3 )

1 1?? 2(1???? )1???????

(1???? )1???????P(a2 )???1?? 2(1???? )1??????P(a1 )???

P(a3 )???

当???? 0 时， C?? log 1?? 2(1???? )

(1???? )1???????1?? 2(1???? )1???????

1 ????? 1?????当?????2 时， C?? log??1?? 2???????? log 2 。【3.12】试证明 H ( X ) 是输入概率分布 P( x) 的上凸函数。证明：

H ( X )????? P( x) log P( x)

?????????? log 3 ，信道为一一对应信道；

????? 2?????

设存在两个概率分布 P1 ( x) 和 P2 ( x) ，目标是要证明

?H ( P1 ( x))???? H (P2 ( x))?? H (?P1 ( x)???? P2 ( x))

证明过程如下：

?H ( P1 ( x))???? H ( P2 ( x))?? H (?P1 ( x)???? P2 ( x))

?????? P1 ( x) log P1 ( x)?????? P2 ( x) log P2 ( x)???????P1 ( x)???? P2 ( x)?log P( x) P( x) P( x)

????? P1 ( x) log ????? P2 ( x) log P1 ( x) P2 ( x) ? P( x) ??????????????? P( x)

??? log e? P1 ( x)???? 1?????? log e? P2 ( x)???? P1 ( x) ??????????????? P2 ( x)

? 0

??? 1?????

【3.13】从平均互信息的表达式证明，当信道和信源都是无记忆时，有

I ( X N ;Y N )?? NI ( X ;Y )

证明：设?? k????ak1 ak 2 Lak N?? ,?? h????bh1 bh2 LbhN?? ，按照给定信道和信源均是无记忆，

有

P(? k )?? P(ak1 ak 2 Lak N )?? P(ak1 ) P(ak 2 )L P(ak N )

P(? h )?? P(? k ) P(? h |?? k )

? P(ak1 )P(ak 2 )L P(ak N ) P(bh1 | ak1 )P(bh2 | ak 2 )L P( hN | ak N )

? P(bh1 ) P(bh2 )L P( hN )

I ( X N ;Y N )?? H (Y N )?? H (Y N | X N )

???? P(? j ) log P(? j )???? P(? i? j ) log P(? j |?? i )

P(? j |?? i ) ??? P(? i? j ) log P(? j ) ??? P(? i? j ) log ??? P(? i? j ) log

证明这 n 个串接信道可以等效于一个二元对称信道，其错误传递概率为

1 [1?? (1?? 2 p) n ] ，并证明 lim I ( X 0 ; X n )?? 0 ，设 p?? 0 或 1，信道的串接如下图所 n???2 示。

如果 ( X , Y , Z ) 是马氏链，则有 P( z | xy)?? P( z | y) ，即

P( xyz) P( yz) P( xy) P( y)

P( xyz) P( xy) 因此有，即 P( x | yz)?? P( x | y) ，即 (Z , Y , X ) 也是马氏链。

P( yz) P( y) 【3.15】把 n 个二元对称信道串接起来，每个二元对称信道的错误传递概率为 p 。

P(bh1 | ak1 )P(bh2 | ak 2 )L P(bhN | ak N )

P(bh1 )P(bh2 )L P( hN )

P(bh1 | ak1 ) P(bh1 )

? L???? P(? i? j ) log P(bhN | ak N ) P(bhN )

? I ( X 1 ;Y1 )?? I ( X 2 ;Y2 )?? L?? I ( X N ;YN )

【3.14】证明：若 ( X , Y , Z ) 是马氏链，则 (Z , Y , X ) 也是马氏链。证明：

证明：

1 当 n?? 1 时，错误概率 p?? (1?? (1?? 2 p)) 成立； 2

1 假设 n?? k 成立，即 k 个串接信道的错误概率为 [1?? (1?? 2 p) k ] ； 2 当 n?? k?? 1时，其错误概率为：

p [11???????????????2????????????????? (1?? 2 p ) k ]12???????????????????????????? p?1?? [1?? (1?? 2 p) k ]????p ?p 2 (1?? 2 p) k?? p???p 2 [1?? (1?? 2 p) k ] 1 2 ?p p 2 (1?? 2 p) k???2 (1?? 2 p) k

1 2 ? (11 2 ?? 2 p) k?? p(1?? 2 p) k ? [11 2

?? (1?? 2 p) k??1 ]

? 1 1???当 n???? 时，错误概率近似为 1 ??2

，总信道矩阵为?? 2 2?? ，此时不论输入为何分 ??1 1???? 2 2?????布，输出均为等概率分布。其互信息为：

limn???

I ( X 0 ; X n )?? H ( X n )?? H ( X n | X 0 )?? 1?? H ( X n | X 0 )?? 0 比特/符号【3.16】若有两个串接的离散信道，它们的信道矩阵都是

? 0 0 0 1???? 0 0 0 1?? 1 1 ???? 2 2 0 0??

?? 0 0 1 0???

??并设第一个信道的输入符号 X?? {a1 , a2 , a3 , a4 } 是等概率分布，和

I ( X ;Y ) 并加以比较。

解：

串接后的信道矩阵为：

?? ? 0

1 0 0 0 1??? 0 0 0 1??

? 0 0 1 0??0 1 0 1??? 0 1

0 0 ??1 ?????????? 0 0 0 11 0???? 2 2 0 0????2 0 0??

1 0 1 0 1???? 0 0 1 0???????? 0 2 0

1 0???????? 2 2

0 0?

????求 I ( X ; Z )

?P(b1 ) P(b2 ) P(b3 ) P(b4 )?????P(a1 ) P(a2 ) P(a3 ) P(a4 )?? 1 I ( X ;Y )?? H (Y )?? H (Y | X )

1 1 1 1 1 1 1 1 1 1 1 1 1 8 8 8 8 4 ???? 4 2 2 4 2 2 4 2 ? 1.5比特 /符号

??? log?? log?? log?? log???? log???? log ?P(c1 ) P(c2 ) P(c3 ) P(c4 )??I ( X ; Z )?? H (Z )?? H (Z | X )

1 1 1 1 1 1 1 1 1 1 1 1 1 8 8 8 8 4 ? 0 ? 1.5比特 / 符号???

P( a14 2 ) P(a 2 ) P2 4 2 (a3 ) P(a 4 ) ?2 4 2 ? 0 可见， I ( X ; Z )?? I ( X ;Y ) 。

??????? log?? log?? log?? log???? log???? log

1 2

1 2??

第四章课后习题

【4.1】设有一连续随机变量，其概率密度函数为

????

? A cos x x???2 p( x)?????

其他值 ?? 0

??又有???? p( x)dx?? 1，试求这随机变量的熵。 2 2

解：

h( X )????? p( x) log p( x)dx

???? A cos x log Adx???? A cos x log cos xdx

????? A log Asin x ??2

???? A cos x log cos xdx

???2 A log A???? A cos x log cos xdx

而

? cos x log cos xdx

? log e? ln 1?? sin 2 xd sin x

1 ? log sin x)d sin x 2 e? ln(1?? sin x)?? ln(1??1 1 ? log sin x)d sin x 2 e ? ln(1 ?? sin x ) d sin x ?? log2 e? ln(1??

??1?? sin x 2 d sin x ?????? ln(1?? sin x)d sin x ? (1?? sin x) ln(1?? sin x) ???1?? sin x 2 ? 2 ln 2?? 2

? ln(1?? sin x)d sin x ???? ln(1?? sin x)d (1?? sin x)

??1?? sin x 2 d sin x ???(1?? sin x) ln(1?? sin x) ????????1?? sin x 2 ? 2 ln 2?? 2

因此有

A log e(2 ln 2?? 2?? 2 ln 2?? 2) 2

???2 A log A?? 2 A log e?? 2 A log e ln 2 ???2 A log A?? 2 A log e?? 2 A ??1 2

而???? p( x)dx?? 1，即 A???2 ，因此

h( X )????2 A log A???1 h( X )???? log?? log e?? 1?? 1?? log e?? 1?? log e 2

【4.2】计算连续随机变量 X 的差熵

（1）指数概率密度函数 p( x)????e???x ， x?? 0,???? 0

1 ?? x ，?????? x????,???? 0 （2）拉普拉斯概率密度函数， p( x)????e

解：

（1）

h( X )????? p( x) log p( x)dx

??????e???x log??e???x dx

??????e???x log??dx??????e???x log e???x dx ??? log??e???x ??

? log e? ln e???x de???x

??? log???? log et ln t 10?? log e? dt ??? log???? log e

e ? log ??（2）

h( X )????? p( x) log p( x)dx

? 1????? x 1 ?? x ?e log??e ???????

2 2 ? 1 ?????x log??e??0 ??e??

2 ?x dx

???????????????????????

0 ?? e ? x log dx ????????2 0 ????e???x log??e???x dx e ? log 2?? log ??? log

2e ??注：（2）题直接借用了（1）的结论。

【4.3】设有一连续随机变量，其概率密度函数为：

?bx 2 0?? x?? a p( x)?????? 0 其他值

试求这随机变量的熵。又若 Y1?? X?? K ( K?? 0) ， Y2?? 2 X ，试分别求出 Y1 和 Y2 的

熵

h(Y1 ) 和 h(Y2 ) 。

h( X )????? p( x) log p( x)dx

0 bx 2 log bx 2 dx ????0 x 2 ln xdx ??? log b?? 2b log e? 2 2 3a b log e?? a 3b log a?? log b 9 3

解：

由于?? p( x)dx?? 1 ，因此 a 3b?? 3 ，因此

2 h( X )?? log e?? log a?? log 3

3 ?X ? 1 ，因此当 Y1?? X?? K ( K?? 0) 时， ?Y1 2 h(Y1 )?? h( X )?? E[log1]?? h( X )?? log e?? log a?? log 3 3

?X 1 ，因此当 Y2?? 2 X 时， 2 ?Y1 1 2 3 h(Y1 )?? h( X )?? E[log ]?? h( X )?? log e?? log a log 2 3 2

【4.4】设给定两随机变量 X 1 和 X 2 ，它们的联合概率密度为

x12?? x 22

?1 ?e 2 p( x1 x2 )???????? x1 , x2?????2??求随机变量 Y1?? X 1?? X 2 的概率密度函数，并计算变量 Y 的熵 h(Y ) 。解：

x12?? x 22 x 2 ? 1 1 ?1 ?2

e 2 ??e p( x1 x2 )???2??2??

x 2

2 1 ?e 2?? p( x1 ) p( x2 ) 2??

因此 Y1?? X 1?? X 2 也是一个高斯分布的随机变量，其均值为 0，方差为 2，即

p( x1 x2 )???2??因此其差熵为

y 2 ?? 4

1 1 h(Y )?? log 2?e? y2?? log 4?e

2 2

【4.5】设一连续消息通过某放大器，该放大器输出的最大瞬时电压 b ，最小瞬时

电压为 a 。若消息从放大器中输出，问放大器输出消息在每个自由度上的最大熵

解：

分布时其差熵最大，即

h(Y )?? log(b?? a)

2F log(b?? a) 比特/秒

【4.6】有一信源发出恒定宽度，但不同幅度的脉冲，幅度值处在 a1 和 a2 之间，

此信源连至某信道，信道接收端接收脉冲的幅度 y 处在 b1 和 b2 之间。已知随机变

解：

p( x)???? p( x, y)dy

????(a2?? a1 )(b2?? b1 ) 1 a2?? a1

量 X 和 Y 的联合概率密度函数

p( xy)???1

(a2?? a1 )(b2?? b1 )

如果放大器的带宽为 F ，则取样率为 2F ，单位时间内输出的最大信息量为该问题等价于取值受限的随机变量的最大熵，根据差熵的极值性，当等概率是多少？又放大器的带宽为 F ，问单位时间内输出最大信息量是多少？

试计算 h( X ) ， h(Y ) ， h( XY ) 和 I ( X ;Y ) 。

同理， p( y)???

因此

1 b2?? b1

。

h( X )????? p( x) log p( x)dx?? log(a2?? a1 ) h(Y )????? p( y) log p( y)dy?? log(b2?? b1 )

h( XY )????? p( x, y) log p( x, y)dxdy?? log(a2?? a1 )?? log(b2?? b1 ) I ( X ;Y )?? h( X )?? h(Y )?? h( XY )?? 0

（1） h( X | Y )?? h( X ) ，当且仅当 X 和 Y 统计独立时等号成立；

（2）h( X 1 X 2 L X N )?? h( X 1 )?? h( X 2 )?? L?? h( X N ) ，当且仅当 X 1 X 2 L X N 彼此统计

独立时等式成立。证明：

（1）

h( XY )????? p( y)dy? p( x | y) log p( x | y)dx

???? p( y)dy? p( x | y) log p( x)dx ???? p( x, y) log p( x)dxdy

? h( X )

等号成立当且仅当 p( x | y)?? p( x) ，即 p( x, y)?? p( x) p( y) ，因此仅当 X 和 Y 统计

h( X 1 X 2 X N )?? h( X 1 )?? h( X 2 | X 1 )?? h( X 3 | X 1 X 2 )?? L?? h( X N | X 1 X 2 X N??1 )

h( X 1 X 2 L X N )?? h( X 1 )?? h( X 2 )?? L?? h( X N )

等号成立当且仅当

根据（1）的结论，条件差熵小于差熵，因此有独立时等号成立。

（2）根据条件概率密度的相关公式，有

【4.7】在连续信源中，根据差熵、条件差熵和联合差熵的定义，证明

p( x N | x1 x2 L x N??1 )?? p( x N )

p( x1 x2 L x N )?? p( x1 ) p( x2 )L p( xN )

【4.8】设连续随机变量 X ，已知 X?? 0 ，其平均值受限，即数学期望为 A ，试求

在此条件下获得的最大熵的最佳分布，并求出最大熵。解：

给定条件如下：

p( x1 x2 )?? p( x1 ) p( x2 ) p( x1 x2 x3 )?? p( x1 ) p( x2 ) p( x3 ) ……

即

p( x2 | x1 )?? p( x2 ) p( x3 | x1 x2 )?? p( x3 ) ……

? p( x)dx?? 1 ? xp( x)dx?? A

目标：求???? p( x) log p( x)dx 的最大值。构造函数

F ( p( x))????? p( x) log p( x)dx?????? p( x)dx????? xp( x)dx

? log p( x)?? log e????????x?? 0

p( x)?? 2???x?log e

d??? p( x) log p( x)????p( x)????xp( x)??dF ( p( x)) 欲使 ? 0 ，只需 dp( x) dp( x)

?????? p( x) log p( x)????p( x)????xp( x)?dx

? 0 即可，因此有

根据?? p( x)dx?? 1 ，?? xp( x)dx?? A ，可得

????x?log e dx?? 1????????2???log e

1 2

? xp ( x)dx?? A???????? A??log e?? x

???log e??2 1 ，此时因此 p( x)????log e?2 2 A A

h( X )????? p( x) log p( x)dx

? 1 ??? log???log e?2???????log e?2 ? A????????

【 4.9 】 N 维连续型随机序列 X 1 X 2 L X N ，有概率密度 p( X 1 X 2 L X N ) 以及

E[( X i?? mi )]???? i2 。证明：当随机序列的分量各自达到正态分布并彼此统计独立

时熵最大。最大熵为

N log 2?e(? 12? 22 L? N2 )1/ N 证明：

h( X 1 X 2 L X N )?? h( X 1 )?? h( X 2 )?? L?? h( X N )

log? (bi?? ai )

i?1N

等号成立当且仅当各分量统计独立。

而对于任何一个分量而言，当 E[( X i?? mi )]???? i2 时，高斯分布的差熵最大，为

1 h( X i )???log 2?e? i2

2 因此原序列差熵的最大值为：

1 1 1 h( X 1 X 2 L X N )???e? N2 log 2?e? 12???log 2?e? 22?? L???log 2?2 2 2

N log?2?????e?? 12? 22 L? N2 N???2 ?【4.10】 N 维连续型随机序列 X 1 X 2 L X N ，其各分量幅度分别受限为 [ai , bi ] 。证明：当随机序列的分量各自达到均匀分布并彼此统计独立时熵最大。最大熵为

证明：

h( X 1 X 2 L X N )?? h( X 1 )?? h( X 2 )?? L?? h( X N )

而对于任何一个分量而言，当幅度分别受限为 [ai , bi ] 时，均匀分布的差熵最大，

【4.11】设 X 1 X 2 L X N 都是互相独立的正态分布的随机变量，其方差分别为?? 12 ，

设 X 1 和 X 2 是相互独立的正态分布的随机变量，其均值为 mi ，方差为?? i2 。设

Y2?? X 1?? X 2 ，根据已知条件，有

X 1?? X 1

Y2?? X 1?? X 2

因此有

?X 1 X 1 p( x1 , y2 )?? p( x1 , x2 ) ??X 1 ?X 2 1 1 ? p( x1 , x2 ) 0 1 ?Y2 ?X 1 ?Y2 ?X 2

为

h( X i )?? log?bi?? ai???因此原序列差熵的最大值为：

h( X 1 X 2 L X N )?? log?b1?? a1???? log?b2?? a2???? L?? log?bN?? aN???? log????bi?? ai???i?1 N

等号成立当且仅当各分量统计独立。

? 22 ，…,?? N2 ，均值分别为 m1 , m2 ,L, mN 。试证明 Y?? X 1?? X 2?? L?? X N 仍是正态随机变量，其均值为 m???? mi ，方差?? 2????? i2 。证明：

? p( x1 , x2 )?? p( x1 ) p( x2 ) ? p( x1 ) p( y2?? x1 )

因此有

p( y2 )???? p( x1 y 2 )dx1

??? p( x1 ) p( y2?? x1 )dx1 ????1??????x1?? m1??2?? 1?????? y2?? x1?? m2??2???exp??exp??dx2????2

1???? 2 1??? 2??? 2???? 2? 2??????

????2??exp?????????1?? ?????????x1?? m1??2?? y 2?? x1?? m2??2??? dx1 2?2 1? 2???? 1 2? 2??????

而

???x1?? m1??2???? y2?? x1?? m2??2 2?2

1 2? 2 2

???????????1 2????????x?1??? m1???? y2?? x1?? m2??2????????2

1?????????? 2???????

????1 2 2 ??2? 12? 22

? 2 2 2 2 2 2 2 2 ????1 2??? 1???? 2??x1?? 2x1?? 1 m2???? 1 y2?? m1? 2?????? 2 m1???? 1 m2???? 1 y 2?? 2? 1 y2 m2 12? 22 2 2 2 2 ????1???? 1 2???1?????? 2????? x1???? 2x 21 m????? 1 ?? 2 1 y2??2 m 1 ? 2 ???? ?? 2 ???????? m 1 ?? ?? 2 1 y2?? 2? 1 y 2 m2????????2???? 1 ? 2???????????????? 1???????? 1??????1????????? 2???????????????? 1???? 2??????????

2 m 12 y2?? m1? 22??? ???2

??? 1 2??? x1?? 1 2???????????????? ? 2

12?2?????? 22 2?? 2 ( y2??

m1?? m2 ) 2??? 1 ?1 2????????????? m 1???????? 2??????? ????? 2 12 y 2?????????1???? 1 ??? x m1? 22???2

2???1?? 1 2???????????????? 2????? ???1?? ??1 ?? 2 ) 2????2 ??2 2 2 ??2(? 12

( y2?? m1?? m2 ) 2

1 2 所以

???

??? y 2?? x1?? m2??2??dx1 2

2? 2??????

1?????? 1 ?

2 2

???

? 2

??? 2

? 1

? 1?? 1 1????

??? 12???? 22

1 ?

?? 2?? 1? 2

1 2 2

2???? 1??? 2???

2?????????

因此， Y2?? X 1?? X 2 是均值为 m1?? m2 ，方差为?? 12???? 22 的高斯分布，Y3?? X 1?? X 2?? X 3 ，……， Y?? X 1?? X 2?? L?? X N 均为高斯分布，因此

Y?? X 1?? X 2?? L?? X N 是正态随机变量，其均值为 m???? mi ，方差?? 2????? i2 【4.12】设某连续信道，其特性如下：

1 p( y | x)???2

? 3??e

而且输入变量 X 的概率密度函数为

p( x)???1

2????试计算：

（1）信源的熵 h( X ) ；

理，

同

（2）平均互信息 I ( X ;Y ) 。解：

p( y2 )???????2??1?2??? 2(?1????2 )

2 2 1 1????????x1?? m1??2 p( x)???exp???2?????2 ?2 21

exp??? m1?? m2 ) 2???2??? 2(? y 2 2??? 12 m2???? 12 y2?? m1? 22????????????dx1 ? exp??? 2?????? 12???? 22??????? x1????????exp???( y2?? m1?? m2 ) 2???? 2(? 1???? 2 ) ? 1??? 1?? 1????? 2???????

? ( y 2?? m1?? m2 ) 2???exp???2(? 12???? 22 )???

?( y?? x ) 2 / 3? 2 e??x / 4??e?? x / 4??e??x / 2?2??可见， X 为均值为 0，方差为 2? 2 的正态分布，其差熵为

h( X )???1 2 log 2?e2? 2???1 2

log 4?e? 2

p( x, y)?? p( x) p( y | x)

?? ??1 ??

2 ?? x 2 ????? y?? x?????1????? 2 3??exp???2 ??2????? 2???? 4??3? 2 ?? ?????

???1

? 4x 2?? 4 y 2?? 4xy???

2 3 ??exp??? 2 12??

?????????????????

? 2

????

2 ????x???1???y????? 3 2y??????

1 2 3??? 2 exp????????

?2???4 3??2 ?????? ??? ???

??? 1??? 2 ??1 ??? ???? x?? y??? 2??? y 2?????2 3??exp?? ???????? 2 3? 2 4 2?????????而

???? 2 ??? x?? y???1???

?? p( y)???? p( x, y)dx?????

exp 2 3??? ?????1 y???? 2??? ??3??2 4? 2??? 2

??????dx 2 ?

??1???? x? y?????2 ? 1???

???????

?? 2???3????

??1 ????y 2????dx1 ??? ?2????????????????????e1 x ?? ????y y 2 ????? 2 3???2

e 4??? e 4??? e d?? 2??2 ?2 ? x? y??? ?? 2????

2???????? 3????? ??????????????????2 ??

1 e 4???y 2 e??t dt

2???e?? 4??1 y 2

2????因此 Y 是均值为 0，方差为 2? 2 的高斯分布，其差熵为

log 2?e?? 2? ??

2?? log 4e 2

h(Y )???1 1 2 2而条件熵为

3????

h(Y | X )????? p( x) p( y | x) log p( y | x)dxdy

????? y??1 x???2

???

1 ??? 2????????? p( x, y) log???e 3? 2 ?dxdy ????????????????? 3????????????

?2 ? y?? x ?1???? ??? ???? p( x, y) log 1

? 3? 2 ? 3??dxdy???? p( x, y) log e 2???

dxdy ??1? 2 y?? ?x??? ? log 3????? log e? p( x, y) ?2? 3?dxdy 2

而

??2

? y?? x1???????1? 2 ?? 2

???2 y??? ?x??? 1 ??1 x? y??? ??????4 p( x, y?) 2???3? 2 dxdy 3? 2 dxdy?????3? 2 2 3?? 2 ??? y? x1???

???? x ???? 1??2 y 2??xy??x 2 ???1??????3? 2 1??? 1?????6 3?????4

? y???x?? e dxdy? y????????4

2???

6 3????? ? y?? x??? ? 2 ???? 1???1?????2 ??1??? ??

46 3?????4

? y???x?? e ? 3? 2 dxdy 2 2???

??? ?2 ? y?? 1 6 3?? 4 ???x 2 4? 2 dx??????? y???1???2 x???2???

x?? e ????1??? 3? 2 dy 而

x? 1???2 ??1? y????????? ???

?3? 2 ??? y?? 2 x????dy?? 3? 2 3????

?? y?? x?????? 31??????2

????? y?? 2 x????2?? e?? ?????d

? y ?? ?1???2???x???????????????? 3?????????????????? 3???????? 2

? 3 3 ? 3 ?? t 2e??t dt 3 2

3??? 3

因此

???

242???

x?? e 2

32 3? 2 dxdy

2 2 ? 1????1? ? y? x??? ? y???x??? 2 x 2 ??2 1 ??2???1????? 3? 2 p( x, y)???dxdy???dy ??e 4? dx??? y???x?? e 6 3?? 4???3? 2 ??2???

?x 2 ???2 1 3 1 4e 4? dx???3??? 3???dx 4????2 6 3???4????1 ? 2????4????1 2

?1? ?x??? ? y???2? dxdy h(Y | X )?? log 3????? log e? p( x, y) 3? 2

1 ? log 3????? log e

1 ? log 3?e? 2

因此平均互信息为：

I ( X ;Y )?? H (Y )?? H (Y | X )

1 1 ? log 4?e? 2?? log 3?e? 2

2 2 1 4 ? log 2 3 ? 0.21

注：该题推导过程中引用的相关积分公式：

1 ??? t 2

2 dt?? 2??（1）???? e ?

??（2）?? t? 2e??t dt???? 2

??2

【4.13】试证明两连续随机变量之间的平均互信息 I ( X ;Y ) 是输入随机变量 X 的概率密度函数 p( x) 的 I 型凸函数。

证明：

p( y | x)

dxdy I ( X ;Y )???? p( x) p( y | x) log p( y) p( y | x)

dxdy ??? p( x) p( y | x) log p( x) p( y | x)dx ??

设存在 X 的两个概率密度 p1 ( x) 和 p2 ( x) ，参数 0?????? 1，目标证明：

I (?p1 ( x)???? p2 ( x))????I ( p1 ( x))????? I ( p2 ( x))

过程如下：

?I ( p1 ( x))????? I ( p2 ( x))?? I (?p1 ( x)???? p2 ( x)) ????? p1 ( x) p( y | x) log p( y | x)

dxdy?????? p2 ( x) p( y | x) log p1 ( y) p( y | x)

??? p( x) p( y | x) log p( y) dxdy

p( y) p( y)

dxdy ????? p1 ( x) p( y | x) log dxdy?????? p2 ( x) p( y | x) log p1 ( y) p2 ( y) 而

p( y)

? p1 ( x) p( y | x) log p ( y) dxdy 1

p( y) ??? p1 ( x, y) log p1 ( y) p( y) ? log?? p1 ( x, y) p1 ( y)

dxdy dxdy

p( y | x)

dxdy p2 ( y)

p( y) 同理，?? p2 ( x) p( y | x) log p2 ( y) dxdy?? 0 ，因此有

? log?? p1 ( x | y) p( y)dxdy ? 0

I (?p1 ( x)???? p2 ( x))????I ( p1 ( x))????? I ( p2 ( x))

（1）充分性。

p( y1 y2 L yN | x1x2 L xN )

? p( y1 | x1 x2 L xN ) p( y2 | x1x2 L xN y1 )L p( y N | x1 x2 L xN y1 y2 L y N??1 )

证明：

p( y | x)???? p( yi | xi ) i?1 N

【4.14】试证明多维连续无记忆信道的充要条件为

而

p( x1 x2 L xN y1 y2 L y N??1 yN ) p( y N | x1 x2 L xN y1 y2 L yN??1 )???p( x1x2 L xN y1 y2 L y N??1 ) ??p( y1 y2 L yN??1 y N | x1 x2 L xN ) p( y1 y2 L y N??1 | x1x2 L xN ) N

? p( y i | xi ) i?1

?? L y N??1 y N | x1 x2 L xN )dy N 1 2 ? p( y y N N

? p( y i | xi ) i | xi ) ? p( y

i?1 ??N i?1 ??N??1

p( y i | xi )dy N p( y i | xi ) ????i?1

i?1

? p( y N | xN )

p( y N??1 | x1x2 L xN y1 y2 L yN??2 )?? p( y N??1 | xN??1 )

……

同理

p( y2 | x1x2 L xN y1 )?? p( y2 | x2 )

p( y1 | x1 x2 L xN )?? p( y1 | x1 )