您现在的位置：Fun书 > 深入理解并行编程

深入理解并行编程

作　　者：[美]Paul E.Mckenney（保罗·E·麦肯尼）

译　　者：谢宝友鲁阳

出版社：电子工业出版社

出版时间：2017年07月

定　　价：129.00

I S B N ：9787121315084

所属分类：专业科技 > 计算机/网络 > 程序设计

购买这本书可以去

价格报错

标　　签：编程语言与程序设计计算机?网络

TOP好评推荐 [展开]

　　在我所看过的各种关于操作系统概念和并行编程的书籍中，我对Paul的书评价至高，它不是对学术方法的简单罗列，而是对现代硬件上运行并行系统的各种现实世界问题和面临挑战的细致分析，这一切都源于Paul在这一领域的丰富经验和巨大的贡献。

　　——OpersysCEO，《EmbeddedAndroid》作者KarimYaghmour

　　并行编程很难，但阅读Paul的书是掌握并行编程至简单的（当然也是至有趣的）办法之一！

　　——Linux内核x86、sched和rt-patches分支的维护者IngoMolnar

　　编程的至高无上境界是毫不费力地驯服CPU。你正在阅读的是关于各任务在CPU进行战争的伟大著作，一旦你开始翻阅，再多的编程挑战也不用怕！

　　——Linux内核防火墙ipchains和iptables的作者，网络货币prettycoin的作者RustyRussell

　　对程序员而言，想要了解并行编程中涉及的问题，以及如何正确解决这些问题，本书是不可或缺的。

　　——《Linux内核驱动》作者，Linux内核stable分支和其他大量分支的维护者GregKroah-Hartman

　　这是一本每个并行编程专业人员案头必备的参考书，浓缩了作者在该领域数十年的丰富实践经验。它也是一本学习并行编程的优秀教材，在涵盖主题的广度和深度方面表现优异。极具吸引力的写作风格使得本书的阅读成为非常愉快的体验。

　　——Facebook资深工程师，危险指针和无锁内存分配器的发明者MagedM.Micheal

　　Linux内核社区里高手云集，并且里面的人经常个性鲜明，以至于有很多人认为内核社区很不友好。但Paul是一个特别亲切、友善和耐心的人，不管是在内核邮件列表里还是面对面交流时。而这本书也体现了Paul的这些品质，他以至详尽易懂的方式解释并行编程方方面面的知识。这不表示这本书看起来很轻松，因为并行编程本身就很难。但真正有用的知识大概都没能够轻松获得。

　　——Linux内核cgroups和cpuset分支的维护者，华为Linux内核高级工程师李泽帆

　　刚看到书名时我在想，并行编程这样一个在计算机领域“古老”且成熟的话题还有什么值得多写的。翻看几页目录后便改变了想法。

　　该书从并行编程问题的历史背景讲起，一步步引入问题的挑战并带读者游历硬件与软件交互的发展，至后阐述当下并行编程的复杂性。

　　本书囊括所有系统编程的要素，不仅仅是概念层面的解释，更重要的是深入分析了每个要素存在的必要性及底层原理。对于喜欢钻研的同学或是在业界工作的工程师甚至架构师都是非常好的学习资源。

　　尽管我在业界有多年的开发设计经验，依然从书中学到很多实用的知识。作者PaulE.McKenney用深入浅出地方式将自己在并行编程领域数十年的经验归纳在这五百多页中。译者谢宝友和鲁阳在系统编程上有着扎实的功底，用流畅的语言将本书翻译给广大国内读者。这是一本难得的技术好书！

　　——VoltDB研发部总监石宁

　　并行编程并没有那么难，如果你花点时间在这本书和它里面的小问题上的话。

　　——Linux内核RCU代码贡献者冯博群

　　Paul是Linux了不起的黑客，也是Linux社区RCU模块的领导者和维护者。他的著作《IsParallelProgrammingHard,And,IfSo,WhatCanYouDoAboutIt?》首版在9年前就发布了。本书主要陈述了在适应多核硬件下提升并行软件的扩展性，避免由于锁竞争所引起的产品性能急剧下降，以及开展多核系统的设计、优化工作。

　　Paul所维护的RCU模块在Linuxkernel各个子系统中被大量应用，是保障kernel扩展性的基础技术，没有RCU就没有Linux现在优秀的多核性能和扩展性；在并行计算方面，Paul对于锁、RCU、SMP、NUMA、内存屏障等并行技术有深刻的了解，兼具近20年解决问题的实践经验。中兴同仁翻译此书，对于提升我国开源系统软件的设计水平和开发高端产品，均有重大意义。

　　——中国开源软件推进联盟主席陆首群

　　宝友的“自学成才”路径一直很让我印象深刻，贡献及收获在中兴这样一个正规军遍布的大型通讯上市企业，并通过一年的努力帮助中兴在开源社区提升代码贡献率和质量，又再次让我竖起大拇指！不忘初心的工程师梦想、学术上的坚持，以及职业生涯中的成就，宝友身上的这些闪光的品质都是怀揣梦想的年轻一代工程师们学习的榜样。

　　——Linaro全球执行副总裁大中华区总经理郭晶

　　在多核处理器已经成为主流计算架构的今天，理解和掌握并行编程技术，对于相关软件开发人员来说至关重要。《深入理解并行编程》一书系统讲述了并行计算的要点和难点，堪称经典，是入门和学习并行编程的不二推荐。

　　——LinuxIMX平台维护者ShawnGuo

　　这本书举重若轻地将并行编程涉及的软、硬件各个方面的基本原理透彻地呈现在读者面前，相信读者研读和实践后可以对并行编程有疱丁解牛之感。

　　——Linaro资深内核工程师聂军

　　《深入理解并行编程》全方面讲述了高速缓存、内存屏障、锁、RCU、并发性、实时性等知识，如同少林寺的“洗髓经”，是迈向“武林高手”的必修内功，值得对并行编程感兴趣的计算机从业者、尤其是操作系统底层软件从业者细读。

　　——RedHat资深Linux内核工程师庞训磊

　　并行编程一直是程序设计的难题，这个难题来源于硬件系统，也来源于人类本身的思维模式。人类的思考模式是线性的，很难做到一心二用，很难在程序设计的过程中自如处理并行化的算法和结构。

　　此外，并行编程的作用越来越大，AI的涌现和大数据对计算量的要求导致GPU、FPGA及ASIC之类异构计算的兴起。这些异构计算都以并行计算为根基，并行计算很可能成为计算领域的下一个风口。

　　本书探讨了并行计算的根源。从硬件、锁机制、数据分割和RCU等多个方面，对并行计算的本质和如何应用做了很多分析工作，对读者理解并行计算和提高对并行计算的掌控力有很大的帮助。

　　——腾讯高级技术专家高剑林

TOP内容简介

　　《深入理解并行编程》首先以霍金提出的两个理论物理限制为引子，解释了多核并行计算兴起的原因，并从硬件的角度阐述并行编程的难题。接着，《深入理解并行编程》以常见的计数器为例，探讨其不同的实现方法及适用场景。在这些实现方法中，除了介绍常见的锁以外，《深入理解并行编程》还重点介绍了RCU的使用及其原理，以及实现RCU的基础：内存屏障。最后，《深入理解并行编程》还介绍了并行软件的验证，以及并行实时计算等内容。

　　《深入理解并行编程》适合于对并行编程有兴趣的大学生、研究生，以及需要对项目进行深度性能优化的软硬件工程师，特别值得一提的是，《深入理解并行编程》对操作系统内核工程师也很有价值。

TOP目录

第1章如何使用本书1

1.1 路线图1

1.2 小问题2

1.3除本书之外的选择3

1.4 示例源代码4

1.5 这本书属于谁4

第2章简介6

2.1 导致并行编程困难的历史原因6

2.2 并行编程的目标7

2.2.1 性能8

2.2.2 生产率9

2.2.3 通用性9

2.3 并行编程的替代方案11

2.3.1 串行应用的多个实例11

2.3.2 使用现有的并行软件11

2.3.3 性能优化12

2.4 是什么使并行编程变得复杂12

2.4.1 分割任务13

2.4.2 并行访问控制13

2.4.3 资源分割和复制14

2.4.4 与硬件的交互14

2.4.5 组合使用14

2.4.6 语言和环境如何支持这些任务14

2.5 本章的讨论15

第3章硬件和它的习惯16

3.1 概述16

3.1.1 流水线CPU16

3.1.2 内存引用17

3.1.3 原子操作18

3.1.4 内存屏障19

3.1.5 高速缓存未命中19

3.1.6 I/O操作19

3.2 开销20

3.2.1 硬件体系结构20

3.2.2 操作的开销21

3.3 硬件的免费午餐23

3.3.1 3D集成23

3.3.2 新材料和新工艺24

3.3.3 是光，不是电子24

3.3.4 专用加速器24

3.3.5 现有的并行软件25

3.4 对软件设计的启示25

第4章办事的家伙27

4.1 脚本语言27

4.2 POSIX多进程28

4.2.1 POSIX进程创建和销毁28

4.2.2 POSIX线程创建和销毁30

4.2.3 POSIX锁31

4.2.4 POSIX读/写锁34

4.3 原子操作37

4.4 Linux内核中类似POSIX的操作38

4.5 如何选择趁手的工具39

第5章计数40

5.1 为什么并发计数不可小看41

5.2 统计计数器42

5.2.1 设计43

5.2.2 基于数组的实现43

5.2.3 最终结果一致的实现44

5.2.4 基于每线程变量的实现46

5.2.5 本节讨论48

5.3 近似上限计数器48

5.3.1 设计48

5.3.2 简单的上限计数实现50

5.3.3 关于简单上限计数的讨论55

5.3.4 近似上限计数器的实现55

5.3.5 关于近似上限计数器的讨论55

5.4 精确上限计数56

5.4.1 原子上限计数的实现56

5.4.2 关于原子上限计数的讨论62

5.4.3 Signal-Theft上限计数的设计62

5.4.4 Signal-Theft上限计数的实现63

5.4.5 关于Signal-Theft上限计数的讨论68

5.5 特殊场合的并行计数68

5.6 关于并行计数的讨论69

5.6.1 并行计数的性能70

5.6.2 并行计数的专门化71

5.6.3 从并行计数中学到什么71

第6章对分割和同步的设计73

6.1 分割练习73

6.1.1 哲学家就餐问题73

6.1.2 双端队列75

6.1.3 关于分割问题示例的讨论81

6.2 设计准则82

6.3 同步粒度83

6.3.1 串行程序84

6.3.2 代码锁85

6.3.3 数据锁86

6.3.4 数据所有权88

6.3.5 锁粒度与性能88

6.4 并行快速路径90

6.4.1 读/写锁91

6.4.2 层次锁91

6.4.3 资源分配器缓存92

6.5 分割之外97

6.5.1 使用工作队列的迷宫问题并行解法97

6.5.2 另一种迷宫问题的并行解法100

6.5.3 性能比较I102

6.5.4 另一种迷宫问题的串行解法104

6.5.5 性能比较II104

6.5.6 未来展望与本节总结105

6.6 分割、并行化与优化106

第7章锁107

7.1 努力活着108

7.1.1 死锁108

7.1.2 活锁与饥饿114

7.1.3 不公平的锁116

7.1.4 低效率的锁117

7.2 锁的类型117

7.2.1 互斥锁117

7.2.2 读/写锁118

7.2.3 读/写锁之外118

7.2.4 范围锁119

7.3 锁在实现中的问题121

7.3.1 基于原子交换的互斥锁实现示例121

7.3.2 互斥锁的其他实现122

7.4 基于锁的存在保证124

7.5 锁：是英雄还是恶棍125

7.5.1 应用程序中的锁：英雄125

7.5.2 并行库中的锁：只是一个工具126

7.5.3 并行化串行库时的锁：恶棍128

7.6 总结130

第8章数据所有权131

8.1 多进程131

8.2 部分数据所有权和pthread线程库132

8.3 函数输送132

8.4 指派线程132

8.5 私有化133

8.6 数据所有权的其他用途133

第9章延后处理134

9.1 引用计数134

9.1.1 各种引用计数的实现135

9.1.2 危险指针140

9.1.3 支持引用计数的Linux原语141

9.1.4 计数优化142

9.2 顺序锁142

9.3 读-复制-修改（RCU）145

9.3.1 RCU介绍145

9.3.2 RCU基础147

9.3.3 RCU用法155

9.3.4 Linux内核中的RCU API166

9.3.5 “玩具式”的RCU实现171

9.3.6 RCU练习188

9.4 如何选择？188

9.5 更新端怎么办190

第10章数据结构191

10.1 从例子入手191

10.2 可分割的数据结构192

10.2.1 哈希表的设计192

10.2.2 哈希表的实现192

10.2.3 哈希表的性能195

10.3 读侧重的数据结构197

10.3.1 受RCU保护的哈希表的实现197

10.3.2 受RCU保护的哈希表的性能199

10.3.3 对受RCU保护的哈希表的讨论201

10.4 不可分割的数据结构201

10.4.1 可扩展哈希表的设计202

10.4.2 可扩展哈希表的实现203

10.4.3 可扩展哈希表的讨论210

10.4.4 其他可扩展的哈希表211

10.5 其他数据结构214

10.6 微优化214

10.6.1 实例化215

10.6.2 比特与字节215

10.6.3 硬件层面的考虑216

10.7 总结217

第11章验证218

11.1 简介218

11.1.1 BUG来自于何处218

11.1.2 所需的心态220

11.1.3 应该何时开始验证221

11.1.4 开源之路221

11.2 跟踪222

11.3 断言223

11.4 静态分析224

11.5 代码走查224

11.5.1 审查224

11.5.2 走查225

11.5.3 自查225

11.6 几率及海森堡BUG227

11.6.1 离散测试统计228

11.6.2 滥用离散测试统计229

11.6.3 持续测试统计229

11.6.4 定位海森堡BUG232

11.7 性能评估235

11.7.1 性能基准236

11.7.2 剖析236

11.7.3 差分分析237

11.7.4 微基准237

11.7.5 隔离237

11.7.6 检测干扰238

11.8 总结242

第12章形式验证244

12.1 通用目的的状态空间搜索244

12.1.1 Promela和Spin244

12.1.2 如何使用 Promela249

12.1.3 Promela 示例: 锁251

12.1.4 Promela 示例: QRCU254

12.1.5 Promela初试牛刀：dynticks和可抢占RCU260

12.1.6 验证可抢占RCU和dynticks264

12.2 特定目的的状态空间搜索288

12.2.1 解析Litmus测试289

12.2.2 Litmus测试意味着什么290

12.2.3 运行Litmus测试291

12.2.4 PPCMEM讨论292

12.3 公理方法293

12.4 SAT求解器294

12.5 总结295

第13章综合应用296

13.1 计数难题296

13.1.1 对更新进行计数296

13.1.2 对查找进行计数296

13.2 使用RCU拯救并行软件性能297

13.2.1 RCU和基于每CPU变量的统计计数297

13.2.2 RCU及可插拔I/O设备的计数器300

13.2.3 数组及长度300

13.2.4 相关联的字段301

13.3 散列难题302

13.3.1 相关联的数据元素302

13.3.2 更新友好的哈希表遍历303

第14章高级同步304

14.1 避免锁304

14.2 内存屏障304

14.2.1 内存序及内存屏障305

14.2.2 如果B在A后面，并且C在B后面，为什么C不在A后面306

14.2.3 变量可以拥有多个值307

14.2.4 能信任什么东西308

14.2.5 锁实现回顾312

14.2.6 一些简单的规则313

14.2.7 抽象内存访问模型314

14.2.8 设备操作315

14.2.9 保证315

14.2.10 什么是内存屏障316

14.2.11 锁约束325

14.2.12 内存屏障示例326

14.2.13 CPU缓存的影响328

14.2.14 哪里需要内存屏障329

14.3 非阻塞同步329

14.3.1 简单NBS330

14.3.2 NBS讨论331

第15章并行实时计算332

15.1 什么是实时计算332

15.1.1 软实时332

15.1.2 硬实时333

15.1.3 现实世界的实时334

15.2 谁需要实时计算336

15.3 谁需要并行实时计算337

15.4 实现并行实时系统337

15.4.1 实现并行实时操作系统339

15.4.2 实现并行实时应用349

15.5 实时VS.快速：如何选择351

第16章易于使用353

16.1 简单是什么353

16.2 API设计的Rusty准则353

16.3 修整Mandelbrot集合354

第17章未来的冲突357

17.1 曾经的CPU技术不代表未来357

17.1.1 单处理器Uber Alles358

17.1.2 多线程Mania359

17.1.3 更多类似的场景359

17.1.4 撞上内存墙359

17.2 事务内存360

17.2.1 外部世界361

17.2.2 进程修改364

17.2.3 同步367

17.2.4 讨论370

17.3 硬件事务内存371

17.3.1 HTM与锁相比的优势372

17.3.2 HTM与锁相比的劣势373

17.3.3 HTM与增强后的锁机制相比的劣势379

17.3.4 HTM最适合的场合380

17.3.5 潜在的搅局者380

17.3.6 结论382

17.4 并行函数式编程383

附录A 重要问题385

A.1 “After”的含义是什么385

A.2 “并发”和“并行”之间的差异是什么388

A.3 现在是什么时间389

附录B 同步原语391

B.1 组织和初始化391

B.1.1 smp_init()391

B.2 线程创建、销毁及控制392

B.2.1 create_thread()392

B.2.2 smp_thread_id()392

B.2.3 for_each_thread()392

B.2.4 for_each_running_thread()392

B.2.5 wait_thread()393

B.2.6 wait_all_threads()393

B.2.7 用法示例393

B.3 锁394

B.3.1 spin_lock_init()394

B.3.2 spin_lock()394

B.3.3 spin_trylock()394

B.3.4 spin_unlock()394

B.3.5 用法示例395

B.4 每线程变量395

B.4.1 DEFINE_PER_THREAD()395

B.4.2 DECLARE_PER_THREAD()395

B.4.3 per_thread()395

B.4.4 __get_thread_var()396

B.4.5 init_per_thread()396

B.4.6 用法示例396

B.5 性能396

附录C 为什么需要内存屏障397

C.1 缓存结构397

C.2 缓存一致性协议399

C.2.1 MESI状态399

C.2.2 MESI协议消息400

C.2.3 MESI状态图400

C.2.4 MESI协议示例401

C.3 存储导致不必要的停顿402

C.3.1 存储缓冲403

C.3.2 存储转发403

C.3.3 存储缓冲区及内存屏障404

C.4 存储序列导致不必要的停顿406

C.4.1 使无效队列406

C.4.2 使无效队列及使无效应答407

C.4.3 使无效队列及内存屏障407

C.5 读和写内存屏障409

C.6 内存屏障示例410

C.6.1 乱序体系结构410

C.6.2 示例1411

C.6.3 示例2412

C.6.4 示例3412

C.7 特定的内存屏障指令413

C.7.1 Alpha414

C.7.2 AMD64417

C.7.3 ARMv7-A/R417

C.7.4 IA64418

C.7.5 PA-RISC418

C.7.6 POWER / Power PC418

C.7.7 SPARC RMO、PSO及TSO419

C.7.8 x86420

C.7.9 zSeries421

C.8 内存屏障是永恒的吗421

C.9 对硬件设计者的建议422

附录D 问题答案423

D.1 如何使用本书423

D.2 简介424

D.3 硬件和它的习惯427

D.4 办事的家伙429

D.5 计数433

D.6 对分割和同步的设计445

D.7 锁449

D.8 数据所有权455

D.9 延迟处理456

D.10 数据结构471

D.11 验证473

D.12 形式验证478

D.13 综合应用481

D.14 高级同步483

D.15 并行实时计算486

D.16 易于使用487

D.17 未来的冲突487

D.18 重要问题490

D.19 同步原语491

D.20 为什么需要内存屏障491

附录E 术语495

附录F 感谢502

F.1 评审者502

F.2 硬件提供者502

F.3 原始出处503

F.4 图表作者503

F.5 其他帮助505

TOP书摘

　　作者序

　　我希望能够说本书的诞生源于甜蜜和光明，但这无疑是个谎言。和许多需要长年坚持努力的事情一样，本书经过了大量挫折才得以诞生。

　　你看，大约10年前，在并发领域的一个行业专家小组研讨会上，我很荣幸得以提问最后一个问题。一些参会的专家长篇大论地讨论了并行编程的高难度，所以我问为什么并行编程不会在10或20年内成为司空见惯的事情。大多数小组成员一点都不喜欢这个问题。事实上，第一个小组成员试图用一个简短的回答敷衍了事，但我很容易地做了简短的反驳。无奈，他尝试给出了第二个简短回答，我也继续反驳。几轮之后，他大声喊叫：“像你这样的人应该用锤子敲敲头！”我不甘示弱地回答道：“那你可要排队才能敲得到。”

　　我不认为这种交流是特别有启发性的，相反这展示了一个毫无疑问的事实：这位“业内”专家对于并行编程一无所知。不过在场的其他听众却认为这场对话非常有启发性，尤其是那一位感谢我提出这个问题的听众，他的眼里甚至含着泪水。他像学徒一样在Sequent计算机系统公司学到了并行编程的诀窍，正如我曾经所做的那样。后来他跳槽去了另一家公司，他的新雇主开始涉足并行编程。出乎他意料之外，事情发展得并非一帆风顺。正如他所说，“我已经足足跟他们说了两年，只要你用正确的办法，这并不是很难，但他们完全不听我的话！”

　　现在，我们很容易将这个悲伤故事里面的团队作为反面教材。但是在他们的看法中，并行编程等于用你自己的智力伤害自己。除非你了解实现并行性的正确方法，否则在意识到遇到麻烦之前，你越聪明，挖的坑就越深。因此，你越聪明，并行编程看起来就越难。不仅如此，在这件事发生时，极少有人知道如何进行并行编程，这意味着大多数人刚刚开始了解到他们为自己挖的并行编程坑的深度。

　　即使如此，当这个人用哽咽的声音讲述他的故事，眼泪滑过他的脸庞时，我意识到我不得不做一些事。那就是写眼前这本书，这里面不仅仅浓缩我自己四分之一个世纪的经历，还有其他人加起来数不清几个世纪的经历。

　　我的母语是英语，英语是我唯一可以声称掌握了的语言。但幸运的是，感谢鲁阳和谢宝友所付出的巨大努力，现在中文版翻译即将面世。我希望这本书不仅可以帮助你学习我所知道的知识，从而不再需要担心并行编程，还能使你能够创建属于自己的并行编程新发现！

　　PaulE.McKenney

　　推荐序

　　读着《深入理解并行编程》的样章，我的脑海里不断地浮现出9年前的一幕幕。我在网上寻找操作系统的志同道合者，看到一个税收专业中专毕业者的自荐信，其时他已具有10年的IT行业工作经验，从事过大量手机、通信行业软件研发工作，担任过项目总监研发管理工作，在电信应用开发方面已经做得比较成功。但他对操作系统有浓厚的兴趣、执着的追求，放弃了在高层应用软件方面的既有优势，专注于操作系统的研究。离职在家，利用半年时间开发出一个嵌入式操作系统模型，计划两年内研发一款自研操作系统。有感于他的执着和热爱，我向公司争取破格录取他。我认为做一个操作系统不难，但做生态难，做商业成功难，建议他深入学习开源Linux的技术，站到巨人肩膀上，再结合操作系统团队的商业模式探索，争取把操作系统做成功。于是，他如痴如醉地研究Linux内核，在一年时间里，每天晚上坚持花三个小时以上的时间钻研《深入理解Linux内核》这本书，还将自己的读书心得笔记共享到团队论坛上，并对开源内核进行注解，分享到开源论坛上。

　　2008年正是多核架构快速发展之时，操作系统的支持参差不齐，驱动、应用开发模式不成熟，既有单态单核单进程的业务应用如何进行重构和演进，方案设计、开发联调、故障排查、系统调优又会遇到很多复杂和棘手的问题，中兴通讯操作系统团队需要支撑公司所有产品、各种CPU架构、各种复杂业务场景，团队面临着前所未有的技术和进度压力。团队成员除了在研发一线通过不断实践进行被动积累和提升外，也加强了主动的理论知识提升，阅读《深入理解并行编程》就是其中之一。令我印象非常深刻的是，多核故障往往比较随机和复杂，难以复现和理解，但以谢宝友为代表的团队成员往往可以通过阅读业务、驱动、内核代码就定位到故障根源，整理出故障逻辑，我认为这与他们的系统理论水平提升是分不开的。非常欣慰的是，我们成功地解决了这个过渡时期涌现的诸如多核内存序相关故障，利用无锁并行编程优化了系统性能。时至今日，我们团队已经从30人发展到数百人，嵌入式操作系统已全面应用于公司所有产品，在全球稳定商用，并且扩展应用到电力、铁路、汽车等领域，2016年获得了第四届中国工业大奖。

　　另一方面，站在技术的角度来看，在计算机领域，并行编程的困难是众所周知的。

　　有4、5年编程经验的读者，可能或多或少遇到过并行编程的问题，最著名的问题可能就是死锁。读者需要掌握调试死锁问题的技巧，以及避免死锁问题的编程技术。

　　喜欢深入思考的读者，在理解并解决死锁问题之后，可能还会阅读并行编程方面的书籍，进一步接触到活锁、饥饿等更有趣的并行编程问题。中兴通讯操作系统团队的同事，就曾经在开源虚拟化软件中遇到过类似的问题：虚拟机容器在互斥锁的保护下，轮询系统状态并等待状态变化。这样的轮询操作造成了进程调度不及时，系统状态迟迟不能变化。这是一个典型的活锁问题。在多核系统越来越普及的今天，类似的活锁问题更容易出现。解决这类问题，需要经验丰富的工程师，借助多种调试工具，花费不少的时间。

　　但是，并行编程仅仅与锁相关吗？

　　在摩尔定律尚未失效时，并行编程确实主要与锁紧密相关。但是，我们看看霍金向IT工程师所提出的两个难题：

　　1．有限的光速；

　　2．物质的原子特性。

　　这两个难题最终会将CPU频率的理论上限限制在10GHz以内，不可避免地使摩尔定律失效。要继续提升硬件性能，需要借助于多核扩展。

　　要充分发挥多核系统的性能，必须提升并行软件的扩展性。也就是说，并行软件需要尽量减少锁冲突，避免由于锁竞争而引起性能急剧下降。这不是一件简单的事情！我们知道，Linux操作系统在接近20年的时候内，一直受到大内核锁的困扰。为了彻底抛弃大内核锁，开源社区近几年内做出了艰辛的努力，才实现了这个目标。即使如此，Linux内核仍然大量使用不同种类的锁，并且不可能完全放弃锁的使用。

　　也许你会说，在多核系统中，有一种简单的避免锁的方法，就是原子变量。在某些架构中，原子变量是由单条指令实现的，性能“想必”不差，使用方法也简单。曾经有一位具有十多年编程经验的工程师也表达过类似的观点。在此，有两个问题需要回答。

　　1．这样的原子操作指令，其性能真的不差？它的执行周期是否可能达到上千个时钟周期？

　　2．对于多个相互之间有逻辑关联的变量，原子操作是否满足要求？

　　实际上，多核系统中的并行软件，除了常见的锁之外，还需要使用冒险指针、RCU、内存屏障这样的重量级并行编程工具。这些编程工具都属于“无锁编程”的范畴。

　　即使在Linux内核开源社区工作10年以上的资深工程师，也不一定能真正灵活自如地使用RCU、内存屏障来进行并行编程。因此，真正了解并行编程的读者，难免在面对并行编程难题时，有一种“抚襟长叹息”的感觉。

　　然而，我们知道，有很多重要的应用依赖于并行——图形渲染、密码破解、图像扫描、物理与生物过程模拟等。有一个极端的例子，在证券交易所，为了避免长距离传输引起的通信延迟（理论上，光束绕地球一周需要大概130ms），需要将分析证券交易的计算机放到更接近证券交易的地方，并且压榨出计算机的所有性能。这样，才能保证达成有利的证券交易。可以毫不夸张地说，对软件性能有苛刻需求的软件工程师和大型软件开发企业，都需要真正掌握并行编程的艺术，特别是“无锁编程”的艺术。一旦真正掌握了，它就会为你带来意想不到的性能提升。曾经有一位著名企业的高级专家，在应用了本书所述的RCU后，软件性能提升了大约10倍。

　　本书正是这样一本深入讲解多核并行编程，特别是无锁编程的好书。

　　首先，本书作者Paul具有40年软件编程职业生涯，他大部分的工作都与并行编程相关。即使在领导IBMLinux中心时，他仍然坚持每天编程，是一名真正的“工匠”。同时，作者也是Linux开源社区RCU模块的领导者和维护者。认真阅读本书后，不得不钦佩于作者在并行编程方面的真知灼见和实践能力。例如作者亲自编写了一个软件用例，来考察CPU核之间原子操作和锁的性能，得出一个结论，原子操作和锁可能消耗超过1000个CPU时钟周期；作者也编写过另外一个关于全局变量的用例，其中一个CPU核递增操作一个全局变量，同时在不同的CPU核上观察所读到的全局变量值。这个用例向读者展示了多核系统令人惊奇的、反直觉的效果；作者对内存屏障的讲解，特别是内存屏障传递性的讲解，十分深入。这些深入的内容，难得一见，非大师不能为。

　　其次，这本书也得到Linux内核社区和应用软件专家的一致推荐。这些推荐者既包括Linux社区大名鼎鼎的IngoMolnar、RustyRussel、GregKroah-Hartman、MagedM.Micheal，也包括国内活跃于社区的庞训磊、ShawnGuo等开源贡献者，还包括Linaro开源组织的领导和资深工程师，以及在BAT工作多年的高级应用软件专家。

　　第三，这本书的内容比较全面。除了介绍常见的锁以外，还重点介绍了RCU的使用及其原理，以及实现RCU的基础：内存屏障。本书最后还介绍了并行软件的验证，以及并行实时计算等内容。实际上，其中每一部分都是并行编程的宝藏。由于篇幅和难度的原因，作者在当前版本中，将RCU部分作了大幅压缩。对RCU感兴趣的读者可以阅读早期原版著作。即使如此，本书对RCU的讲解也非常深入。对于并行软件的验证，作者提出了不少独特的观点，这些观点和作者多年的编程经验息息相关，与常见的理论著作相比，有一定的新意。形式验证部分，作者以实际的例子，一步一步讲述验证过程，很明显，作者亲自动手做过这种验证。并行实时计算部分，是作者新增的内容，别具一格，值得读者细读。内存屏障部分，是本书一个难点，借助于作者在这方面的功力，需要读者反复阅读，才能真正理解。

　　第四，这本书讲解得很深入。有些语句，需要读者反复琢磨、推敲，甚至需要多次通读本书才能领会作者的意思。也许，经典书籍的阅读方法均是如此。刚刚开始接触Linux内核的读者，不太会喜欢阅读《深入理解Linux内核》一书，觉得这本书不易理解。但是，如果你愿意花一年时间，将这本书反复阅读三遍，则会有一种别样的心情。本书也是如此，建议读者在初次阅读时，不要轻易放弃。本书实为并行编程方面不可多得的好书。举两个例子：第一，5.2.2节中有一句原文是“Onewaytoprovideper-threadvariablesistoallocateanarraywithoneelementperthread(presumablycachealignedandpaddedtoavoidfalsesharing).”。译者将其翻译为“一种实现每线程变量的方法是分配一个数组，数组每个元素对应一个线程（假设已经对齐并且填充过了，这样可以防止共享出现“假共享”）”。第一次阅读本书，可能会不理解括号中那句话，有一种云里雾里的感觉。要真正理解这句话，需要读者仔细阅读本书后面关于MESI消息协议部分，参阅更多参考资料。要理解本句中“对齐”和“填充”两个词，也需要深厚的内核功底。第二，14.2.10.2节，“一个LOCK操作充当了一个单方面屏障的角色。它确保：对于系统中其他组件的角度来说，所有锁操作后面的内存操作看起来发生在锁操作之后。LOCK操作之前的内存操作可能发生在它完成之后。”这句话读起来也比较绕，难于理解，似乎也相互矛盾。实际上，读者需要琢磨“看起来”这个词，它表示其他核看到内存操作的顺序，并不代表内存操作的完成时机。

　　总之，如果你对并行编程或者操作系统内核有兴趣，或者需要对项目进行深度性能优化，我强烈推荐这本并行编程的经典好书！

　　中兴通讯操作系统产品部钟卫东

TOP 其它信息

页　　数：524

开　　本：16开