前言

2019年1月，Google Project Zero公开披露了Spectre和Meltdown漏洞的全部技术细节。消息传出的那个下午，全球每一家处理器设计公司的微架构团队都陷入了沉默——一种已经沿用了二十年的核心设计策略（推测执行）被证明存在根本性的安全缺陷。Intel紧急发布的微码补丁使部分服务器工作负载性能下降了30%。这一事件不仅暴露了处理器设计中性能与安全之间的深层矛盾，更揭示了一个被长期忽视的事实：处理器中的每一个微架构决策都不是孤立的——它们彼此耦合、相互制约，牵一发而动全身。

正是这种深层耦合，使得处理器设计成为计算机科学中最复杂、最迷人的工程挑战之一。

本书的核心视角

从第一台超标量处理器到今天的Apple M4和AMD Zen 5，处理器微架构的演进跨越了三十余年，产生了数以千计的设计方案。这些方案看似纷繁复杂，实则都可以从一个统一的视角来理解：

处理器设计的本质，是在有限的晶体管预算和功耗约束下，通过投机（speculation）和并行（parallelism）的层层叠加，来逼近指令吞吐率的理论上限。每一个微架构结构都是这个多维优化问题中的一个权衡点，而理解这些权衡点之间的相互耦合，才是处理器架构师的核心能力。

这一视角贯穿全书。分支预测是对控制流的投机，它允许处理器在确认分支结果之前继续取指——但投机的代价是错误恢复的流水线清空（第 13.0 章 $\sim$ 第 17.0 章）。寄存器重命名通过消除名字相关性来释放指令级并行——但更多的物理寄存器意味着更大的寄存器堆面积和更长的访问延迟（第 24.0 章 $\sim$ 第 26.0 章）。Cache预取是对数据访问模式的投机——预取正确时隐藏了内存延迟，预取错误时污染了Cache并浪费了带宽（第 7.0 章）。超标量执行是并行的最直接体现——更宽的发射意味着更高的IPC上限，但旁路网络的复杂度以 $O(N^2)$ 增长，物理设计迅速变得不可行（第 34.0 章 $\sim$ 第 35.0 章）。

投机和并行不是免费的。每一层投机都需要恢复机制（第 39.0 章），每一层并行都需要仲裁和同步（第 29.0 章）。而晶体管预算和功耗约束（第 3.0 章、第 49.0 章）决定了投机和并行的上限——超过这个上限，增加的硬件复杂度所带来的边际收益将被功耗墙和频率墙吞噬。理解这个多维权衡空间的拓扑结构——哪些权衡是凸的（有明确最优点）、哪些是非凸的（存在多个局部最优）、哪些权衡之间存在耦合——正是本书试图传递的核心能力。

与《超标量处理器设计》的关系

姚永斌先生所著的《超标量处理器设计》是国内处理器微架构领域的开创性著作，为一代处理器设计工程师和研究者提供了宝贵的知识基础。本书以该经典著作的框架为起点，面向2030年代的处理器设计实践，在以下维度进行了全面的扩展与深化：

多架构视角：不再局限于单一ISA，而是同时从x86-64、AArch64和RISC-V三大主流架构的角度分析微架构设计问题，帮助读者理解ISA选择对硬件实现的深层影响。
专家级深度：每个主题都深入到RTL设计层面的权衡分析，包含真实处理器的案例研究（Intel Core、AMD Zen、ARM Cortex-X、Apple M系列、香山等），并提供定量的PPA（性能-功耗-面积）分析。书中大量追踪开源处理器（如香山昆明湖）的RTL代码，将"教科书知识"与"工程实现"紧密结合。
前沿技术覆盖：涵盖TAGE-SC分支预测、CXL内存扩展、UCIe Chiplet互连、处理器安全架构、AI加速器集成等2020年代的关键技术进展。
设计权衡导向：每个设计方案都伴随"为什么不用X"的替代方案分析，帮助读者建立真正的架构直觉——不仅理解最终方案是什么，更理解设计空间中其他方案为什么不可行。
工程实践环境：每章包含硬件描述框、性能分析框、设计权衡框和案例研究等专业环境，以及面向实际设计的习题。

读者对象

本书面向以下读者，并为不同背景提供了多条阅读路径：

处理器设计工程师与架构师——本书的主要目标读者
计算机体系结构方向的研究生与博士生
芯片设计公司的技术管理者
对处理器内部工作原理有深入兴趣的高级工程师

阅读路径推荐

全书八篇五十五章涵盖了从指令集架构到芯片系统级集成的完整知识体系。根据读者的背景和目标，推荐以下阅读路径：

路径A：超标量核心设计（处理器核心团队）

第一篇（ch1 $\sim$ 4） $\to$ 第三篇（ch13 $\sim$ 17） $\to$ 第四篇（ch18 $\sim$ 23） $\to$ 第五篇（ch24 $\sim$ 39） $\to$ ch40 $\sim$ 44（案例研究）。这条路径聚焦于超标量处理器的核心流水线设计，从取指到提交的完整数据通路。

路径B：存储系统设计（Cache/内存团队）

第一篇（ch1 $\sim$ 4） $\to$ 第二篇（ch5 $\sim$ 12） $\to$ ch36 $\sim$ 37（存储指令与一致性模型） $\to$ 第七篇（ch45 $\sim$ 48） $\to$ ch53（CXL）。这条路径覆盖从L1 Cache到DRAM的完整存储层次设计。

路径C：SoC架构设计（系统架构师）

第一篇（ch1 $\sim$ 4） $\to$ ch03（工艺约束） $\to$ ch45 $\sim$ 48（多核/互连/内存） $\to$ 第八篇（ch49 $\sim$ 55）。这条路径关注芯片级的架构决策——多核拓扑、功耗管理、安全、Chiplet和AI加速。

路径D：快速入门（研究生第一遍通读）

ch01 $\to$ ch02 $\to$ ch05 $\to$ ch09 $\to$ ch13 $\to$ ch15 $\to$ ch18 $\to$ ch22 $\to$ ch24 $\to$ ch27 $\to$ ch29 $\to$ ch38 $\to$ ch40 $\to$ ch41。这条精简路径选取每篇最核心的章节，帮助读者在最短时间内建立完整的处理器设计知识框架，之后再按需深入各篇的其他章节。

全书结构

全书分为八篇：

第一篇"超标量处理器基础"（ch1 $\sim$ 4）建立全书的理论框架——从性能公式出发，讨论超标量流水线的结构与深度/宽度选择，分析半导体工艺对微架构的物理约束，并介绍处理器设计的方法论。这一篇是后续所有篇章的基础，建议所有读者首先阅读。

第二篇"Cache与存储层次"（ch5 $\sim$ 12）系统地讨论从SRAM位单元到虚拟化地址转换的完整存储体系。在本书的统一视角下，Cache是对数据访问局部性的投机，预取是对未来访问的投机，而多级存储层次本身就是一种空间并行——用小而快的存储近似无限大而快的理想存储。

第三篇"分支预测"（ch13 $\sim$ 17）是处理器设计中投机思想的最纯粹体现。从2位饱和计数器到TAGE-SC-L，分支预测器的演进史就是一部将信息论、统计学和机器学习应用于微架构的历史。

第四篇"指令集与解码"（ch18 $\sim$ 23）分析RISC-V、AArch64和x86三大指令集对微架构设计的深层影响。ISA是硬件和软件之间的契约，这个契约的每一个条款都在约束着微架构的设计空间。

第五篇"乱序执行引擎"（ch24 $\sim$ 39）是全书的技术核心，系统地讨论寄存器重命名、发射队列、仲裁唤醒、功能单元、旁路网络、存储操作和提交恢复——这是并行思想在指令级的全面展开。

第六篇"真实世界的处理器"（ch40 $\sim$ 44）通过深入分析Alpha 21264、Intel Core、AMD Zen、ARM Cortex-X和RISC-V高性能处理器的微架构，将前五篇的理论知识与工程实践紧密结合。

第七篇"多核与存储系统"（ch45 $\sim$ 48）将视角从单核扩展到多核——同时多线程、大小核异构、片上互连和内存控制器，展示并行如何从指令级扩展到线程级和核心级。

第八篇"先进处理器发展"（ch49 $\sim$ 55）覆盖功耗管理、处理器安全、SoC集成、CXL互连、AI加速器和面向2030的技术展望——处理器设计不再只是性能优化，而是在性能、功耗、安全和成本之间寻找多目标帕累托最优。

由于篇幅浩大、内容广泛，书中难免存在疏漏之处，恳请读者批评指正。

编者
2026年于中国

前言 ​

本书的核心视角 ​

与《超标量处理器设计》的关系 ​

读者对象 ​

阅读路径推荐 ​

全书结构 ​

前言

本书的核心视角

与《超标量处理器设计》的关系

读者对象

阅读路径推荐

全书结构