谷歌TPU3.0深度揭秘,它的神奇之处是什么

电子工程师 2018-09-09 6637

控制/MCU

1883人已加入

描述

在今年的年度 I/O 大会上，谷歌给人留下深刻印象。它不仅推出了一系列基于 TPUv2 芯片的云计算TPU 实例的基准测试，还透露了一些有关其下一代 TPU 芯片即 TPU3.0，以及其系统架构的简单细节。TIRIAS Research 的顶尖技术专家和首席分析师 Paul Teich 近日在 nextplatform 发文，对谷歌 TPU3.0 进行了深度揭秘。

谷歌将 TPUv2 版本升级为 TPU 3.0，但讽刺的是，据我们所知的种种细节表明，从 TPUv2 到 TPU3.0（下文称之为 TPUv3）的跨度并没有那么大；或许称其为 TPUv2r5 或类似的东西会更合适。

如果你对 TPUv2 还不太熟悉，可以了解一下我们去年所做的关于 TPUv2 的评测来增加这方面的知识结构。我们使用谷歌对云 TPU（Cloud TPU）的定义，云 TPU 是一块包含四个 TPU 芯片的主板。谷歌目前的云 TPU 测试程序只允许用户访问单个云 TPU。除了其内部开发人员，其他人无法以任何方式将云 TPU 联合使用。去年我们了解到，谷歌已经在其TensorFlow深度学习（DL）框架下抽取出云 TPU。除了谷歌内部的TensorFlow 开发团队和 Google Cloud 之外，没有人可以直接访问云 TPU 硬件，可能永远也不能。

我们还认为，谷歌已经资助了一项庞大的软件工程和优化工作，以实现其当前测试云 TPU 的部署。这促使谷歌在 TPUv3 中尽可能多地保留 TPUv2 的系统接口和行为，即硬件抽象层和应用程序编程接口（API）。关于何时提供 TPUv3 服务、将其置于云 TPU 或多机架 pod 配置中，谷歌没有提供任何信息。它的确展示了基于 TPUv3 的云 TPU 板的照片和一些 pod 照片，并作出以下声明：

TPUv3 芯片运行温度非常高，以致谷歌首次在其数据中心引入液体冷却技术

每个 TPUv3 pod 的功率将是 TPUv2 pod 的八倍

每个 TPUv3 pod 性能将为每秒钟运算 100 多千万亿次（petaflops）

不过，谷歌也重申，TPUv2 pod 的时钟频率为 11.5 千万亿次每秒。8 倍的改进应该会使 TPUv3 pod 的基本频率达到 92.2 千万亿次，但 100 千万亿次的运算意味着这几乎是 TPUv2 的 9 倍了。谷歌的营销人员应该四舍五入取整了，所以这个数字可能不太准确。

POD

从 TPUv3 pod 的两张完整照片中可以明显看出，谷歌的下一代产品已经升级：

每个 pod 的机架数量是原来的两倍。

每个机架的云 TPU 数量是原来的两倍

如果没有其他变化，光这两点足以使 TPUv2 pod 的性能提高 4 倍。

pod：TPUv2（上）和 TPUv3（下）

机架

TPUv3 pod 机架的间隔比 TPUv2 机架的间隔更小。但是，与 TPUv2 pod 一样，TPUv3 pod 中仍然没有明显的储存组件。TPUv3 的机架也更高，以适应添加的水冷装置。

机架：TPUv2（左）和 TPUv3（右）

谷歌将不间断电源从 TPUv2 机架底部移到 TPUv3 机架顶部。我们假设现在机架底部的大体积金属盒中包含水泵或其他水冷相关装置。

TPUv2 机架顶部、底部（左）和 TPUv3 机架顶部（右）

现代超大规模数据中心不使用活动地板。谷歌的机架在加水之前就很重了，所以它们被直接置于混凝土板上，水从机架顶部进出。谷歌的数据中心有很多高架空间，如 TPUv3 pod 的照片所示。然而，悬挂重水管道和确定路径一定是额外的操作挑战。

TPUv3 的水连接（左上）、水泵（左下，猜测）和机架上的数据中心基础架构（右）

注意地板上机架前的绞合线，就在机架底部的大金属盒前面，可能是湿度传感器。

架子和主板

谷歌不仅将计算机架密度提高了一倍，还将服务器主板与云 TPU 的比率从一对一降到了一对二。这将影响功耗估计，因为 TPUv3 pod 的服务器和云 TPU 将从同一机架电源中获取电力。

谷歌将当前云 TPU beta 实例所使用的服务器主板作为计算引擎 n1-standard-2 实例计入其云平台公共云中，该云平台公共云具有两个虚拟 CPU 和 7.5 GB 内存。我们认为这很可能是一款主流双插槽 X86 服务器。

回想一下，TPUv2 pod 包含 256 个 TPUv2 芯片和 128 个服务器处理器。TPUv3 pod 将使服务器处理器增加一倍，TPU 芯片数增加三倍。

我们认为谷歌在其 TPUv2 pod 中过度调配了服务器。这对于新的芯片和系统架构来说是可以理解的。在对 pod 软件进行了至少一年的调整并对芯片进行了一次小的修订以后，把服务器的数量减少一半对 pod 性能的影响可能微不足道。其中可能有诸多原因，或许是服务器没有计算或带宽限制，又或者谷歌可能部署了新一代具有更多核的IntelXeon 或 AMD Epyc 处理器。

通过将服务器主板集成到云 TPU 机架中，谷歌可以用相同的机架配置使机架数量增加一倍。在一个机架上标准化配置必然有助于降低硬件部署的成本和复杂性。

电脑架：TPUv2（左）和 TPUv3（右）

但是，为了实现更高的密度，谷歌必须从 4U 云 TPU 外形规格转变为 2U 高密度外形规格。其数据中心温度很高（公布的数据在 80°F 到 95°F 之间），因此 TPUv2 风冷散热器必须很大。谷歌使用开放式机架，所以利用风来冷却密集外形规格的热插槽变得非常昂贵，使得水冷成为可行的替代方案。特别是对于像深度学习这样的高价值服务。

将服务器主板转移到 TPUv3 机架中还会缩短连接电缆，因此我们一般认为谷歌节省了大量电缆成本，并除去了 TPUv2 Pod 服务器机架中的闲置空间。

计算机架特写：TPUv2（顶部）和 TPUv3（底部）

谷歌没有展示主板与机架水互连的照片。

打开APP阅读更多精彩内容