互联设备和云计算的高速发展推动全球数据以指数级速度增长。数据规模的不断扩大对产品和数据中心基础设施的质量、可靠性和可用性也提出了更高的要求。这里所说的“质量”是指系统在设定好的情况下能够正确运行;“可靠性”是指系统在规定时间内、规定条件下能够执行所需功能;而“可用性”则指系统在不中断的情况下能够按照规格持续运行。
英特尔一直深耕工具与方法,只为让英特尔 至强 处理器能为客户带来优质体验。本文概述了英特尔 至强 处理器的生命周期,以及英特尔如何在下图所示的以下各个开发阶段确保出色的质量。
质量源于设计 前期测试与扩展测试 自信制造 客户部署与支持
01
质量源于设计
面向质量的设计
英特尔在设计过程中的每一步举措都以质量为先。设计过程始于成体系的处理器设计方法和严谨的产品定义。英特尔 至强 处理器的出色功能体现在 CPU 芯片架构、微架构、固件和系统软件堆栈设计的方方面面。这包括在设计过程中就优先考虑可靠性、可用性和可维护性 (RAS) 功能和方法。
服务器质量不仅仅局限于 CPU 的构建。整个平台的各部分会相互作用,影响数据中心服务的连续性,最终影响客户体验。例如,服务器十分依赖动态随机存取内存 (DRAM),将其作为实现速度和成本效益的主要内存资源。DRAM 故障会导致计算错误,而这种错误在服务器崩溃之前很可能不会被察觉。
为了提高质量,减少可能因内存错误而导致的服务器崩溃,从第三代英特尔 至强 处理器开始,英特尔就实施了一系列增强措施。英特尔 至强处理器还提供独特的 RAS 功能,通过检测和纠正输出数据错误自动查找和修复软性内存错误,帮助保护数据。这方面的更多详情,请参阅“Improving Server Uptime in the Data Center(延长数据中心服务器的正常运行时间)”解决方案简介。
02
前期测试与扩展测试
逻辑验证
芯片的流片前验证是一系列工程流程,用于确定正在开发的产品是否符合所需的规格。此外,流片前模拟和仿真也让芯片实物在被制造出来之前就有机会运行软件和固件。这就开启了产品生命周期前期的质量优化流程。在流片前阶段,我们会用一个强大的测试套件对英特尔 至强 处理器进行模拟测试,以便及早发现并解决芯片中可能存在的问题。为了提高平台稳定性,我们也会使用多种环境和配置。
英特尔拥有一套定制化的机器学习技术,在流片前和流片后阶段均可用于优化模型的有限运行时间,并突出那些难以评估的设计区域。这套技术综合利用软硬件反馈来指导测试。开发阶段的芯片测试大大降低了英特尔 至强 处理器整个生命周期内的出错率。
平台验证
组件集成到系统平台中后就需要进行验证,确保最终平台的功能和性能能够满足用户期望。如今的数据中心平台集成了一套复杂的软硬件组件,用于满足各种不同需求,涉及从数据存储到复杂人工智能 (AI) 算法等用例,需要优秀的计算性能和高带宽内存来执行高频计算。
平台的综合验证需要协调机械、散热、电气和软件各个领域。由于某个特定平台是由数百个组件组成的,因此必须对每个组件(无论其成本或复杂程度如何)进行优化,才能确保最终平台的高效运行。这些组件的种类不一而足,可能是低成本的电容器,也可能是昂贵的内存模块。平台验证的任务就是要确保所有系统组件都能正确地相互配合运作,从而实现最初设计的功能。
平台验证涉及三个主要方面: 1互操作性:确保平台组件可无缝协作。2工作负载:使用具有代表性的客户内容或工作负载进行测试。3环境:利用平台实际运行的环境条件开展测试。
如果这三个主要方面的测试结果都没有问题,就更有助于确保平台能提供客户所期望的基于英特尔 至强处理器系统的性能、功能、可靠性和体验。
大规模集群验证
除了组件和平台验证,还需要进行大规模集群验证。这是为了模拟真实的客户环境。英特尔使用具有代表性的工作负载来验证不同的客户使用场景。此外,英特尔还开发并使用设备群服务,包括升级、维护、编排、遥测和数据分析,这些与云服务提供商服务提供的服务类似。此举有助于确保客户能够顺利引进英特尔 至强 处理器。大规模集群验证还有助于检测高平均故障间隔 (MTBF) 和边际性故障,因为这些故障往往难以检测,传统验证方法可能检测不出。
03
自信制造
制造测试流程
英特尔在制造过程的不同阶段采用了一套完整的技术,以交付可满足严苛质量和可靠性目标的产品。这些阶段包括: 1晶圆筛选2分级测试3系统测试
晶圆筛选:在将单个裸片封装之前,我们会先对晶圆上的每个裸片进行全面测试。这一过程中,我们会结合采用行业领先的嵌入式内存测试技术、基于扫描的测试、功能测试和参数测试,从而识别和剔除有缺陷的裸片。通过用扫描测试向量辅以功能测试,可以筛查出传统方法无法检测到的细微缺陷,从而显著提高产品质量。
英特尔根据流片前指标和流片后分析,针对制造的各个阶段开发了功能测试。我们还使用先进的数据分析和机器学习方法,来识别潜在或边际性缺陷导致的可靠性不足的裸片。通过或是未能通过测试的裸片数据将反馈给英特尔的晶圆工厂,以改进芯片制造工艺。
分级测试:晶圆筛选后,单个裸片接受封装。随后,封装好的设备会在较高的电压和温度条件下承受额外的压力测试,从而识别并淘汰在生命周期早期就可能会出现问题的设备。接下来,设备将接受分级测试。在此期间,我们会在产品的最终使用条件下进行全套的内存、扫描、功能和 I/O 测试。分级测试可以确定每个设备可以运行的工作频率和功率等级。
系统测试:制造的最后一个重要步骤就是对每个设备进行系统测试 (SBT)。系统测试期间,我们会运行多个操作系统和应用,以验证是否有缺陷部件在先前测试中未检出。系统测试的硬件基于参考板设计,包括双列直插式内存模块 (DIMM) 和一组 I/O 设备。系统测试期间除了使用标准工作负载,我们也会用特定测试来筛查静默数据错误 (SDE)。
系统测试使用的 SDE 测试可确保每台设备执行计算的正确性。这些测试中有许多是英特尔 Data Center Diagnostic Tool(详见下文)套件中特有的。其中,有些测试会在所有处理器内核上并行运行相同的复杂运算(如矩阵运算),并在最后比较结果。有些测试则会执行可逆操作,如加密/解密或压缩/解压缩,检查结果是否与原始结果一致。大多数 SDE 测试使用伪随机数据和指令,以尽可能多地检测出细微的、随机的、只会以 SDE 形式表现出来的缺陷。
筛查静默数据错误
故障的来源多种多样,包括辐射、老化、潜在缺陷、逻辑错误,以及威廉希尔官方网站 开始制造时的边际性问题等。这些故障可能表现为意外中断,在少数情况下也可能表现为 SDE。
制造缺陷导致的 SDE 通常很难被发现。数据中心基础设施的大规模特性决定了 SDE 只可能在特定的电压、频率和温度组合以及特定的操作顺序下出现。因此,在设计筛查 SDE 的测试方法时,必须考虑到这种复杂情况。
如上节所述,英特尔在系统测试期间使用了许多测试来筛查在制造过程中表现为 SDE 的缺陷。英特尔已经证明,许多表现为 SDE 的缺陷无法通过传统的可测试性设计 (DFT) 方法检测出来。这些方法包括在晶圆筛选和分级测试中使用的基于扫描和阵列的内建自测 (BIST) 测试。而要筛出 SDE 这类重要缺陷,则需要有像英特尔 Data Center Diagnostics Tool(详见下文)中的具有针对性的功能测试内容。
04客户部署与支持
英特尔 至强 处理器在制造完成并交付给客户后,重点将转移到确保高质量的部署和产品支持阶段。为此,英特尔提供设备群管理工具和定期固件更新。
面向客户的优质工具
英特尔通过授权提供一套综合工具,用于测试处理器错误并加以纠正。英特尔自己在生产过程中就使用这些测试工具,同时也在英特尔网站上向客户提供这些工具。客户可将这些工具用于验证新设计、批量生产以及数据中心筛查。英特尔与客户密切合作,了解他们的测试需求,定期更新工具,从而优化其有效性。
以下优质工具可供客户用于设备群管理:
英特尔 Data Center Diagnostic Tool (DCDiag):英特尔独家提供的工具。DCDiag 旨在让客户测试其整个设备群中的英特尔 至强 处理器功能,并找出可能导致 SDE 的潜在缺陷。该工具可作为系统定期维护计划的一部分来运行,为所测试的处理器提供易于理解的“通过/失败”结果。这样,客户就能在处理器的全生命周期内发现潜在故障,并迅速加以替换。
英特尔 Open Data Center Diagnostics Project (Open DCDiag):旨在鼓励行业开展测试开发协作。英特尔认识到,业内有许多企业和机构正在研究如何更有效、更高效地识别处理器错误。于是 英特尔建立了 Open DCDiag 这一统一的测试开发框架,邀请开源社区发挥创造力,通过开发独特的测试筛查方法和其他创新解决方案来加强云计算设备群的管理。该项目是英特尔引领行业、不断提高英特尔 至强 平台质量和可靠性的一大典范。
为了尽可能减少服务器停机时间,英特尔提供了一套专有工具,使客户能够进行大规模调试,并准确、快速地确定问题发生的根因。这套工具有助于进行高效诊断,缩短调试时间,并尽快缓解影响。这套工具包括自动崩溃转储 (ACD) 和英特尔 Crash Log Technology。在设计中使用基板管理控制器 (BMC) 的客户可以通过在其设备群中启用 ACD 来收集调试状态。而没有使用 BMC 的客户则可依靠英特尔 Crash Log Technology 来收集故障发生时的调试状态。这些技术所抓取的调试状态可通过崩溃转储汇总 (Crash Dump Summarizer) 工具进行解码和处理,从而突出故障的明确特征。在大多数情况下,这些工具都能帮助客户找到明确的可采取的措施来解决故障问题。
英特尔还开发了其独有的“现场扫描 (In-Field Scan)”功能,用于设备群内的系统筛查。该功能在第四代英特尔 至强 可扩展处理器上首发。此功能就像英特尔在制造过程中进行的筛查一样,通过发现潜在的处理器缺陷,帮助系统管理员尽可能减少对客户运营的干扰。“现场扫描”提供的内置测试功能有助于在运行时以较低的开销在现场检测出有缺陷的内核,无需将处理器转至离线状态。
英特尔为客户提供高级内存测试 (AMT),帮助提高内存可靠性。AMT 让客户能够测试 DRAM 的健康状况,并在对终端用户产生影响之前就发现潜在问题。AMT 工具基于与 DRAM 制造商合作开发的测试算法,可识别潜在的内存错误,从而改进客户的生产。
高质量的固件
固件是一种直接内嵌在硬件中使其按照预期运行的软件,充当平台上运行的硬件和软件之间的桥梁。高质量、可更新的固件对平台的可靠性和安全性至关重要。英特尔通过英特尔平台更新 (IPU) 流程定期发布固件更新。在平台的整个生命周期内更新固件有助于客户进行长期的设备群管理。
由于硬件、固件和软件的集成特性,产品更新可能需要英特尔合作伙伴生态系统的额外验证和集成。IPU流程促进了生态系统的协调,使英特尔的生态系统合作伙伴能够发布经过验证的更新。这些合作伙伴包括操作系统供应商、云服务提供商、独立固件供应商、原始设备制造商和系统集成商等——每个合作伙伴都可向客户发布经过验证的更新。
为了解决固件更新相关的潜在挑战,英特尔推出了“无缝更新 (Seamless Update)”功能,可减少平台固件更新所需的系统重启次数。为此,它采用了系统管理模式、统一的可扩展固件接口运行时服务,以及高级配置和电源接口服务。英特尔还在努力通过可在系统运行时加载的微代码更新尽可能减轻更新影响,避免重启。
结 论
质量和可靠性仍然是英特尔数据中心客户的重要考虑因素,在全球数据和计算需求不断增长的背景下更是如此。本文重点介绍了英特尔在整个生命周期各个阶段对质量的重视,包括:
质量源于设计:优先考虑 RAS 功能。 前期测试与扩展测试:开展广泛的逻辑、平台和大规模集群验证。 自信制造:通过晶圆筛选、分级测试和系统测试筛查缺陷。 客户部署与支持:提供 DCDiag、特有的设备群管理工具和 IPU 流程。
作为一家整合设备制造商 (IDM),英特尔拥有广阔的行业视野,能够更好地理解和预测未来的质量挑战。我们在英特尔 至强 处理器生命周期的每个阶段都采取了端到端质量优化措施,尽可能提高产品质量和可靠性。英特尔期待继续与客户合作,满足数据中心严苛的质量要求。
全部0条评论
快来发表一下你的评论吧 !