本文介绍如何向网络、通信、工业和医疗设备添加“黑匣子”功能(非易失性故障记录)。它概述了记录故障数据的好处,包括更快、更明确的故障分析。
背景
每个人都熟悉“黑匣子”一词,指的是提供飞机失事原因线索的设备。飞机的黑匣子收集了有关飞机运行条件的大量数据点,包括高度、速度、襟翼和方向舵位置;它记录了飞行员在事故发生前所做的事情和所说的话。此运行日志记录了崩溃前发生的事情,对于确定事件的根本原因至关重要。
顺便说一句,“黑匣子”一词用词不当。飞机上使用的设备从来都不是黑色的——它是橙色的,以便于定位。该设备的正确航空电子术语是“事件数据记录器”。
当然,工程界也会把黑匣子理解为输入和输出已知,但黑匣子的内部操作未知的设备。这种类型的黑匣子不是本文的主题。
在飞机以外的电子设备中添加数据记录功能(黑匣子)可以证明非常有价值。黑匣子功能在电子设备中被称为“复杂系统管理器”,可在网络、工业控制、医疗和通信设备中提供故障记录。故障记录的主要好处非常简单:更快、更明确的故障分析。本文介绍如何实现此类功能,并概述非易失性故障记录可以实现的好处。
电源管理方案
从电源管理的角度来看,大多数“大盒子”和“小盒子”系统的内部工作原理看起来非常相似。无论机箱是路由器、服务器、基站、光复用器、可编程逻辑控制器 (PLC) 还是磁共振成像仪 (MRI),它们都包含一系列开关模式电源和线性电源,需要监控电压、电流、温度和可能的风扇速度。参见图1。
图1.典型的电源布置。
非易失性故障记录
在大型大盒子系统和较小的“披萨盒”系统中,复杂的系统管理器的主要功能是控制和监视许多电源和风扇。监控包括查找系统故障事件,例如电压过高或过低、电流过高、温度超出范围以及风扇未以适当速度旋转。检查故障可以像检查参数是否超出阈值一样简单。如果在系统运行时收集实时数据,并在发生故障时将其存储到非易失性存储器中,则可以创建事件数据记录器功能。图 2 显示了这样一个系统。
图2.用于多个电源和风扇的非易失性故障记录系统的功能图。
在图 2 中,复杂的系统管理器连续收集有关众多系统电压、电流、温度和风扇速度的数据。与飞机中的黑匣子类似,最新的参数数据(例如,最近 500 毫秒到 1 秒的数据)是滚动连续收集的。然后,当发生故障时,将永久记录当时系统的快照。能够在故障发生之前检查系统运行前 500 毫秒到 1 秒,是了解导致故障的原因以及系统如何受到影响的关键信息。通过检查数据,可以重建时间线并确定相互依赖关系。理想情况下,复杂的系统管理器应记录多个故障发生。由于系统相互依赖性紧密耦合,一个故障可能会导致多个系统故障连续发生。因此,为了找到故障的根本原因,捕获所有数据非常重要。此外,大量的非易失性存储允许系统存储可能不被视为灾难性的事件,而只是指示系统何时在指定范围之外运行。此数据的存储对于强制执行保修合规性非常重要。
一个例子
考虑图 3 中所示的场景。电源发生故障(步骤1),故障由持续监控电压、电流和温度的复杂系统管理器之一检测到。经理会立即通知系统中的其他经理,以便他们可以根据需要采取措施(步骤 2)。然后,复杂的系统管理器根据系统需要对电源和风扇进行排序(步骤 3)。然后,有关系统电压、电流、温度和风扇速度的所有最新数据都会记录到每个复杂系统管理器的板载黑匣子中(步骤 4)。由于数据存储在非易失性存储器中,主机可以在将来的任何时候(即使在从现场返回数据之后)提取数据,以确定导致故障的原因(步骤5)。
图3.黑盒故障日志记录方案。
非易失性故障记录的优势
非易失性故障记录具有许多优点。如果设备能够跟踪现场故障期间发生的情况,故障分析团队可以快速分析并准确确定故障的根本原因。这种故障排除改善了客户关系,因为用户不可避免地希望快速了解设备故障的原因。此外,制造商越快意识到潜在的责任,他们就能越快地纠正问题并节省未来潜在故障的成本。这再次使客户满意,并提高了其设备的整体可靠性。非易失性故障记录还可以确定客户是否在指定的工作范围之外使用设备,这一操作可能违反产品保修。随着时间的推移,收集现场故障数据可以通过识别不良供应商和薄弱的设计实践来提高未来的产品可靠性。
复杂系统管理器
Maxim Integrated提供多种复杂的系统管理器,包括广泛的非易失性故障记录,适用于服务器等大型系统和网络交换机等披萨盒设计。参见图 4 和图 5。
MAX34440控制和监视多达4个电源(图34440)。它提供电源排序和裕量调节,并监控电压、电流和温度故障。多个MAX31785器件可以并联,以处理系统中存在的所有电源。MAX34440控制和监视多达31785个风扇。与MAX<>一样,可以使用多个MAX<>器件来支持任意数量的风扇。
图4.大盒子系统设计采用MAX34440和MAX31785。
Maxim还提供复杂的系统管理器,支持网络交换机等小型披萨盒设计。MAX34441支持多达5个电源和一个风扇(图34441)。为了最大限度地提高设计灵活性,多个MAX34440器件可以并联或与多个MAX31785和MAX<>器件配合使用。
图5.采用MAX34441的披萨盒系统设计
价值主张
网络、工业控制、医疗和通信设备中的黑匣子故障记录可实现更快、更明确的故障分析。反过来,这又可以通过更快的反应时间产生更高的客户满意度,从长远来看,更好的产品可靠性。
审核编辑:郭婷
-
电源
+关注
关注
184文章
17715浏览量
250124 -
交换机
+关注
关注
21文章
2639浏览量
99620 -
管理器
+关注
关注
0文章
246浏览量
18505
发布评论请先 登录
相关推荐
评论