Meta AI 发布 FBDetect 以增强性能监控
Meta AI 发布 FBDetect 以增强性能监控
在管理大规模云基础设施时,即使是小的性能下降也可能导致显著的资源浪费。对于像 Meta 这样的公司,应用性能降低 0.005% 似乎微不足道;然而,当同时操作数百万台服务器时,这些小的延迟可能在数千台服务器间积累成显著的低效。因此,及时识别和修复这些微妙的性能回归对 Meta 来说是一个重大挑战。

为了解决这个问题,Meta AI 推出了 FBDetect,这是一种针对生产环境量身定制的性能回归检测系统,能够捕捉低至 0.005% 的最小回归。FBDetect 监控约 800,000 条时间序列,这些序列涵盖了关键指标,如吞吐量、延迟、CPU 和内存使用情况,跨越数百个服务和数百万台服务器。利用整个服务器集群的堆栈跟踪采样等创新技术,FBDetect 能够在子例程级别识别微妙的性能差异。

专注于子例程级别分析
FBDetect 主要针对子例程级别的性能分析,有效地将从 0.05% 应用级别回归的检测难度降低到更可管理的 5% 子例程级别变化。这一集中的方法显著减少了噪音,使开发人员更容易跟踪变化。
FBDetect 的核心技术包含三个主要组件:
- 方差减少:通过子例程级别的回归检测降低性能数据中的方差,促进及时识别微小的回归。
- 堆栈跟踪采样:系统在整个服务器集群中进行详细的堆栈跟踪采样,准确测量每个子例程的性能,类似于在大规模环境中的性能分析。
- 根本原因分析:对于每个检测到的回归,FBDetect 进行根本原因分析,以确定回归是否源于瞬时问题、成本变化或实际代码修改。 经过七年的实地生产测试,FBDetect 展示了强大的干扰抵抗力,有效过滤虚假的回归信号。该系统的引入不仅显著减少了开发人员需要调查的事件数量,还提高了 Meta 的基础设施效率。通过识别微小的回归,FBDetect 帮助 Meta 避免每年浪费大约 4,000 台服务器。
对于像 Meta 这样的大家企业,运营数百万台服务器,检测性能回归至关重要。FBDetect 的先进监控能力不仅提高了对微小回归的检测率,同时也为开发人员提供了有效的根本原因分析工具,促进潜在问题的及时解决,推动整个基础设施的高效运行。
有关更多详情,可以在此访问研究论文:FBDetect Paper。
关键点
- FBDetect 可以监控微小的性能回归,甚至低至 0.005%,大大增强检测精度。
- 该系统涵盖约 800,000 条时间序列,涉及多个性能指标,能够在大规模环境中进行精准分析。
- 经过七年的实际应用,FBDetect 帮助 Meta 避免每年浪费约 4,000 台服务器,提高了基础设施的整体效率。





