该文章聚焦于根因指标定位。现有的根因定位工作主要有两类,一类是多维根因定位(例如 Adtributor 和HotSpot),另一类是基于图的根因定位,包括基于调用轨迹或者应用监控的,或者因果挖掘的,例如MonitorRank, MicroScope这些。

但是,多维根因定位存在一些不实际的假设,包括指标的可加性(其实不成立,因为很多多维定位的工作明确研究了不可加的情况,比如 Squeeze)和对所有必要的属性都能监控到。

基于调用轨迹或者应用监控的根因定位需要遍历系统拓扑,这可能是有挑战的,在实际系统中难以做到

基于因果挖掘的算法受限于因果挖掘算法的开销和准确性。

该文章以一种新的视角解决根因定位。该文章将根因定位看做可解释性中的attribution score,即贡献分数。即首先构建一个各种指标到目标指标的前馈预测模型,然后把对故障时刻的贡献最大的 feature(也就是指标)当做根因。该文章宣称它们是第一个这么做的

我觉得这个文章宣称的 attribution method和根因定位实际上没什么关系。这篇文章在实验中也只和sparse linear model 做了对比,而没有对比任何已有的根因定位方法。所以,我理解这个文章更像一个 SOTA 的 XAI 方法,而不是 RCA 方法。


Last update : February 13, 2023
Created : February 13, 2023