乐动体育安卓版产品视频

蜂巢的泡沫是什么?

2020年6月12日

成绩单

Molly Stamos[客户支持工程师|Honeycomb]:

我将向你们展示BubbleUp在异常值分析方面的力量。请记住,Honeycomb为DevOps和SRE团队提供了实时分析,以更好地理解生产系统。乐动体育安卓版我们鼓励您发送尽可能详细的事件。这意味着单个事件(假设它表示一个前端服务调用)可能有数百个字段附加到它,报告从执行的特定SQL查询到调用者的User Id以及处理请求的节点的所有内容。但问题是,当每个事件上有数百个字段时,当出现问题时,很难知道应该查看哪个特定字段。这就是BubbleUp发挥作用的地方。BubbleUp在幕后进行分析,为您提供最有可能的字段,告诉您是什么导致了离群值行为。

我来告诉你这是怎么回事。我这里有一个图表,显示了一段时间内所有的API调用,以及一个显示了API的持续时间分布的热图。我已经把它按状态代码分解了,所以我可以看到每个状态代码的计数和热图,显然这里我们有一个持续时间增加的问题。但有趣的是,这个数字并没有增加,所以发生了什么?

首先,让我们看看图中的每个状态代码。我可以看到延迟在增加,200,400看起来不错,403,500,这是一个非常有趣的高延迟群。让我们过滤到500个,这样我们就可以仔细看看。现在,您可以做的第一件事是开始按附加字段进行分解。这种行为会影响到特定的客户吗?或者我们应该按主机或平台分类,看看是否有关联。我在这里只有大约12块地可供选择,但在真实的生产环境中,人们通常有几十到几百块地。乐动体育安卓版找到合适的领域进行钻探可能是一个真正的挑战。

这就是BubbleUp的力量所在。BubbleUp将告诉您哪些字段最有可能与不断增加的延迟相关,并帮助您查明问题所在。我所需要做的就是选择异常值的总体。如果你没有听说过离群值这个词,那么韦伯斯特字典将其定义为一组远离主体的事物。因此,您可以在这里看到,所选的点区域肯定不同于图中的整体点,至少在持续时间方面是如此。因此,通过选择操作,BubbleUp将获取异常值,并确定哪些字段在选择和其他总体之间具有最大差异。这些字段最有可能告诉我们有关异常的信息。这告诉我们,我们的异常值中100%的端点是这个端点,而未选择的总体中只有18%是这个端点。这强烈表明此特定端点存在问题。让我们按那个领域细分。

我们还可以查看这个User Id字段,它显示了非常大的差异。事实上,似乎这个用户,20109,是75%的异常值。回想一下,这些异常值是所选的高延迟事件集。让我们将User Id也添加到细分中。让我们删除Status Code,以便查看所有流量并运行查询。好的,看看这个表,我们可以看到这个单独的用户正在敲打票输出端点,并提高每个人的延迟。

所以回到这里,回顾一下刚刚发生的事情。第一,我们接到了异常情况的通知。第二,我们看到了异常值。第三,我们跑了BubbleUp。第四,我们得到了答案。BubbleUp在进行异常值分析时节省了大量时间。简单地说,您可以更快地找到答案,并可以快速解决问题。与其他只告诉您存在异常值的工具不同,BubbleUp自动执行异常值根本原因分析,因此您知道异常值出现的原因,并可以快速解决问题。有关BubbleUp的更多信息,请访问docs.honeycomb.io查看我们的文档。

如果您在本文中看到任何打字错误或有任何问题,请联系marketing@honeycomb.io.

成绩单