Giter VIP home page Giter VIP logo

Comments (16)

sk872529557 avatar sk872529557 commented on August 16, 2024 1

服务启动一段时间后报出来的,而且是不太稳定的偶发现象,我们看下先调整参数处理。

from holmes.

Jun10ng avatar Jun10ng commented on August 16, 2024

可以用文本格式的输出看一下

holmes.WithTextDump(),

ps:
输出的holmes log 里的参数配置 似乎和你代码里声明参数配置 不一致,
log里是 min:20, diff:25 abs 80
代码里是 30, 50, 60

from holmes.

sk872529557 avatar sk872529557 commented on August 16, 2024

image
但是这里说WithTextDump() 在cpu场景下会失效?

from holmes.

Jun10ng avatar Jun10ng commented on August 16, 2024

image 但是这里说WithTextDump() 在cpu场景下会失效?

哦,是的。cpu不支持文本格式。

你能给出一个能复现的demo吗,我尝试debug一下

from holmes.

sk872529557 avatar sk872529557 commented on August 16, 2024

这个是线上容器正在跑的程序,不太好给出demo 也是偶发现象。。。。
也不太好判断这个突然上涨的cpu是采集程序的问题,还是我们容器中程序或者其他问题,从我们自己的监控看cpu并没有出现向log中的尖刺

from holmes.

Jun10ng avatar Jun10ng commented on August 16, 2024

明白了。
请问这个pprof事件发生的时间点离服务启动的时间近吗?

from holmes.

nejisama avatar nejisama commented on August 16, 2024

这就是标准的pprof文件,dump的是cpu高那一会的快照。可以看下cpu占用情况,然后和正常的pprof对比一下 来看是哪里增高了

from holmes.

Jun10ng avatar Jun10ng commented on August 16, 2024

这就是标准的pprof文件,dump的是cpu高那一会的快照。可以看下cpu占用情况,然后和正常的pprof对比一下 来看是哪里增高了

是标准的 profile文件,但是profile里没有sample。是不是不太正常。

from holmes.

cch123 avatar cch123 commented on August 16, 2024

感觉不太正常,profile文件能分享么

from holmes.

sk872529557 avatar sk872529557 commented on August 16, 2024

文件链接 https://github.com/sk872529557/simpleGo/blob/main/cpu.20220922134326.843.log

from holmes.

doujiang24 avatar doujiang24 commented on August 16, 2024

这个 profile 文件里,完全没有采样的数据,难道是飙升之后, CPU 跌到几乎为 0 了?

holmes 的逻辑是,飙升之后,会触发采样,采样时长为 5s
如果这 5s 期间,异常消失了,那也是没有办法捕获异常的了

只是你这个文件里,一点数据都没有,比较怀疑是,CPU 跌到几乎为 0 了
你那边有秒级的 CPU 监控不呢?

from holmes.

Jun10ng avatar Jun10ng commented on August 16, 2024

如果这 5s 期间,异常消失了,那也是没有办法捕获异常的了

就算异常消失了,应该还有在运行的函数,除非这些函数运行很快,无法以默认的频率(100hz)捕获到它们。

from holmes.

sk872529557 avatar sk872529557 commented on August 16, 2024

我们的容器cpu监控并没有异常,所以现在不太清楚是holmes采集的问题,还是我们监控的问题。
目前看也有能正常dump的cpu pprof 这个问题还没再复现过。

from holmes.

doujiang24 avatar doujiang24 commented on August 16, 2024

如果这 5s 期间,异常消失了,那也是没有办法捕获异常的了

就算异常消失了,应该还有在运行的函数,除非这些函数运行很快,无法以默认的频率(100hz)捕获到它们。

所以,这里说的是两个问题:

  1. 异常消失,cpu 恢复正常,没法捕获异常,是符合 holmes 机制预期的
  2. profile 完全没数据,只能怀疑 cpu 几乎跌到为 0 了

from holmes.

doujiang24 avatar doujiang24 commented on August 16, 2024

我们的容器cpu监控并没有异常,所以现在不太清楚是holmes采集的问题,还是我们监控的问题。 目前看也有能正常dump的cpu pprof 这个问题还没再复现过。

你们的监控,有秒级的数据么?如果是分钟级的平均数据,通常是看不出来异常的
holmes 采集的秒级的瞬间值,这个细节需要注意下的

from holmes.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.