Giter VIP home page Giter VIP logo

Comments (10)

bwangll avatar bwangll commented on June 12, 2024

看一下/var/log/message日志?是不是内核kill的

from nacos.

Kl0513 avatar Kl0513 commented on June 12, 2024

看一下/var/log/message日志?是不是内核kill的

在该目录下看了宕机当天日志,没有相关异常,都是一些如下信息:
image

from nacos.

KomachiSion avatar KomachiSion commented on June 12, 2024

nacos只会在磁盘满的时候自杀, 其他任何情况下都不会自行宕机(至少进程会存在)。

如果出现了机器整体宕机,或者进程消失, 那么应该是操作系统(或者k8s)执行的kill。

如果通过/var/log/message等系统相关日志以及k8s状态排查未果, 可以考虑更换一下机器后重试。

from nacos.

Kl0513 avatar Kl0513 commented on June 12, 2024

nacos只会在磁盘满的时候自杀, 其他任何情况下都不会自行宕机(至少进程会存在)。

如果出现了机器整体宕机,或者进程消失, 那么应该是操作系统(或者k8s)执行的kill。

如果通过/var/log/message等系统相关日志以及k8s状态排查未果, 可以考虑更换一下机器后重试。

1.nacos部署方式是采用jar
2.磁盘目前使用率50%多点:
image
3. 日志/var/log/message有排查过,宕机时间段没有异常日志
4.没有整体宕机,只是某一个节点宕机

from nacos.

KomachiSion avatar KomachiSion commented on June 12, 2024

那估计还是系统环境本身的问题,或者机器故障了,建议换一台机器试一下。

from nacos.

Kl0513 avatar Kl0513 commented on June 12, 2024

那估计还是系统环境本身的问题,或者机器故障了,建议换一台机器试一下。

nacos宕机时间段,config-fatal.log出现如下日志,有没有可能是mysql导致的啊? 或者说是否需要增加mysql连接超时时间?
image

from nacos.

KomachiSion avatar KomachiSion commented on June 12, 2024

这个是正常的, 及时mysql有问题,nacos也不会宕机。
怀疑是机器故障了,建议换一个机器试试。

from nacos.

Kl0513 avatar Kl0513 commented on June 12, 2024

这个是正常的, 及时mysql有问题,nacos也不会宕机。 怀疑是机器故障了,建议换一个机器试试。

关于机器故障的问题专门找aws的工程师看了,经过验证没有问题;而且该相同类型EC2实例,我们买了有近20台,不同实例上部署很多springcloud微服务全家桶、nacos、seata等服务,但就是nacos会自己宕机,所以机器有故障可能性很低。
其次,通过Grafana+Prometheus与nacos openAPI观测,怀疑可能是集群负载不均导致某个节点负载过大引发宕机,理由如下:
1.springcloud集成是通过ip直连方式(未使用SLB模式):spring.cloud.nacos.discovery.server-addr: ip1:8848,ip2:8848,ip3:8848,ip4:8848(共4个节点),很容易导致客户端与服务端长链接集中于某一个nacos节点
2.当某1个nacos节点宕机时 长链接断开,与该宕机节点原有链接客户端会与剩余3个节点建立长链接;最终导致宕机节点重启后负载为0
3.promethuse监控截图:
image
image
负载最高节点:
image

4.获取集群链接负载信息:curl -X GET http://ip:8848/nacos/v2/core/loader/current/cluster
image
补充下:我把4个节点的负载通过接口/nacos/v2/core/loader/current/reloadCurrent ,全部平衡到avg=39还是有节点宕机;但是宕机时刻系统或进程的内存/CPU/IO/磁盘/JVM gc都比较平稳,这就nacos负载过大导致宕机相悖了。哎!!!

通过上述监控指标,是否需要采用SLB模式部署,或者是升级nacos版本2.1.0->最新版本

from nacos.

KomachiSion avatar KomachiSion commented on June 12, 2024

怎么看都像是这台机器有问题。。 连接根本就打不进去吧。

from nacos.

Kl0513 avatar Kl0513 commented on June 12, 2024

怎么看都像是这台机器有问题。。 连接根本就打不进去吧。

应该是nacos节点宕机后,客户端与集群其他节点建立了长连接(重启宕机节点会有1min最大间隔时间),导致该宕机节点客户端连接数为0;通过OpenAPI接口/nacos/v2/core/loader/current/reloadCurrent手动调节集群负载后,可以观察到该宕机节点是有客户端连接的,而且整个集群的其他机器也分别宕机过,所以是可以正常链接的
最近有个节点又宕机了,拿到了最新日志(nacos.log):
image
image

from nacos.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.