跳到主要内容

kingbase两地三中心日常巡检

两地三中心运行一段时间后,需要定期巡检,观察集群状态是否正常,若有异常,需确认异常原因并及时处理。

确认集群是否正常

在observer节点的二进制安装目录下,使用如下命令查看集群的状态:

./bin/repmgr cluster show

应确保集群只有一个主库。

确认数据库是否正常

进入数据库节点二进制安装目录下,使用如下命令查看数据库的运行状态:

./bin/repmgr cluster show
  • 若无法查询集群信息,需要进一步确认高可用组件是否正常。

  • 若能正常查询信息,则需要确认数据库的状态是否正常

确认高可用组件是否正常

  • 确认kbha服务状态
./bin/repmgr service status
  • 确认corosync通信是否正常
./corosync/sbin/corosync-quorumtool

需确认Quorate是不是Yes。

查看日志是否有相关故障操作发生

  • 查看hamgr.log,查看是否有ERROR或者切换操作
cat log/hamgr.log | grep -E "ERROR|promote"
  • 查看kbha.log,查看是否有ERROR或者stop操作
cat log/kbha.log | grep -E "ERROR|stop"

若存在异常,需要取各个节点上的如下日志进行分析:

  • log下的所有日志文件(hamgr.log、kbha.log)
  • corosync/log下的日志文件(corosync.log)