fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic #74

guowei-gong · 2026-01-30T11:00:21Z

问题描述

启动 Node 节点后停止，再次重启时出现以下 panic：

panic: sync: negative WaitGroup counter

堆栈跟踪指向 /cluster/node/node.go:473 的 doneWait() 函数。

根因分析

问题出在 BindNode 和 UnbindNode 中的 addWait()/doneWait() 调用没有严格配对：

addWait() 和 doneWait() 都依赖节点状态检查 (n.getState() != cluster.Shut)
在停止/重启场景下，状态可能在两个操作之间发生变化
如果 BindNode 时状态为 Shut（addWait 被跳过），但 UnbindNode 时状态不是 Shut（doneWait 被执行），会导致 Done() 多于 Add()
另外，重复绑定同一用户会导致多次 Add，但解绑只有一次 Done

修复方案

在 Proxy 结构体中添加 boundUsers sync.Map 字段，用于跟踪已绑定的用户，确保 addWait/doneWait 严格配对：

BindNode: 使用 LoadOrStore 确保每个用户只调用一次 addWait
UnbindNode: 使用 LoadAndDelete 确保只有已绑定的用户才调用 doneWait

测试步骤

启动 Node 节点
等待服务完全启动
停止服务
再次启动服务
验证不再出现 sync: negative WaitGroup counter panic

影响范围

仅影响 cluster/node/proxy.go
不影响现有 API 或行为
不影响其他模块

兼容性

向后兼容，无 breaking changes
sync.Map 是 Go 标准库，无额外依赖

在 Proxy 中添加 boundUsers 跟踪已绑定用户，确保 BindNode/UnbindNode 中的 addWait/doneWait 调用严格配对，避免重复绑定或未绑定时解绑导致计数器不匹配

dobyte · 2026-01-31T13:59:27Z

非常感谢你的问题反馈，首先确定的，这个问题确实存在。但是我这里还有一个BUG，就是跨node绑定时，node未正常加入到WaitGroup中。

fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic

585da6c

在 Proxy 中添加 boundUsers 跟踪已绑定用户，确保 BindNode/UnbindNode 中的 addWait/doneWait 调用严格配对，避免重复绑定或未绑定时解绑导致计数器不匹配

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic #74

fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic #74

guowei-gong commented Jan 30, 2026

Uh oh!

dobyte commented Jan 31, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic #74

Are you sure you want to change the base?

fix(cluster): 修复节点重启时 WaitGroup 负计数器 panic #74

Conversation

guowei-gong commented Jan 30, 2026

问题描述

根因分析

修复方案

测试步骤

影响范围

兼容性

Uh oh!

dobyte commented Jan 31, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants