S7连接生命周期系统设计

1. 问题分析

1.1 当前实现缺陷

问题	当前状态	影响
重连节奏失控	失败后立即重连	瞬间打满PLC连接槽位
无退避机制	连续失败仍高频尝试	加重PLC负担，网络风暴
无状态隔离	所有设备同一策略	单点故障引发雪崩
无冷却期	PLC挂了还在持续打	浪费资源，延长恢复时间
无连接复用	gos7短连接倾向，频繁Dial	TCP握手开销大，端口耗尽

1.2 需求约束

PLC类型	最大重试次数	采集周期	最大采集失败次数
S7-200 Smart	8次	≥10秒，默认60秒	3次
S7-1200	64次	1~5秒，默认10秒	5次
S7-1500	64次	1~5秒，默认10秒	5次
S7-300/400	64次	1~5秒，默认10秒	5次

每日清零: 每日零点重置重试计数

健康检测策略: 取消独立心跳机制，通过设备轮询采集作为连接健康判断依据

采集成功 = 连接健康
采集失败 = 连接异常
连续采集失败达到阈值时触发状态变更
低频采集场景下由调度器自动补偿轻量读请求

1.3 S7连接数限制认知

PLC类型	最大连接数
S7-200 Smart	≤ 8
S7-1200	16~64
S7-1500	16~64
S7-300/400	16~64

强约束: 每个PLC最多1个连接

2. 设计目标

构建一个工业级的S7连接生命周期系统，具备以下特性：

指数退避: 失败后重试间隔指数增长
状态隔离: 每个设备独立的连接状态机
冷却期: 达到最大重试后进入冷却，定期探测
连接复用: 保持长连接，避免频繁Dial
批量读写: 按DB块合并读写操作
断网区分: 网关断网暂停重连，PLC宕机单独退避

3. 状态机设计

3.1 连接状态定义

          ┌──────────────┐
          │   Disconnected │
          │    (初始状态)   │
          └──────┬───────┘
                 │ Connect
                 ▼
┌──────────────────────────────────────┐
│              Connecting              │
│  (正在建立连接，指数退避重试中)        │
└────────────────┬─────────────────────┘
                 │ Success
                 ▼
┌──────────────────────────────────────┐
│               Connected              │
│  (正常连接，采集驱动健康检测)          │
└────────────────┬─────────────────────┘
                 │ Collect Fail (连续N次)
                 ▼
┌──────────────────────────────────────┐
│               Retrying               │
│  (重试计数 < MaxRetry，指数退避)      │
└────────────────┬─────────────────────┘
                 │ retry >= MaxRetry
                 ▼
┌──────────────────────────────────────┐
│                Dead                  │
│  (冷却期，定时Half-Open探测)          │
└────────────────┬─────────────────────┘
                 │ Half-Open Success
                 ▼
          ┌──────────────┐
          │   Connected  │
          └──────────────┘

3.2 状态转换表

当前状态	触发条件	目标状态	动作
Disconnected	Init/手动连接	Connecting	开始连接流程
Connecting	连接成功	Connected	记录连接时间，重置失败计数
Connecting	连接失败	Retrying	retry++，计算退避时间
Connected	采集失败(连续N次)	Retrying	断开连接，retry++
Connected	采集成功	Connected	重置失败计数
Connected	手动断开	Disconnected	清理资源
Retrying	重试成功	Connected	重置retry计数
Retrying	retry >= MaxRetry	Dead	进入冷却期
Dead	冷却时间到达	Retrying(Half-Open)	发起探测连接
Dead	Half-Open成功	Connected	恢复正常连接
Dead	Half-Open失败	Dead	延长冷却时间

3.3 健康检测机制

取消独立心跳机制，通过设备轮询采集作为连接健康判断依据：

采集成功 → RecordSuccess() → 重置失败计数 → 连接健康

采集失败 → RecordFailure() → 失败计数++ 
    ├─ 失败计数 < MaxFailCount → 继续采集
    └─ 失败计数 >= MaxFailCount → 断开连接 → 进入重试状态

低频采集补偿

当采集周期较长时（超过采集周期的3倍），调度器自动触发轻量探测请求：

if transport.NeedProbeCheck() {
    transport.ProbeConnection()  // 读取M区1字节作为轻量探测
}

4. 核心组件设计

4.1 连接状态管理器

type ConnState int

const (
    StateDisconnected ConnState = iota
    StateConnecting
    StateConnected
    StateRetrying
    StateDead
)

type ConnectionManager struct {
    mu               sync.Mutex
    state            ConnState
    retryCount       int
    maxRetries       int
    lastRetryTime    time.Time
    lastSuccessTime  time.Time
    coolDownUntil    time.Time
    coolDownDuration time.Duration
    
    // 指数退避参数
    baseDelay    time.Duration
    maxDelay     time.Duration
    backoffFactor float64
    
    // PLC类型
    plcType string
    
    // 每日清零定时器
    dailyResetTimer *time.Timer
}

4.2 指数退避算法

backoff_time = min(base_delay * (2^retry_count), max_delay) + jitter

参数	值	说明
base_delay	100ms	初始重试间隔
max_delay	30s	最大重试间隔
backoff_factor	2	指数因子
jitter	0~50ms	随机抖动，避免惊群

4.3 冷却期策略

冷却期 = 基础冷却时间 × (2^冷却次数)，最大1小时

阶段	冷却时间
第1次冷却	1分钟
第2次冷却	2分钟
第3次冷却	4分钟
第4次冷却	8分钟
第5次及以上	1小时(最大)

4.4 连接复用机制

type ConnectionPool struct {
    mu          sync.Mutex
    connections map[string]*pooledConn
    
    // 每个PLC最多1连接
    maxPerPLC int
}

type pooledConn struct {
    client     gos7.Client
    handler    S7ClientHandler
    plcID      string
    createdAt  time.Time
    lastUsedAt time.Time
    inUse      bool
}

5. 批量读写优化

5.1 读写合并策略

当前: 一个点位一个ReadArea
优化: 按DB块合并，批量读取

合并规则

同DB块点位合并: 同一数据块内的所有点位合并为一个AGReadMulti请求
连续地址优化: 相邻地址尝试合并为连续读取
PDU大小限制: 单请求不超过PDU大小(默认4096字节)

数据结构优化

type DBBlockReader struct {
    transport *S7Transport
    decoder   *S7Decoder
    cache     sync.Map // dbNumber -> blockData
    
    // 批量读取配置
    maxBatchSize   int
    maxPDUSize     int
    readCacheTTL   time.Duration
}

type BlockRequest struct {
    DBNumber int
    Start    int
    Length   int
    Points   []model.Point
}

6. 断网区分机制

6.1 网络状态感知

type NetworkDetector struct {
    mu               sync.Mutex
    isNetworkDown    bool
    lastCheckTime    time.Time
    checkInterval    time.Duration
    
    // 检测目标
    checkTargets     []string
    
    // 回调通知
    onNetworkUp      func()
    onNetworkDown    func()
}

6.2 场景处理

场景	检测方式	处理策略
网关断网	ping网关/默认网关	全局暂停所有重连，网络恢复后统一恢复
PLC宕机	连接失败+其他PLC正常	单设备进入退避/冷却
网络抖动	短暂连接失败	快速重试(低延迟)

7. 配置参数

7.1 新增配置项

配置项	类型	默认值	说明
`max_retries`	int	64	最大重试次数(200Smart为8)
`retry_base_delay`	int	100	基础重试延迟(ms)
`retry_max_delay`	int	30000	最大重试延迟(ms)
`cool_down_base`	int	60	基础冷却时间(秒)
`cool_down_max`	int	3600	最大冷却时间(秒)
`enable_connection_pool`	bool	true	是否启用连接池
`max_connections_per_plc`	int	1	每PLC最大连接数
`read_cache_ttl`	int	0	读取缓存TTL(秒)，0禁用
`network_check_interval`	int	10000	网络检测间隔(ms)
`network_check_targets`	string	””	网络检测目标IP列表
`max_fail_count`	int	5	最大采集失败次数(200Smart为3)
`collect_cycle`	int	10000	采集周期(ms)，200Smart默认60000

8. 代码修改方案

8.1 修改 transport.go

移除独立心跳机制: 删除 heartbeatInterval、heartbeatTicker、stopHeartbeat、heartbeatFailCount、heartbeatFailMax、sessionTimeout 等心跳相关字段

新增采集健康检测字段:

// 采集健康检测（替代独立心跳）
lastSuccessTime    atomic.Value // time.Time
collectFailCount   atomic.Int32
maxFailCount       int32
collectCycle       time.Duration

新增连接管理器字段:

connMgr *ConnectionManager

新增方法:

RecordSuccess() - 记录采集成功，重置失败计数
RecordFailure(err error) - 记录采集失败，达到阈值时断开连接
NeedProbeCheck() - 检查是否需要轻量探测（低频采集场景补偿）
ProbeConnection() - 轻量探测连接是否存活
GetHealthStatus() - 获取健康状态信息
calculateBackoff(attempt int) - 计算指数退避时间

8.2 修改 scheduler.go

新增低频采集补偿逻辑: 在 ReadPoints() 开头检查是否需要轻量探测

集成健康检测: 在采集成功/失败时调用 transport.RecordSuccess()/RecordFailure()

8.3 新增 connection_manager.go

实现完整的连接状态机，包含：

5种连接状态：Disconnected、Connecting、Connected、Retrying、Dead
指数退避算法（带抖动）
冷却期管理（指数增长，最大1小时）
Half-Open探测机制
每日清零定时器

package s7

type ConnState int

const (
    StateDisconnected ConnState = iota
    StateConnecting
    StateConnected
    StateRetrying
    StateDead
)

type ConnectionManager struct {
    mu               sync.Mutex
    state            ConnState
    retryCount       int
    maxRetries       int
    coolDownUntil    time.Time
    coolDownDuration time.Duration
    coolDownAttempts int
    
    baseDelay     time.Duration
    maxDelay      time.Duration
    backoffFactor float64
    
    plcType     string
    maxFailCount int
    
    dailyResetTimer   *time.Timer
}

8.4 PLC类型默认参数扩展

在 plcDefaults 中增加 MaxFailCount 和 DefaultCycle 字段：

PLC类型	MaxFailCount	DefaultCycle
s7-200smart	3	60秒
s7-1200	5	10秒
s7-1500	5	10秒
s7-300	5	10秒
s7-400	5	10秒

9. 日志增强

9.1 关键日志点

场景	日志级别	关键字段
连接失败	WARN	attempt, retryCount, maxRetries, backoffTime, remoteAddr, localAddr
进入冷却	ERROR	coolDownDuration, retryCount, plcType
Half-Open探测	INFO	probeResult, coolDownAttempts
连接恢复	INFO	recoveryTime, downtime
批量读取	DEBUG	dbNumber, pointsCount, readSize

9.2 日志格式示例

[S7] Connection failed attempt=3 retryCount=5 maxRetries=64 backoffTime=800ms 
    remoteAddr=192.168.1.100:102 localAddr=192.168.1.200:54321

[S7] Entering coolDown duration=1m0s retryCount=64 plcType=s7-1200

[S7] Half-Open probe attempt=1 success=true recoveryTime=5m32s

[S7] Batch read DB1 points=15 size=120bytes

10. 指标增强

10.1 新增指标

指标	类型	说明
`ConnectionState`	string	当前连接状态
`RetryCount`	int	当前重试计数
`MaxRetries`	int	最大重试次数
`CoolDownRemaining`	int	冷却剩余时间(秒)
`LastRetryTime`	time.Time	上次重试时间
`BatchReadCount`	int	批量读取次数
`SingleReadCount`	int	单点读取次数
`NetworkStatus`	string	网络状态(Up/Down)
`PooledConnections`	int	连接池连接数

11. 单元测试覆盖

11.1 新增测试用例

测试文件	测试用例	覆盖范围
connection_manager_test.go	TestStateTransitions	状态机转换逻辑
connection_manager_test.go	TestExponentialBackoff	指数退避计算
connection_manager_test.go	TestCoolDownCycle	冷却期循环
connection_manager_test.go	TestDailyReset	每日清零
network_detector_test.go	TestNetworkDetection	网络状态检测
connection_pool_test.go	TestPoolSingleConnection	单PLC单连接约束
scheduler_test.go	TestBatchMerge	批量读写合并

12. 实施计划

12.1 阶段一: 状态机核心

新增 ConnectionManager 结构体
实现状态转换逻辑
实现指数退避算法
实现每日清零机制

12.2 阶段二: 冷却与探测

实现冷却期管理
实现Half-Open探测机制
集成到 transport.go

12.3 阶段三: 连接复用

新增 ConnectionPool
实现单PLC单连接约束
集成到调度器

12.4 阶段四: 批量读写优化

增强 S7Scheduler 合并逻辑
实现DB块连续读取
增加读取缓存

12.5 阶段五: 网络感知

新增 NetworkDetector
实现网关断网全局暂停
集成到重连流程

13. 总结

本方案将 S7 驱动从”限制重连次数+独立心跳”的简单模式，升级为”带退避、冷却、限流、复用的连接生命周期系统”，核心改进：

维度	改进前	改进后
健康检测	独立心跳定时器	采集驱动健康检测（采集成功=健康，失败=异常）
重连策略	固定间隔重试	指数退避 + 抖动
失败处理	无限重试	达到阈值进入冷却
连接管理	短连接频繁Dial	长连接复用池化
读写效率	单点读写	按DB块批量合并
故障隔离	全局同一策略	设备级状态隔离
网络感知	无	网关断网全局暂停
低频场景	心跳浪费资源	轻量探测补偿
PLC适配	统一配置	按PLC类型差异化（200Smart: 8次重试/3次失败/60秒周期）

通过这套机制，可以有效保护PLC连接资源，避免雪崩效应，提升系统稳定性和通信效率。

13.1 PLC类型差异化策略

PLC类型	最大重试次数	最大采集失败次数	默认采集周期
S7-200 Smart	8次	3次	60秒
S7-1200	64次	5次	10秒
S7-1500	64次	5次	10秒
S7-300/400	64次	5次	10秒

13.2 核心设计理念

采集即健康检测: 取消独立心跳，通过采集操作本身判断连接状态，实现数据采集与状态感知的统一调度。

轻量探测补偿: 低频采集场景下（超过采集周期3倍无活动），自动触发轻量读请求（读取M区1字节），确保连接存活状态及时感知。

状态机驱动: 完整的连接状态机（Disconnected→Connecting→Connected→Retrying→Dead），确保连接生命周期的可控管理。