S920X20 服务器I2C I3C链路异常问题案例分析
发表于 2026/06/30
0
1 问题现象描述
硬件配置
- 型号:S920X20服务器
- 配置:2*Kunpeng 920 7280Z+16*DIMM
问题现象
BMC告警:CPU 2(CpuBoard1 CPU2) triggered an uncorrectable error
历史告警:I2C/I3C link of DIMM100 is abnormal (SN:80CE042508526D5F24)
2 关键过程与根因分析
关键过程
Step 1:SEL日志分析
SEL日志记录到DIMM100的I2C I3C链路异常告警又解除。


Step 2:FDM日志分析
日志显示:
[Major Warning],CPU2 uncorrect errorCaterr Signal AssertCPU1(TotemA) Rst OutCPU1(TotemB) Rst OutCPU2(TotemB) Rst Out

Step 3:CPU与DIMM对应关系
- Socket 0对应CPU1
- Socket 1对应CPU2
- 每个CPU都包含TotemA、TotemB


Step 4:多通道异常分析
- DIMM120、DIMM160也存在UCE情况

- 环境上有两种异常:
- pcie的ce ras风暴;
- cpu2的dimm120 dimm160 dimm100都在报uce的ras;

Step 5:问题定位
- Socket: CPU2 DIE: TotemB Module: DDRC0
- Socket: CPU2 DIE: TotemB Module: DDRC2
- Socket: CPU2 DIE: TotemB Module: DDRC3
DIMM有异常导致PCIe的读写也出现异常。可能存在DIMM PMIC失效导致多通道报RAS的问题。
指向的内存是DIMM120、121、160、161、100,101。该设备上只配置了主通道DIMM,所以指向DIMM120、160、100,这三根内存中至少有一根内存故障,需要最小化测试,但是问题不是立马复现,现网不能测试操作,所有只能先更换DIMM120、160、100内存,更换后CPU2告警消除。fdm日志也无其他报错。
现在报上的I2C/I3C link of DIMM100 is abnormal (SN:80CE042508526D5F24),但实际在mem_info日志中记录的内存SN为DIMM120的SN。
sel告警DIMM100内存(SN:80CE042508526D5F24)与丝印(SN:80CE042508526EF92B)DIMM100的SN对应关系不一致,该问题属于已知问题,在BIOS 20.45解决,建议升级BIOS 20.45
根因分析
- CPU2 UCE告警指向了两种错误:PCIe的CE RAS风暴和CPU2的DIMM120/160/100都在报UCE的RAS
- DIMM有异常导致PCIe的读写也出现异常
- 可能存在DIMM PMIC失效导致多通道报RAS的问题
3 结论、解决方案及效果
结论
CPU2存在DIMM异常,导致多通道报UCE RAS告警。DIMM100告警SN与实际丝印SN不一致是BIOS已知问题。
解决方案
- 如果客户允许,可以排除DIMM120、160、100内存,一根一根测试直到排查到故障内存
- 如果条件允许,更换DIMM120、160、100内存
- 升级BIOS到20.45版本解决SN对应问题
效果
更换问题内存后CPU2告警消除,FDM日志无其他报错。
4 经验总结与预防措施
经验总结
- DIMM PMIC失效可能导致多通道同时报RAS异常
- 内存SN告警与实际槽位可能存在BIOS版本导致的映射问题
预防措施
- 定期检查内存健康状态
- 关注BIOS版本更新,修复已知问题


