开发者
资源
S920X20 服务器I2C I3C链路异常问题案例分析

S920X20 服务器I2C I3C链路异常问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/30

0

1 问题现象描述

硬件配置

  • 型号:S920X20服务器
  • 配置:2*Kunpeng 920 7280Z+16*DIMM

问题现象

BMC告警:CPU 2(CpuBoard1 CPU2) triggered an uncorrectable error

历史告警:I2C/I3C link of DIMM100 is abnormal (SN:80CE042508526D5F24)


2 关键过程与根因分析

关键过程

Step 1:SEL日志分析

SEL日志记录到DIMM100的I2C I3C链路异常告警又解除。

Step 2:FDM日志分析

日志显示:

  • [Major Warning],CPU2 uncorrect error
  • Caterr Signal Assert
  • CPU1(TotemA) Rst Out
  • CPU1(TotemB) Rst Out
  • CPU2(TotemB) Rst Out

Step 3:CPU与DIMM对应关系

  • Socket 0对应CPU1
  • Socket 1对应CPU2
  • 每个CPU都包含TotemA、TotemB

Step 4:多通道异常分析

  • DIMM120、DIMM160也存在UCE情况

  • 环境上有两种异常:
  1. pciece ras风暴;
  2. cpu2dimm120 dimm160 dimm100都在报uceras

Step 5:问题定位

  • Socket: CPU2 DIE: TotemB Module: DDRC0
  • Socket: CPU2 DIE: TotemB Module: DDRC2
  • Socket: CPU2 DIE: TotemB Module: DDRC3

DIMM有异常导致PCIe的读写也出现异常。可能存在DIMM PMIC失效导致多通道报RAS的问题。

指向的内存是DIMM120、121、160、161、100,101。该设备上只配置了主通道DIMM,所以指向DIMM120、160、100,这三根内存中至少有一根内存故障,需要最小化测试,但是问题不是立马复现,现网不能测试操作,所有只能先更换DIMM120、160、100内存,更换后CPU2告警消除。fdm日志也无其他报错。

现在报上的I2C/I3C link of DIMM100 is abnormal (SN:80CE042508526D5F24),但实际在mem_info日志中记录的内存SN为DIMM120的SN。

sel告警DIMM100内存(SN:80CE042508526D5F24)与丝印(SN:80CE042508526EF92B)DIMM100的SN对应关系不一致,该问题属于已知问题,在BIOS 20.45解决,建议升级BIOS 20.45

根因分析

  1. CPU2 UCE告警指向了两种错误:PCIe的CE RAS风暴和CPU2的DIMM120/160/100都在报UCE的RAS
  2. DIMM有异常导致PCIe的读写也出现异常
  3. 可能存在DIMM PMIC失效导致多通道报RAS的问题

3 结论、解决方案及效果

结论

CPU2存在DIMM异常,导致多通道报UCE RAS告警。DIMM100告警SN与实际丝印SN不一致是BIOS已知问题。

解决方案

  1. 如果客户允许,可以排除DIMM120、160、100内存,一根一根测试直到排查到故障内存
  2. 如果条件允许,更换DIMM120、160、100内存
  3. 升级BIOS到20.45版本解决SN对应问题

效果

更换问题内存后CPU2告警消除,FDM日志无其他报错。


4 经验总结与预防措施

经验总结

  1. DIMM PMIC失效可能导致多通道同时报RAS异常
  2. 内存SN告警与实际槽位可能存在BIOS版本导致的映射问题

预防措施

  1. 定期检查内存健康状态
  2. 关注BIOS版本更新,修复已知问题

本页内容