0x01 前言

前些天我的Dell R720服务器里有一根内存出现异常,在除错的过程中我详细了解R720的内存配置。我在这里将除错过程和基本配置信息记录下来。

0x02 错误

在上周,我发现服务器后部的状态灯不再是正常的蓝灯常亮状态,而是黄色闪烁的状态。登入到idrac中查看日志如下:

根据以下错误日志,可以确定A5插槽的内存纠错比超过设定的上限:

Correctable memory error rate exceeded for DIMM_A5.

其实这根内存目前还可以使用,但推荐尽快更换。在Dell的知识库中有以下信息:

MEM0701	Correctable memory error rate exceeded for .	内存可能无法正常工作。 这是未来可能出现不可纠正错误的一种早期迹象。	请重置内存模块。 如果错误仍然存在,请通过将当前模块与系统中的另一个相同模块进行交换来交换测试内存模块,看看另一个相同模块是否也出现错误。 如果问题仍然存在, 请联系支持部门, 因为可能需要更换内存

MEM0702	Correctable memory error rate exceeded for .	内存可能无法正常工作。 这是未来可能出现不可纠正错误的一种早期迹象。	请重置内存模块。 如果错误仍然存在,请通过将当前模块与系统中的另一个相同模块进行交换来交换测试内存模块,看看另一个相同模块是否也出现错误。 如果问题仍然存在, 请联系支持部门, 因为可能需要更换内存

0x03 修复

修复过程很简单,先关闭系统,更换坏掉的内存条即可:

0x04 插槽配置

系统包含 24 个内存插槽,分为两组(每组 12 个),每个处理器一组。每组的 12 个插槽分入四个通道。在每个通道中,第一个插槽的释放拉杆标为白色,第二个插槽的标为黑色,第三个插槽的标为绿色。

插槽 A1 至 A12 中的 DIMM 分配给处理器 1,插槽 B1 至 B12 中的 DIMM 分配给处理器 2:

内存通道按如下方式配置:

处理器 通道 插槽
1 0 A1、A5、A9
1 A2、A6、A10
2 A3、A7、A11
3 A4、A8、A12
2 0 B1、B5、B9
1 B2、B6、B10
2 B3、B7、B11
3 B4、B8、B12

0x05 频率

我的服务器支持 DDR3 不带缓存的 ECC DIMM (ECC UDIMM)、带寄存器的 DIMM (RDIMM) 以及负载降低的 DIMM (LRDIMM)。它支持 DDR3 和 DDR3L 电压规格。

其中内存总线操作频率可以是 1866 MT/s、1600 MT/s、1333 MT/s、1066 MT/s 或 800 MT/s。实际中我的服务器内存运行在1066 MT/s频率中,因为服务器中12根的内存频率为1066。

另外根据内存条规格与电压的不同,频率也有所变化,配置信息如下表:

0x06 注意事项

  • UDIMM、RDIMM 和 LRDIMM 不得混用。
  • 一个通道中最多可填充两个 UDIMM。
  • 每个通道中最多可填充两个四列 RDIMM 和三个双列或单个 RDIMM。当在具有白色释放拉杆的第一个插槽中填充四列 RDIMM 时,具有绿色释放拉杆的通道中第三个 DIMM 插槽无法填充。
  • 无论列数是多少,最多可以安装三个 LRDIMM。
  • 仅在安装处理器时填充 DIMM 插槽。对于单处理器系统,插槽 A1 至 A12 可用。对于双处理器系统,插槽 A1 至 A12 和插槽 B1 至 B12 可用。
  • 先填充具有白色释放卡舌的所有插槽,再填充具有黑色卡舌的插槽,最后填充具有绿色卡舌的插槽。
  • 如果在具有白色释放卡舌的第一个插槽中填充四列 RDIMM,则请勿填充具有绿色释放卡舌的通道中的第三个 DIMM 插槽。
  • 按以下顺序按最高列数填充插槽 — 首先填充具有白色释放拉杆的插槽,再填充具有黑色释放拉杆的插槽,最后填充具有绿色释放拉杆的插槽。例如,如果要混用四列和双列 DIMM,则填充具有白色释放卡舌的插槽中的四列 DIMM,再填充具有黑色释放卡舌的插槽中的双列 DIMM。
  • 在双处理器配置中,每个处理器的内存配置应该相同。例如,如果填充处理器 1 的插槽 A1,则填充处理器 2 的插槽 B1,以此类推。
  • 如果遵循其它内存安装规则,则不同大小的内存模块可以混用(例如,2 GB 和 4 GB 内存模块可以混用)。
  • 每个处理器一次填充四个 DIMM(每个通道一个 DIMM)以最大化性能。
  • 如果安装不同速度的内存模块,它们将以最低或较低安装内存模块速度运行(具体取决于系统 DIMM 配置)。

0x07 配置示例

  • 1R、2R 和 4R 分别表示单列、双列和四列 DIMM。

单个处理器的内存配置示例:

两个处理器的内存配置示例:

注意:在两个处理器的内存配置中,分别使用16G和8G内存进行搭配配置,需要遵循以下规则:

16 GB DIMM 必须安装在编号为A1、A2、A3、A4、B1、B2、B3 和B4 的插槽 中,8 GB DIMM 必须安装在插槽A5、A6、B5 和B6 中。

0x08 结语

有些企业并没有将内存插槽满配,而是使用大容量内容如单根64GB或更大的内存进行配置。这时候就需要参考以上表格或参考配置手册。

在安装错误的情况下并不会导致系统烧坏,系统在自检的时候会提示错误,只需要根据错误日志重新配置即可。

0x09 相关视频

  • EP7 – Dell R720 除错次数过多导致报警 更换内存

https://www.bilibili.com/video/av10645735/