Решено cisco UCS b 200 ошибка памяти code=F1237

Статус
Закрыто для дальнейших ответов.

Lehhaa

Участник
Добрый день, блейд сервер показывает предупреждение
DDR4_P1_B1_ECC:Sensor Threshold Crossed; DDR4_P1_B2_ECC:Sensor Threshold Crossed;
Подскажите что делать ?
Код:
<faultInst
ack="no"
cause="health-led-amber"
changeSet=""

code="F1237"
created="2020-05-19T16:16:49"
descr="Health LED of server 1/6 shows error. Reason: DDR4_P1_B1_ECC:Sensor Threshold Crossed; DDR4_P1_B2_ECC:Sensor Threshold Crossed; "
dn="sys/chassis-1/blade-6/health-led/fault-F1237"
highestSeverity="minor"
id="2862664"
lastTransition="2020-05-19T16:16:49"
lc=""
occur="1"
origSeverity="minor"
prevSeverity="minor"

rule="equipment-health-led-minor-error"
severity="minor"
status="created"
tags="server"
type="equipment">
</faultInst>
 
Последнее редактирование:
Еще есть другая ошибка
Код:
 <faultInst
 ack="no"
 cause="equipment-degraded"
 changeSet=""
 
 code="F0184"
 created="2020-05-19T16:17:16"
 descr="DIMM B1 on server 1/6 operability: degraded"
dn="sys/chassis-1/blade-6/board/memarray-1/mem-4/fault-F0184"
 highestSeverity="minor"
 id="2862666"
 lastTransition="2020-05-19T16:17:16"
 lc=""
 occur="1"
 origSeverity="minor"
 prevSeverity="minor"
 
 rule="memory-unit-degraded"
 severity="minor"
 status="created"
 tags="server"
 type="equipment">
 </faultInst>
 
Эта ошибка возникает, когда модуль DIMM находится в ухудшенном состоянии работоспособности. Это состояние обычно возникает, когда BIOS DIMM сообщает об избыточном количестве исправляемых ошибок ECC в DIMM.

Рекомендуемые действия:
Если вы видите эту ошибку, попробуйте предпринять следующие действия:
Шаг 1
blank.gif
Проверьте статистику ошибок на degrtaded DIMM через Cisco UCS Manager. Если вы увидите большое количество ошибок, то с большой долей вероятности модуль памяти скоро выйдет из строя - DIMM.
Шаг 2
blank.gif
Если DIMM уже вышел из строя то замена DIMM.
Шаг 3
blank.gif
Если ошибка возникает после замены DIMM то заводить Cisco TAC.
 
Добрый день, блейд сервер показывает предупреждение

Подскажите что делать ?
Код:
<faultInst
ack="no"
cause="health-led-amber"
changeSet=""

code="F1237"
created="2020-05-19T16:16:49"
descr="Health LED of server 1/6 shows error. Reason: DDR4_P1_B1_ECC:Sensor Threshold Crossed; DDR4_P1_B2_ECC:Sensor Threshold Crossed; "
dn="sys/chassis-1/blade-6/health-led/fault-F1237"
highestSeverity="minor"
id="2862664"
lastTransition="2020-05-19T16:16:49"
lc=""
occur="1"
origSeverity="minor"
prevSeverity="minor"

rule="equipment-health-led-minor-error"
severity="minor"
status="created"
tags="server"
type="equipment">
</faultInst>
Может помочь - подключись через SSH к UCSM IP

Код:
ca-1-A# scope server 1/6
ca-1-A /chassis/server # reset-all-memory-error
sca-1-A /chassis/server* # commit
 
Последнее редактирование:
Попробовал этот вариант, затем перевел сервер в maintenance mode, сделал в vmware reset to green и перезагрузил. После перезагрузки варя опять ругаться начала на
Host memory status
Host hardware system board status
 
И да кстати в cisco UCSM ошибки по памяти опять повылазили
 
Была похожая ошибка год назад, обращалась в циско, отправляла им логи на разбор полетов.
Ответили так
Thanks for the logs, the 3 DIMMs are full of correctable errors, which it is not common, so we can be facing a motherboard issue.
Это я к чему - может еще в материнской плате дело быть...
 
Похоже все - бобик сдох
Код:
 <faultInst
 ack="no"
 cause="equipment-inoperable"
 changeSet=""
 
 code="F0317"
 created="2020-05-24T18:11:54"
 descr="Server 1/6 (service profile: org-root/ls-server-esxi-06) health: inoperable"
 dn="sys/chassis-1/blade-6/fault-F0317"
 highestSeverity="major"
 id="2872606"
 lastTransition="2020-05-24T18:11:54"
 lc=""
 occur="1"
 origSeverity="major"
 prevSeverity="major"
 
 rule="compute-physical-inoperable"
 severity="major"
 status="created"
 tags="server"
 type="equipment">
 </faultInst>
 
выдерните сервер, вскройте попробуйте местами память поменять
 
Статус
Закрыто для дальнейших ответов.
Назад
Верх