Не решено ошибка памяти в b200 m4

Funtik

Случайный прохожий
Добрый день коллеги! Увидел что в vmware появился alarm на отдом из esxi. Зашел в ucs manager и увидел такое предупреждение:

Можете подсказать в чем дело ? Походу что то с памятью ??:fie:

Код:
 descr="[B]DIMM B2 on server 1/1 operability: degraded[/B]"
 dn="sys/chassis-1/blade-1/board/memarray-1/mem-5/fault-F0184"
Код:
 descr="[B]DIMM B1 on server 1/1 operability: degraded[/B]"
 dn="sys/chassis-1/blade-1/board/memarray-1/mem-4/fault-F0184"
Код:
 descr="[B]DIMM B3 on server 1/1 operability: degraded[/B]"
 dn="sys/chassis-1/blade-1/board/memarray-1/mem-6/fault-F0184"
Health LED of server 1/1 shows error. Reason: DDR4_P1_B1_ECC:Sensor Threshold Crossed; DDR4_P1_B2_ECC:Sensor Threshold Crossed;
dn="sys/chassis-1/blade-1/health-led/fault-F1237"
 
Последнее редактирование модератором:

Surf_rider

Администратор
Команда форума
Можете сказать в каком состоянии сейчас сервер up-running, down, freeze ? (Это в ucs manager видно если зайти на ноду)
Думаю модули памяти - DIMMs B1, B2, B3 вышли из строя:think2:
 

LayLa

Участник
Добрый день коллеги! Увидел что в vmware появился alarm на отдом из esxi. Зашел в ucs manager и увидел такое предупреждение:

Можете подсказать в чем дело ? Походу что то с памятью ??:fie:

Код:
 descr="[B]DIMM B2 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-5/fault-F0184"
Код:
 descr="[B]DIMM B1 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-4/fault-F0184"
Код:
 descr="[B]DIMM B3 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-6/fault-F0184"
А сервер пробовали тупо перезагрузить ?
 

Funtik

Случайный прохожий
нет не пробовал - жду техническое окно. Но он пингуется вроде бы
 

NanoSuit

Участник
Добрый день коллеги! Увидел что в vmware появился alarm на отдом из esxi. Зашел в ucs manager и увидел такое предупреждение:

Можете подсказать в чем дело ? Походу что то с памятью ??:fie:

Код:
 descr="[B]DIMM B2 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-5/fault-F0184"
Код:
 descr="[B]DIMM B1 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-4/fault-F0184"
Код:
 descr="[B]DIMM B3 on server 1/1 operability: degraded[/B]"
dn="sys/chassis-1/blade-1/board/memarray-1/mem-6/fault-F0184"
Попробуй сбросить счетчик ECC

Код:
     ca-1-A# scope server 1/1
     ca-1-A /chassis/server # reset-all-memory-errors
     ca-1-A /chassis/server* # commit
Перезагрузи CIMC из Server recovery.
Код:
UCSM GUI >> equipment >> выбрать server >>выбрать Recover Server >> reset CIMC
 

Funtik

Случайный прохожий
уже не в офисе. Сделаю и завтра отпишусь...
 

Apossum

Участник
да пусть сначала виртуальные машины оттуда мигрирует и просто перезагрузит, может глюк просто
 

NanoSuit

Участник
CIMC это Cisco Integrated Management Controller
 

Funtik

Случайный прохожий
В общем после всех манипуляций со сбросом cmic сервер видимо ушел в перезагрузку и стал inaccesseble

descr="Thermal condition on chassis 1. IOM-B reports: No connectivity between IOM and blades(1); IOM-A reports: No connectivity between IOM and blades(1);"
dn="sys/chassis-1/fault-F0411"
rule="equipment-chassis-thermal-threshold-non-recoverable"
 

Funtik

Случайный прохожий
Вот такая балалайка
Код:
 <faultInst
 ack="no"
 cause="equipment-inoperable"
 changeSet=""

 code="F0317"
 created="2019-11-22T05:59:52"
[B] descr="Server 1/1 (service profile: org-root/ls-srv-esxi-01) health: inoperable"[/B]
 dn="sys/chassis-1/blade-1/fault-F0317"
 highestSeverity="major"
 id="2442860"
 lastTransition="2019-11-22T05:59:52"
 lc=""
 occur="1"
 origSeverity="major"
 prevSeverity="major"

 rule="compute-physical-inoperable"
 severity="major"
 status="created"
 tags="server"
 type="equipment">
 </faultInst>
 
Верх Низ