Не решено Просмотр логов ESXI

a.ustinov

Почетный гость
09.02.2022
49
1
8
Екатеринбург
В ESXI несколько storage.На одном из хранилищ есть виртуалка объемистая. При ее включении, через несколько времени: день, неделя, всегда по разному, - гипервизор наглухо виснет. Если не включать эту виртуалку, все ок.Проблема в самом хранилище. 4 диска в Raid10. Один из дисков видимо глючит. Ранее была такая ситуация, но там контроллер сразу начинал сигналить о неисправности, а сейчас в свойствах контроллера, состояние норм.
В каком из логов гипервизора можно увидеть неполадки дисков?
/var/log/vmkwarning.log в этом есть записи типа cpu1:2098738)WARNING: ScsiDeviceIO: 6603: The Physical block size "8388608" reported by the device naa.2000acde48234567 is not supported. The only supported physical blocksizes are 512 and 4096
Но это к загрузочной флешке относятся. Так всегда было.
 
Облако на базе VMware
Для диагностики проблем с дисками в ESXi в первую очередь необходимо обратить внимание на несколько ключевых логов, каждый из которых содержит свой срез информации.

Вот три основных лога, где можно увидеть неполадки дисков:

| Название лога | Путь к файлу | Какую информацию о дисках содержит |

| vmkernel.log | `/var/run/log/vmkernel.log` | Основной и самый важный лог. Содержит все события ядра, связанные с оборудованием, включая ошибки устройств ввода-вывода, проблемы с VMFS-томами (например, повреждение метаданных), отказы SCSI-команд и потерю связи с устройством хранения . |
| hostd.log | `/var/run/log/hostd.log` | Лог менеджмента хоста. Здесь фиксируются ошибки, возникающие при операциях с виртуальными машинами, которые часто связаны с дисками: сбои при консолидации снэпшотов, проблемы с блокировкой файлов VMDK и ошибки «No space left» . |
| vobd.log | `/var/run/log/vobd.log` | Лог событий, отправляемых vOB (VMware Observation). В него попадают уведомления о критических проблемах с оборудованием, таких как превышение порога перегрузки SSD, обнаружение неисправимых ошибок чтения (URE) или подтверждение повреждения хранилища . |

Чтобы вам было проще ориентироваться, вот несколько типичных сценариев, в которых эти логи помогут найти причину проблемы:

Причина: Пропадает или не определяется datastore.
* Где искать:
* В первую очередь в `vmkernel.log` на предмет сообщений о недоступности устройства, ошибках путей или повреждении VMFS .
* В `vobd.log` на предмет явных событий повреждения хранилища .
**Причина:** Виртуальная машина не включается, или не работают ее диски.
Где искать
* В `vmkernel.log` на предмет ошибок открытия устройства (например, `No such device`) .
* В `vmware.log` (лог самой ВМ, который находится в ее папке на datastore). Он очень полезен для диагностики проблем с конкретным виртуальным диском или сбойной консолидации .

Причина: Проблемы с производительностью или отказами в vSAN среде.

Где искать:
* В `vobd.log` на предмет событий перегрузки SSD (`SSDCongestion`) и неисправимых ошибок чтения (`metadataURE`) .
* В `vmkernel.log` на предмет ошибок, связанных со службой `vsanmgmt` .

Чтобы начать диагностику, проще всего подключиться к ESXi-хосту по SSH и выполнить команду для просмотра лога в реальном времени. Например, для наблюдения за ядерными событиями:

tail -f /var/run/log/vmkernel.log

Нажмите `Ctrl+C`, чтобы выйти из режима реального времени. Для поиска конкретных ошибок, например, связанных с проблемами ввода-вывода, используйте `grep`:

grep -i "error\|fail\|corrupt\|io" /var/run/log/vmkernel.log

Понимание этих логов — ключевой навык для администратора vSphere. Если вы столкнулись с конкретной проблемой и нашли в логах ошибку, скопируйте её сюда — вместе мы сможем её проанализировать.