Проблема NetApp FAS 8200 Не запускается

Sanya_

Почетный гость
Здравствуйте, было отключение энергии, УПС продержал сколько смог, В итоге NetApp FAS 8200 отключился и не стартанул сам. Полки с Дисками запустились.
Выключили NetApp по питанию и включили снова. Пошел продув и на первой Ноде загорелись только индикаторы Эзернет и Оранжевый (!) . На второй Ноде вообще ничего. Есть идеи как его реанимировать.
Спасибо.
 

UEF

Модератор
Команда форума
Как включали и в какой последовательности? Попробуйте включить сначала полки потом через какое то время голову с контроллерами
 

UEF

Модератор
Команда форума
Что будет если с одним контроллером попробовать запустить голову
 

Serg

Случайный прохожий
Здравствуйте, было отключение энергии, УПС продержал сколько смог, В итоге NetApp FAS 8200 отключился и не стартанул сам. Полки с Дисками запустились.
Выключили NetApp по питанию и включили снова. Пошел продув и на первой Ноде загорелись только индикаторы Эзернет и Оранжевый (!) . На второй Ноде вообще ничего. Есть идеи как его реанимировать.
Спасибо.
А что в консоли написано?
 

Goblin

Участник
You must boot the ONTAP image from the USB drive, restore the file system, and verify the environmental variables. This procedure applies to systems that are not in a two-node MetroCluster configuration.



  1. From the LOADER prompt, boot the recovery image from the USB flash drive:boot_recovery
    The image is downloaded from the USB flash drive.
  2. When prompted, either enter the name of the image or accept the default image displayed inside the brackets on your screen.
  3. Restore the var file system:
    If your system has...​
    Then...​
    A network connection
    1. Press y when prompted to restore the backup configuration.
    2. Set the healthy node to advanced privilege level:set -privilege advanced
    3. Run the restore backup command:system node restore-backup -node local -target-address impaired_node_IP_address
    4. Return the node to admin level:set -privilege admin
    5. Press y when prompted to use the restored configuration.
    6. Press y when prompted to reboot the node.
    No network connection
    1. Press n when prompted to restore the backup configuration.
    2. Reboot the system when prompted by the system.
    3. Select the Update flash from backup config (sync flash) option from the displayed menu.
      If you are prompted to continue with the update, press y.
  4. Verify that the environmental variables are set as expected.
    1. Take the node to the LOADER prompt.
    2. Check the environment variable settings with the printenv command.
    3. If an environment variable is not set as expected, modify it with the setenv environment_variable_name changed_value command.
    4. Save your changes using the saveenv command.
    5. Reboot the node.
  5. The next step depends on your system configuration:
    If your system is in...​
    Then...​
    An HA pairAfter the impaired node is displaying the Waiting for Giveback... message, perform a giveback from the healthy node:
    1. Perform a giveback from the healthy node:storage failover giveback -ofnode partner_node_name
      This initiates the process of returning ownership of the impaired node's aggregates and volumes from the healthy node back to the impaired node.
      Note: If the giveback is vetoed, you can consider overriding the vetoes.
      ONTAP 9 High-Availability Configuration Guide
    2. Monitor the progress of the giveback operation by using the storage failover show-giveback command.
    3. After the giveback operation is complete, confirm that the HA pair is healthy and that takeover is possible by using the storage failover show command.
    4. Restore automatic giveback if you disabled it by using the storage failover modify command.
 

Zayac

Случайный прохожий
Если netapp не грузится...

Steps​

  1. Look for a description of the problem on the console.

    You must follow any instructions provided on the console.

  2. Check all cables and connections, making sure they are secure.
  3. Ensure that power is supplied and is reaching your system from the power source.
  4. Make sure that the power supplies on your controller and disk shelves are working:
    If the LEDs on a power supply are...​
    Then...​
    IlluminatedProceed to the next step.
    Not illuminatedRemove the power supply and reinstall it, making sure that it connects with the backplane.
  5. Verify disk shelf compatibility with your version of Data ONTAP and ensure that the disk shelf IDs are unique.

    For more information, see the Hardware Universe.

  6. If your system has SAS shelves, go to step 7; otherwise ensure that the Fibre Channel disk shelf speed is correct.
  7. Check disk ownership to ensure that the disks are assigned to the system:
    1. Boot into maintenance mode and select option 5.
      If you cannot boot into the 1-5 menu, you probably have an issue with the boot image or the CF card. Contact technical support.
    2. Verify that disks are assigned to the system by entering disk show.
    3. Validate that storage is attached to the system, and verify any changes you made, by entering disk show -v.
  8. Turn off your controller and disk shelves, and then turn on the disk shelves.
    For information about LED responses, check the quick reference card that came with the disk shelf or the hardware guide for your disk shelf.
  9. Use the onboard diagnostics to check that Fibre Channel disks in the storage system are operating properly:
    1. Turn on your system and press Ctrl-C.
      Enter boot_diags at the LOADER> prompt.
    2. Enter fcal in the Diagnostic Monitor program that starts at boot.
    3. Enter 73 at the prompt to show all disk drives.
    4. Exit the Diagnostic Monitor by entering 99 at the prompt, as needed.
    5. Enter the exit command to return to LOADER.
    6. Start Data ONTAP by entering autoboot at the prompt.
  10. Use the onboard diagnostics to check that SAS disks in the storage system are operating properly:
    1. Enter boot_diags at the LOADER> prompt.
    2. Enter mb in the Diagnostic Monitor program.
    3. Enter 6 to select the SAS test menu.
    4. Enter 42 to scan and show disks on the selected SAS.
      This displays the number of SAS disks.
    5. Enter 72 to show the attached SAS devices.
    6. Exit the Diagnostic Monitor by entering 99 at the prompt, as needed.
    7. Enter the exit command to return to LOADER.
    8. Start Data ONTAP by entering autoboot at the prompt.
  11. Try booting your system again:
    If your system...​
    Then...​
    Boots successfullyProceed to set up the software.
    Does not boot successfullyContact technical support. The system might not have the boot image downloaded on the boot device.

    Depending on your storage controller model, see the Diagnostics Guide or System-Level Diagnostics Guide for more information about running diagnostics.
 

ROOT

Случайный прохожий
надо смотреть что в консоли..
 

Sanya_

Почетный гость
Как включали и в какой последовательности? Попробуйте включить сначала полки потом через какое то время голову с контроллерами
Спасибо за участие. Так и включали. Полки запустились без проблем, голова нет, то есть питание пошло блоки питания в норме, продув прошел. один контроллер через 1 мин. выдает ошибку (!), линки к полкам не светятся, второй вообще без индикации.
 

Sanya_

Почетный гость
надо смотреть что в консоли..
Спасибо, не могу достучаться до консоли. Подключил к ноуту COM4 поднялся. через Serial COM4 9600 связи нет. Может, что не так делаю? Оборудование досталось по наследству только начинаю разбираться с ним.
 

Surf_rider

Администратор
Команда форума
Спасибо, не могу достучаться до консоли. Подключил к ноуту COM4 поднялся. через Serial COM4 9600 связи нет. Может, что не так делаю? Оборудование досталось по наследству только начинаю разбираться с ним.
The console port settings should be 9600, N-8-1

UPD. Ошибся. Set the console port on the laptop to 115,200 baud with N-8-1, connect to the micro-USB port on the controller with the console cable.
 

Sanya_

Почетный гость
The console port settings should be 9600, N-8-1

UPD. Ошибся. Set the console port on the laptop to 115,200 baud with N-8-1, connect to the micro-USB port on the controller with the console cable.
Спасибо за участие. Не сработало ( консоль молчит. Есть смысл разбирать? в смысле отключить питание, достать блоки питания, достать Ноды. Пробовать по очереди тестить
При этом можно ли не отключать от питания полки?
 

Apossum

Участник
При этом можно ли не отключать от питания полки?
Я бы попробовал так.
1. Все выключил, включая полки.
2. Достал из головы контроллеры a/b.
3. Вставил один обратно (который подавал признаки жизни).
4. Включил сначала все полки, потом минут через 5 голову с 1 контроллером.

Возможно состояние когда

Message
Dirty shutdown in degraded mode

Description
The file system is inconsistent because you did not shut down the system cleanly when it was in degraded mode.
 

NanoSuit

Активный участник
Не понимаю все равно. А до отключения оба контроллера работали ? Может просто у вас откинулся единственный оставшийся и "карета превратилась в тыкву"?
 

Sanya_

Почетный гость
Я бы попробовал так.
1. Все выключил, включая полки.
2. Достал из головы контроллеры a/b.
3. Вставил один обратно (который подавал признаки жизни).
4. Включил сначала все полки, потом минут через 5 голову с 1 контроллером.

Возможно состояние когда
Спасибо. Видимо сегодня день ЦОДА )))))). Отпишусь по результатам.
 

NanoSuit

Активный участник
  • Haha
Реакции: UEF

Sanya_

Почетный гость
Не понимаю все равно. А до отключения оба контроллера работали ? Может просто у вас откинулся единственный оставшийся и "карета превратилась в тыкву"?
Да все работали, больше двух лет без отключений и перезагрузок. Мониторим постоянно. Был сбой по электрике, переключение на резервный канал сработало, но по мониторингу ИБП, после переключения на резервном канале батареи не заряжались питание шло напрямую мимо ИБП.
Все сервера и другие NetApp остались онлайн. Этот держит архив поэтому отключение заметили не сразу. Не знаю связано ли это с переключением питания или Звёзды.
Берем бубен и идем в ЦОД разбираться.
 

Sanya_

Почетный гость
Здравствуйте.
Не удалось поднять СХД (((. Отключили все (полки, достали второй контроллер, отключили сеть с серверами) оставили только сервис и порт управления.
Через минуту после включения уходит в ошибку и достучаться к нему нет возможности. Пинга нет, SSH нет, COM нет.
На картинке контроллер без подключений. Полностью подключенный такая же индикация.

Писали, что можно попробовать с образа через USB. Только я не очень в курсе как.
Кто знает просветите пожалуйста.

You must boot the ONTAP image from the USB drive, restore the file system, and verify the environmental variables. This procedure applies to systems that are not in a two-node MetroCluster configuration.


P.S
Проделали тоже самое и с нижним контроллером, после включения моргнул тест, пару раз эзернет и все вообще никаких признаков жизни.
 

Вложения

  • 8541.jpg
    8541.jpg
    376 КБ · Просмотры: 5

NanoSuit

Активный участник
А образ ontap есть то у вас ?

Порядок действий такой отсюда

The replacement boot media that you installed does not have a boot image, so you need to transfer a boot image using a USB flash drive.
  • You must have a USB flash drive, formatted to MBR/FAT32, with at least 4GB capacity
  • A copy of the same image version of ONTAP as what the impaired controller was running. You can download the appropriate image from the Downloads section on the NetApp Support Site
    • If NVE is enabled, download the image with NetApp Volume Encryption, as indicated in the download button.
    • If NVE is not enabled, download the image without NetApp Volume Encryption, as indicated in the download button.
  • If your system is an HA pair, you must have a network connection.
  • If your system is a stand-alone system you do not need a network connection, but you must perform an additional reboot when restoring the var file system.
    1. Download and copy the appropriate service image from the NetApp Support Site to the USB flash drive.
      1. Download the service image to your work space on your laptop.
      2. Unzip the service image.
        Note
        If you are extracting the contents using Windows, do not use winzip to extract the netboot image. Use another extraction tool, such as 7-Zip or WinRAR.
        There are two folders in the unzipped service image file:
        • boot
        • efi
      3. Copy the efi folder to the top directory on the USB flash drive.
        The USB flash drive should have the efi folder and the same Service Image (BIOS) version of what the impaired controller is running.
      4. Remove the USB flash drive from your laptop.
    2. If you have not already done so, close the air duct.
    3. Align the end of the controller module with the opening in the chassis, and then gently push the controller module halfway into the system.
    4. Reinstall the cable management device and recable the system, as needed.
      When recabling, remember to reinstall the media converters (SFPs or QSFPs) if they were removed.
    5. Plug the power cable into the power supply and reinstall the power cable retainer.
    6. Insert the USB flash drive into the USB slot on the controller module.
      Make sure that you install the USB flash drive in the slot labeled for USB devices, and not in the USB console port.
    7. Complete the reinstallation of the controller module:
      drw a320 controller install animated gif
      1. Make sure the latch arms are locked in the extended position.
      2. Using the latch arms, push the controller module into the chassis bay until it stops.
        Note
        Do not push down on the latching mechanism at the top of the latch arms. Doing so with raise the locking mechanism and prohibit sliding the controller module into the chassis.
      3. Press down and hold the orange tabs on top of the latching mechanism.
      4. Gently push the controller module into the chassis bay until it is flush with the edges of the chassis.
        Note
        The latching mechanism arms slide into the chassis.
        The controller module begins to boot as soon as it is fully seated in the chassis.
      5. Release the latches to lock the controller module into place.
      6. If you have not already done so, reinstall the cable management device.
    8. Interrupt the boot process by pressing Ctrl-C to stop at the LOADER prompt.
      If you miss this message, press Ctrl-C, select the option to boot to Maintenance mode, and then halt the node to boot to LOADER.
    9. Although the environment variables and bootargs are retained, you should check that all required boot environment variables and bootargs are properly set for your system type and configuration using the printenv bootarg name command and correct any errors using the setenv variable-name <value> command.
      1. Check the boot environment variables:
        • bootarg.init.boot_clustered
        • partner-sysid
        • bootarg.init.flash_optimized for AFF C190/AFF A220 (All Flash FAS)
        • bootarg.init.san_optimized for AFF A220 and All SAN Array
        • bootarg.init.switchless_cluster.enable
      2. If External Key Manager is enabled, check the bootarg values, listed in the kenv ASUP output:
        • bootarg.storageencryption.support <value>
        • bootarg.keymanager.support <value>
        • kmip.init.interface <value>
        • kmip.init.ipaddr <value>
        • kmip.init.netmask <value>
        • kmip.init.gateway <value>
      3. If Onboard Key Manager is enabled, check the bootarg values, listed in the kenv ASUP output:
        • bootarg.storageencryption.support <value>
        • bootarg.keymanager.support <value>
        • bootarg.onboard_keymanager <value>
      4. Save the environment variables you changed with the savenv command
      5. Confirm your changes using the printenv variable-name command.
    10. From the LOADER prompt, boot the recovery image from the USB flash drive: boot_recovery
      The image is downloaded from the USB flash drive.
    11. When prompted, either enter the name of the image or accept the default image displayed inside the brackets on your screen.
    12. After the image is installed, start the restoration process:
      1. Record the IP address of the impaired node that is displayed on the screen.
      2. Press y when prompted to restore the backup configuration.
      3. Press y when prompted to overwrite /etc/ssh/ssh_host_dsa_key.
    13. From the partner node in advanced privilege level, start the configuration synchronization using the IP address recorded in the previous step: system node restore-backup -node local -target-address impaired_node_IP_address
    14. If the restore is successful, press y on the impaired node when prompted to use the restored copy?.
    15. Press y when you see confirm backup procedure was successful, and then press y when prompted to reboot the node.
    16. Verify that the environmental variables are set as expected.
      1. Take the node to the LOADER prompt.
        From the ONTAP prompt, you can issue the command system node halt -skip-lif-migration-before-shutdown true -ignore-quorum-warnings true -inhibit-takeover true.
      2. Check the environment variable settings with the printenv command.
      3. If an environment variable is not set as expected, modify it with the setenv environment-variable-name changed-value command.
      4. Save your changes using the savenev command.
      5. Reboot the node.
    17. With the rebooted impaired node displaying the Waiting for giveback… message, perform a giveback from the healthy node:
      If your system is in…Then…
      An HA pairAfter the impaired node is displaying the Waiting for giveback… message, perform a giveback from the healthy node:
      1. From the healthy node: storage failover giveback -ofnode partner_node_name
        The impaired node takes back its storage, finishes booting, and then reboots and is again taken over by the healthy node.
        Note
        If the giveback is vetoed, you can consider overriding the vetoes.
        ONTAP 9 High-Availability Configuration Guide
      2. Monitor the progress of the giveback operation by using the storage failover show-giveback command.
      3. After the giveback operation is complete, confirm that the HA pair is healthy and that takeover is possible by using the storage failover show command.
      4. Restore automatic giveback if you disabled it using the storage failover modify command.
    18. Exit advanced privilege level on the healthy node.
 
Верх Низ