目标

本课程结束后，你能执行以下数据库机器维护任务：

开启及关闭数据库机器
安全关闭单个EXADATA存储服务器
在cell上替换损坏的物理磁盘
在cell上替换损坏的flash卡
将所有磁盘从一个cell转移到另一个
使用EXADATA cell软件拯救步骤

数据库机器维护概览

维护数据库机器与维护任何聚类Oracle数据库环境类似
本课程介绍的数据库特定机器任务：
- 开启及关闭数据库机器
- 安全关闭单个EXADATA存储服务器
- 在cell上替换损坏的物理磁盘
- 在cell上替换损坏的flash卡
- 将所有磁盘从一个cell转移到另一个
- 使用EXADATA cell软件拯救步骤
其他参考：
- Oracle Exadata 数据库机器所有者指南
- My Oracle Support

维护数据库机器在许多方面与维护任何聚类Oracle数据库环境类似。维护Oracle集群软件的程序，ASM，RAC由于都在其他平台，所以它们在数据库机器上本质是相同的，主要区别是EXADATA cell对象的引用。
本课程重点在管理员最可能遇到的一系列数据库特定机器维护任务。其他不常见的维护任务记录在OracleEXADATA数据库机器所有者指南。管理员也能参考My Oracle Suppor中其他维护问题。
注：EXADATA数据库集群的补丁指南是本课程中独立的一节。

关闭并启动数据库机器

关闭过程：

数据库服务器

#<GRID_HOME>/bin/crsctl stop cluster

#shutdown -h -y now

确保执行之前所有数据库服务器都被关闭

EXADATA存储服务器

shutdown -h -y now

确保执行之前所有数据库服务器都被关闭

Rack，包括网络切换

启动过程：

Rack，包括网络切换

执行之前电源接通几分钟

EXADATA存储服务器

执行之前确认所有cell都在运行

数据库服务器

幻灯片列出了在非紧急情况下，关闭及启动数据库机器的建议顺序。

执行任一过程时，确保继续下一步之前，每个步骤都完全结束很重要。不以适当的顺序执行可能会导致在数据库机器不正常的工作。

当启动Exadata存储服务器和数据库服务器时，可以通过按下每个服务器前部的电源按钮，或通过为每个服务器登录到ILOM界面并发出start/ SYS命令来启动。

要启动或关闭rack，使用位于电源分配单元（PDU）的开关，位于机架背面。

安全关闭单个EXADATA存储服务器

安全关闭步骤：

确保关闭存储服务器不会让ASM磁盘组下线

CELLCLI> LIST GRIDDISK WHERE asmdeactivationoutcome != ‘YES’

使所有grid磁盘在非活跃状态

CELLCLI> Alter GRIDDISK ALL INACTIVE

验证所有grid磁盘在非活跃状态

CELLCLI> LIST GRIDDISK WHERE STATUS !=’inactive’

关闭存储服务器

启动步骤：

启动存储服务器

Cell服务自动启动

使所有grid磁盘在活跃状态

CELLCLI> ALTER GRIDDISK ALL ACTIVE

验证所有grid磁盘在活跃状态

CELLCLI> LIST GRIDDISK ATTRIBUTES name , asmmodestatus

在某些维护情况下，单个Exadata存储服务器必须孤立地关闭。例如，一个硬件组件，如闪存卡或磁盘控制器，可能有间歇故障，所以存储服务器必须被关闭，替换该部件，而系统的其余部分继续支持处理活动而不会对系统的用户产生实质性影响。在这些情况下，理想的结果是，数据库机环境继续支持处理活动，而不会对系统的用户产生实质性影响。

为了安全，正常关闭单个Exadata存储服务器，使用幻灯片中显示的命令。当确认关闭存储服务器将不会使任何ASM磁盘组离线，第一个LIST GRIDDISK命令应该没有输出。如果任何输出返回，那么使Exadata存储服务器离线是不安全的，因为适当的Oracle ASM磁盘组冗余将无法维持。

使Exadata存储服务器离线时，当一个或多个grid磁盘处于这种状态，会导致ASM卸载受影响的磁盘组，从而导致数据库突然关闭。在这种情况下，你需要分析情况，使其他grid磁盘在线来安全处理。

Exadata存储服务器被重启且grid磁盘被重新激活后，检查所有被分配到ASM磁盘组的网格磁盘显示asmmodestatus = ONLINE。未分配给ASM磁盘组的网格磁盘应显示asmmodestatus = UNUSED。

替换损坏的物理磁盘

确认损坏的磁盘
替换物理磁盘
监控ASM以确认磁盘的重新添加

由于问题或故障更换物理磁盘最有可能是Exadata存储服务器需要的硬件维护操作。假设你正在使用ASM冗余，更换有问题的磁盘的步骤相当简单。

第一步需要你识别问题磁盘。这有多种方式：

使用ILOM的硬件监控可能会报告有问题的磁盘。
当磁盘发生故障，生成一个Exadata警报。警报包括更换磁盘的具体说明。如果已经为系统配置了警报通知，警报将被发送到指定的电子邮件地址或SNMP目标。LIST ALERTHISTORY命令也可用于识别故障磁盘。
LIST PHYSICALDISK命令可以识别报告异常状态的磁盘。即使cell仍在工作，该问题可能是磁盘故障的前兆。
CALIBRATE命令可以识别提供异常低的吞吐量或IOPS的磁盘。即使cell仍能正常工作，一个坏的物理磁盘会降低其他优秀的磁盘的性能，所以你可以考虑更换识别的磁盘。注意在cell活跃的同一时间运行CALIBRATE会影响性能。

你可以使用ALTER PHYSICALDISK命令点亮一个LED的服务，其帮助将磁盘名称正确地翻译为相应的物理磁盘的位置。

当检测到故障磁盘，物理磁盘上与grid磁盘相关的Oracle ASM磁盘通过FORCE选项被自动删除，且Oracle ASM重新平衡操作恢复数据冗余。这个过程被称为主动式硬盘检疫。

如果你想更换一个表现不佳，但还没有被主动盘检疫磁盘分离的磁盘，您必须使用ALTER DISKGROUP … DROP DISK命令手动删除相关的网格磁盘。

确定问题磁盘后，你可以替换它。当你删除了磁盘，你会得到一个警告。当更换一个物理磁盘，磁盘使用之前，必须由RAID控制器确认。这并不需要很长的时间，你可以使用LIST PHYSICALDISK命令监视状态，直到其返回到NORMAL。

在插槽中之前磁盘的网格磁盘和cell磁盘将在新磁盘上被自动重建。如果这些网格磁盘是Oracle ASM磁盘组的一部分，NORMAL或HIGH冗余，它们将被重新添加到磁盘组，数据将基于磁盘组的冗余和ASM_POWER_LIMIT参数被重新平衡。

重建ASM磁盘及重新平衡数据可能需要一段时间来完成。你可以在ASM中监控这些操作的进展。你可以监控V$ASM_DISK.STATE报告的磁盘状态，直到它返回到NORMAL。你还可以使用GV$ASM_OPERATION监控重新平衡的进展。

更换故障磁盘时，请查看以下注意事项：

磁盘可以被ASM删除，且重新平衡操作可能已成功运行。查看Oracle ASM警报日志来确认这点。在故障磁盘被替换后，还需要第二次重新平衡。
磁盘可被删除，且重新平衡操作当前正在运行。查看GV$ ASM_OPERATION以确定重新平衡操作是否仍在运行。在这种情况下，更换磁盘后的重新平衡操作将被排列。
磁盘可以被ASM删除，且重新平衡操作失败。查看GV$ ASM_OPERATION.ERROR以确定重新平衡操作失败的原因。更换磁盘后监控重新平衡操作以确保它运行。
来自多个磁盘组的重新平衡操作可以在同一个集群的不同Oracle ASM实例来完成，如果被替换的物理磁盘包含来自多个磁盘组的网格磁盘。多个重新平衡操作不能在同一个Oracle ASM实例中同时运行。该操作将为实例被排列。

替换损坏的flash卡

确认损坏的flash卡
关闭cell
替换flash卡
开启ceell

每个Exadata存储服务器配备了4个PCI闪存卡。每个卡具有4个闪存模块（FDOMs），每个cell中总共16个闪存模块。

识别损坏的闪存模块类似于识别损坏的物理磁盘。硬件监控使用ILOM或CALIBRATE命令提示的性能下降表示可能存在问题。如果检测到一个故障的FDOM，则生成警报。

一个坏的闪存模块会导致cell上闪存量的减少。cell的性能受到影响与失去闪速存储的大小成正比，但是数据库和应用程序不会面临故障的风险。

如图中显示，使用LIST PHYSICALDISK DETAIL命令也可报告损坏的闪存模块。SlotNumber属性显示了PCI插槽和FDOM数量。在这个例子中，status属性显示了关键故障。

虽然技术上在Exadata存储服务器中的PCI插槽是可热更换的，建议在更换损坏的闪存卡时关闭cell。

更换记忆卡并启动cell后，无需额外的步骤在新的闪存模块重建智能闪存高速缓存和智能闪存日志区域。

将所有磁盘从一个cell转移到另一个

使grid处于非活跃状态 CellCLI > ALTER GRIDDISK ALL INACTIVE
备份操作系统配置文件，其可能在新cell启动后更改
将磁盘，闪存卡，磁盘控制器和CELLBOOT USB闪存驱动从原本cell转移到新的cell。

确保系统磁盘占头两个插槽。

确保闪存卡占系统的PCI插槽。

启动新cell。
重启EXADATA cell服务：

CellCLI > ALTER CELL RESTART SERVICES ALL

激活网格磁盘：

CellCLI> ALTER GRIDDISK ALL ACTIVE

您可能需要将所有驱动器从一个存储服务器到另一台服务器。当有一个机箱级别的组件故障，或当故障排除硬件问题时，该操作是必要的。要移动驱动器，执行以下步骤：

如果可能的话，使用ALTER GRIDDISK ALL INACTIVE命令，使网格磁盘无效。
如果可能，备份/etc/ hosts，/etc/modprobe.conf中，以及在/ /etc/sysconfig/network and /etc/sysconfig/network-scripts中的文件。这主要是一个预防措施，如果你要将磁盘转移回到原来的机箱这也是有用的。
关闭原始服务器并将硬盘，闪存卡，磁盘控制卡和CELLBOOT USB闪存驱动器转移到新的服务器。

注意：确保头两个磁盘，即系统磁盘，在相同的头两个插槽。同时确保闪存卡被安装到同一个PCI插槽。如果不这样做会导致Exadata存储服务器无法正常工作。

启动cell。cell操作系统应被自动重新配置，以适应新的服务器硬件。
使用ALTER CELL RESTART SERVICES ALL重启cell服务。
使用ALTER GRIDDISK ALL ACTIVE激活网格磁盘。

如果你正在使用ASM冗余且在DISK_REPAIR_TIME ASM初始化参数中指定的时间之前完成了步骤，那么ASM磁盘会自动联机，更新cell故障期间所做的任何更改。

使用Exadata Cell 软件拯救步骤

每个EXADATA存储服务器配备图个CELLBOOT USB闪存驱动以便于cell拯救

如果两个系统磁盘同时故障或崩溃就需要执行该操作

谨慎使用

要执行cell拯救：

使用控制台连接到EXADATA存储服务器
启动cell，一旦看到”Oracle Exadata” 画面显示,按下任意键
在显示的boot选项列表中，选择最后一个选项，CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode，按下Enter
选择rescue选项，处理拯救过程
在rescue过程的最后，确保cell从系统磁盘启动
重新配置cell

Exadata存储服务器维护在不同的物理磁盘的镜像系统区域。如果一个系统区被损坏或不可用，镜像副本用于恢复。

在这两个系统磁盘同时故障的极少数情况下，你必须使用提供内置于每个Exadata存储服务器的CELLBOOT USB闪存驱动器上提供的拯救功能。拯救过程可能还需要从文件系统损坏或损坏的boot区恢复。

使用拯救步骤时，要注意以下几点：

使用此过程时请务必谨慎，并注意提示符。拯救过程可能会改写cell中一些或全部磁盘。如果发生这种情况，那么你可能无可挽回地失去这些磁盘上的内容。理想情况下，你应该仅在Oracle支持服务的帮助下使用拯救步骤。
拯救过程不会破坏数据磁盘的内容或系统磁盘上的数据分区的内容，除非你在拯救过程中显式选择这样做。
拯救步骤将Exadata存储服务器软件恢复到相同版本。这包括存在于cell的任何补丁，作为最后的成功启动。
使用拯救过程无法恢复以下：
一些cell配置的详细信息，如警报配置，SMTP信息，以及管理员的电子邮件地址。注意，cell网络配置被恢复，以及cell的SSH标识，root，celladmin和cellmonitor用户。
LOM配置。通常情况下，ILOM配置保持完好，即使在Exadata软件故障的情况下。
拯救过程不检查或重建数据的磁盘或系统磁盘上的数据分区。如果在网格磁盘有数据损坏，则不要使用拯救步骤。相反，使用数据库备份和恢复步骤。

以下拯救选项可用于拯救步骤：

部分重建恢复：在局部重建恢复期间，拯救步骤重建系统磁盘上的分区，检查磁盘中文件系统的存在。如果文件系统被发现，则该过程试图启动。如果cell成功启动，然后使用CellCLI命令，如LIST CELL DETAIL，以验证cell可用。你还必须适当地恢复任何数据磁盘。如果启动失败，则必须使用完整的原始版本恢复选项。
完整的原始版本恢复：此选项重写系统磁盘的系统区域以恢复EXADATA软件。它还允许你删除系统磁盘上的任何数据，以及系统磁盘上的任何数据分区。

CELLBOOT USB闪存驱动器的重建：该选项是用来创建CELLBOOT USB闪存驱动器的副本。

使用CELLBOOT USB闪存驱动器来进行拯救：

使用控制台连接到Exadata存储服务器。
启动cell，只要你看到“Oracle Exadata”闪屏，请按下任意键。闪屏只可见5秒。
在boot选项显示的列表中，下拉到最后一个选项，CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode，然后按Enter键。
选择rescue选项，并继续拯救步骤。
当在拯救过程最后被提示，执行步骤如下：
1. 选择进入shell。此时不要选择reboot选项。
2. 使用拯救root密码登录到shell。
3. 在shell运行reboot命令。
4. 在重新启动期间，但在看到“Oracle Exadata”闪屏之前，按F8进入启动设备选择菜单。
5. 选择RAID控制器作为启动设备。
成功拯救后，必须重新配置cell，使其恢复到故障前的配置。如果在拯救过程被提示时选择保留数据，那么导入cell磁盘。如果选择不保留数据，那么你应该创建新的cell磁盘和网格磁盘。

小测试

当关闭EXADATA数据库机器时，EXADATA存储服务器必须先被关闭：

A.True

B.False

Answer: B

小测试

EXADATA存储服务器应当被关闭以替换除了硬盘驱动的故障的硬件组件：

A.True

B.False

Answer: a

While the flash memory cards inside Exadata Storage Server are hot-swappable, Oracle recommends that cells should be shut down to replace hardware components inside the chassis.

当在EXADATA存储服务器中的闪存卡是可热插拔的，Oracle建议cell应当被关闭以替换机架中的硬件组件。

小测试

如果一个EXADATA存储服务器磁盘故障，以下哪个是正确的？

相关的ASM网格磁盘被自动删除且发生了ASM重新平衡，以快速恢复冗余
在没有关闭存储服务器时，磁盘可能被替换
存储服务器必须被关闭以替换磁盘
多个ASM实例能参与单个磁盘组的重新平衡操作

Answer: 1,2

总结

本课程中，你应该学会了执行以下数据库机器维护任务：

开启及关闭数据库机器
安全关闭单个EXADATA存储服务器
在cell上替换损坏的物理磁盘
在cell上替换损坏的flash卡
将所有磁盘从一个cell转移到另一个
使用EXADATA cell软件拯救步骤

Exadata数据库一体机维护任务

目标