转自 https://blogs.oracle.com/ExadataCN/entry/exadata%E5%AD%98%E5%82%A8%E8%8A%82%E7%82%B9%E7%9A%84rescue
这篇文章主要从何时需要紧急修复、准备过程、实施阶段等几个方面来与大家分享Exadata 存储服务器Rescue方面的维护经验,有的地方提供了My Oracle Support网站的文章号。
了解storage server 和rescue方法
什么是Rescue呢?Rescue这个英文对应的中文含义是紧急修复,只在非常必要的情况下才需要进行,否则会造成无谓停机和软件版本的不一致。
首先,我们需要了解Exadata存储服务器(storage server)方面的知识,它主要提供智能的磁盘I/O给计算节点。关于磁盘的管理,可以通过阅读My Oracle Support文章Auto disk management feature in Exadata (Doc ID 1484274.1)来熟悉storage server上的自动磁盘管理特性。
以下关于何时需要紧急修复,准备阶段和实施阶段等方面进行分享。
何时需要Storage server(存储服务器)的rescue过程
当系统盘失效,操作系统有一个文件系统损坏了或者boot区域被破坏了的时候。一台节点机上的两个系统磁盘都同时失效了的话,就必须通过CELLBOOT USB flash盘上的Oracle Exadata Storage Server软件进行rescue了。
请仔细阅读产品文档中的 Maintaining Exadata Storage Servers of Oracle Exadata Racks章节:
Using the Oracle Exadata Storage Server Software Rescue Procedure
准备阶段
平时要查看CELLBOOT USB盘是否可用,如果丢失或者损坏了,通过如下过程来创建:
重新生成一个损毁的CELLBOOT USB闪存盘
如果CELLBOOT USB闪存盘丢失或者损毁,您可以使用如下过程来创建一个新的。
注意: 针对运行Oracle Exadata Storage Server Software release 12.1.2.1.0或更高版本的机器创建一个USB闪存盘,要求机器操作系统版本是Oracle Linux 6
To create a USB flash drive for a machine running Oracle Exadata Storage Server Software release 12.1.2.1.0 or later requires a machine running Oracle Linux 6.
以root用户身份登录到cell
接插上新的USB盘,它上面的容量得至少1GB,最大可以到8GB。
从系统上移除任何其它的USB闪存盘执行如下命令:
cd /opt/oracle.SupportTools
./make_cellboot_usb -verbose -force
一般来说,Cell上有大量的业务数据,需要注意保证相应磁盘组里有足够多的空闲空间,这样,ASM根据情况重新分布(该需要rescue的cell上面的)数据到磁盘组的剩余磁盘时,就不至于因为空余空间不足从而无法完成。
如果storage server上打过one-off patch,请记住打过的patch号,以便rescue之后可能需要重新打。
实施阶段
真正进行紧急修复时要注意什么呢?
用CELLBOOT USB进行rescue时,从GRUB里选择CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode引导条目。但如果CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode 这个选项条目显示不出来,请参照文章Unable to rescue the Exadata storage using CELLBOOT USB (Doc ID 1413637.1) 的步骤向下继续进行。
如果rescue过程完不成,这多半表明可能有硬件问题。这时如果您连接到iLOM 上执行:
show faulty
它会说明出了什么情况。如果机器确实有硬件问题,则必须先修正这个硬件故障,之后再进行后续工作。
如果启动Storage Cell后,根文件系统 “/” 被mount成 read only了,则恢复的过程需要用到USB相关的rescue模式,需要详细步骤请创建一个技术支持服务请求(SR),由Oracle技术支持工程师协助解决。
Rescue完成后的注意事项
如果机器是X3-2 Eighth Rack,则需要参考文章Exadata Database Machine Eighth Rack reconfiguration required after restore/rescue (Doc ID 1538561.1)里所说的补充步骤来恢复为正确的配置。
如果Flash cache的mode (Writethrough及Write-Back)被从默认值修改过,在rescue之后,要手动单独重启一次cell server (restart cellsrv)。
检查IORMPLAN, THRESHOLDs, Cell notification settings这些配置是否与原来的一致,不一致的话进行调整。
如果系统改变过host_access_control,需要检查是否一致。但一般来说这一项大多数用户都不涉及。
其它参考
有可能的话请尝试熟悉文章: Exadata Platinum Customer Outage Classifications and Restoration Action Plans (Doc ID 1483344.1) 所提及的与系统停止运行有关的维护要点。
参考链接
OTN:Oracle Exadata
Oracle Exadata Machine 官方主页
Exadata 官方文档
Comment