服务器RAID硬盘与日志主要检测方法

10 08月

作者:admin|分类:系统运维

服务器RAID硬盘与日志主要检测方法

1：对于 Dell 的机器并且配备了 LSI 的 raid 卡，那么 Megacli 自带的命令是最直观最可靠的硬盘检测方法。

#/opt/MegaRAID/MegaCli/MegaCli64 -pdlist -aall

以其中的一块硬盘为例。

Enclosure Device ID: 32

Slot Number: 2

Enclosure position: 0

Device Id: 2 //ID 号

Sequence Number: 2

Media Error Count: 0 // 如果 error 数值较多 , 那么需要更换硬盘

Other Error Count: 0

Predictive Failure Count: 0 // 可理解为预知性的错误 , 这个数值较多意味着硬盘即将坏掉, 现场会黄绿灯交叉闪烁

Last Predictive Failure Event Seq Number: 0

PD Type: SAS

Raw Size: 136.732 GB [0x Sectors]

Non Coerced Size: 136.232 GB [0x Sectors]

Coerced Size: 136.125 GB [0x Sectors]

Firmware state: Online, Spun Up // 如果硬盘坏了那么会出现 Failed 或者是

unconfigured(bad) SAS Address(0): 0xe11716a112

SAS Address(1): 0x0

Connected Port Number: 0(path0)

Inquiry Data: FUJITSU MBD2147RC D809D0A4PB103ALA

FDE Capable: Not Capable

FDE Enable: Disable

Secured: Unsecured

Locked: Unlocked

Needs EKM Attention: No

Foreign State: None

Device Speed: 6.0Gb/s

Link Speed: 6.0Gb/s

Media Type: Hard Disk Device

Drive Temperature :28C (82.40 F)

一些对磁盘 I/O 操作比较密集的应用例如 squid 经常会有掉盘的现象，这时有时候通过上述

命令会发现找不到其中的一块硬盘，即“消失了” ，如果进入 RAID 卡界面会发现磁盘处于 Foreign 或者 missing 的状态，这种情况其实硬盘并没有坏掉或者说并没有完全坏掉（有诸多原因，包括 RAID 卡、背板、 SAS线等等），如果是在线跑业务的机器不能重启，那么这时候就需要通过 RAID卡的日志进行分析是否真的坏了。 #/opt/MegaRAID/MegaCli/MegaCli64 -fwtermlog -dsply -aall

如果是硬盘坏了那么会发现有 offline 或者是某块硬盘有 timeout 的记录，需要认真分析日志。

2,其它品牌硬盘检测方法，具体看附件。

硬盘检测主要方法.pdf

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

服务器RAID硬盘与日志主要检测方法

更多文章推荐

历史上的今天