阵列坏了一块硬盘 一般应该怎么办?

slymitec1月前0

就是假设买了8块同款新硬盘 组建了raid6 阵列 用了几年后 突然有一天 有一块盘boom了 此时
1 买一块新的硬盘换上 如果买不到当时的型号了 就买个类似新型号同容量的
2 降级模式下 用新的存储系统 尽快把老数据拷贝出来
大家真的敢用第一种方式么 同时购买的一批硬盘 同样的工况 炸了一块 其他的真的还保险么?
最新回复 (59)
  • zhao1373141月前
    引用2
    买一块硬盘顶上就行了,问题不大,备份应该是日常工作。
  • zhuifeng881月前
    引用3
    是什么使你觉得浴盆曲线下新的能比老的保险
  • 楼主slymitec1月前
    引用4
    zhao137314 发表于 2022-4-28 12:19
    买一块硬盘顶上就行了,问题不大,备份应该是日常工作。
    假设我买了8个10tb 组建raid6后 就是60tb空间 然后我已经用了35tb了
    如果说备份是日常工作 那岂不是我还得再买一套存储阵列来备份这35tb数据
    真要是这样的话 直接raid0+1岂不是更好?
  • 楼主slymitec1月前
    引用5
    zhuifeng88 发表于 2022-4-28 12:23
    是什么使你觉得浴盆曲线下新的能比老的保险
    是所有硬盘都换新的
    你的意思是我买一个老的换上去 其稳定性比新硬盘重新组建阵列还安全?
  • lucifersun1月前
    引用6
    所以要有热备盘,并设置例行巡读
    有热备之后,会自动开始rebulid,你要做的基本上就是直接换盘。
    例行巡度可以提前发现硬盘故障,搭配热备盘,在硬盘暴毙前完成直接替换,连rebulid都省了
  • conanhfl1月前
    引用7
    我就是在用你说的假设
    WD 10T GOLD x8 RAID6
    硬碟保修到6月所以应该用了差不多5年
    都是同时购买的一批硬盘
    跑了5年操作正常没有boom过
    反而RAID咭挂了两次换了两张
    每星期都会备份一次到谷歌无限云端
    最近都快满碟了
    打算升20T x8但是WD还没把20T卖到消费级零售
    看看到年底如何还是没有就18T x8
    就算是一批硬盘同一时间boom的机会也不大吧,不然数据中心就gg

  • raid6降级,直接换难道不是理所当然的事情?
  • against1月前
    引用9
    这个不就是看你数据的重要程度?重要不是应该2,3年就8盘重换重建阵列加额外的冷备份,不重要就随便弄就行了
  • yyf26731月前
    引用10
    我记得谁在论坛说过,raid不是给你备份的,只是为了换盘不影响服务。家用我觉得还是单盘加额外备份靠谱。
  • zhao1373141月前
    引用11
    slymitec 发表于 2022-4-28 12:24
    假设我买了8个10tb 组建raid6后 就是60tb空间 然后我已经用了35tb了
    如果说备份是日常工作 那岂不是我还 ...
    我的生产系统就是这样的,而且还在两个不同的机房。生产是全闪存,备份是7200低速机械企业盘
  • BONBONBON1月前
    引用12
    我用第一种,因为没有其他硬盘能把原数据拷出来
  • 楼主slymitec1月前
    引用13
    yyf2673 发表于 2022-4-28 12:52
    我记得谁在论坛说过,raid不是给你备份的,只是为了换盘不影响服务。家用我觉得还是单盘加额外备份靠谱。 ...
    那是raid1配置的还不够多
    如果是raid6+1 甚至是三备份版本的raid 6+1呢
  • zhuifeng881月前
    引用14
    slymitec 发表于 2022-4-28 12:25
    是所有硬盘都换新的
    你的意思是我买一个老的换上去 其稳定性比新硬盘重新组建阵列还安全? ...
    浴盆曲线中期是这样的, 全新的故障率就是比用了一段时间没坏的高, 用了很长时间故障率才会升上去
  • 楼主slymitec1月前
    引用15
    conanhfl 发表于 2022-4-28 12:43
    我就是在用你说的假设
    WD 10T GOLD x8 RAID6
    硬碟保修到6月所以应该用了差不多5年
    数据中心肯定不是所有硬盘都是同期购买的(除非刚组建)
    或者说 数据中心估计是定期买硬盘+淘汰一批硬盘(哪怕还没坏)
    不然淘宝上一堆拆机sas便宜hdd哪来的
  • 楼主slymitec1月前
    引用16
    LambdaDelta 发表于 2022-4-28 12:45
    raid6降级,直接换难道不是理所当然的事情?
    然后隔段时间又坏一个?甚至直接炸2-3个
    ps这里都没敢拿raid5举例 拿的是至少可以坏两个的raid6
  • zhuifeng881月前
    引用17
    slymitec 发表于 2022-4-28 13:23
    然后隔段时间又坏一个?甚至直接炸2-3个
    ps这里都没敢拿raid5举例 拿的是至少可以坏两个的raid6 ...
    短期内隔段时间再炸一个的概率和你当场换一个新的在换的时候就炸了的概率是一样的
  • hcgxxx1月前
    引用18
    说下实际使用案例。一个小影视公司A,本来没有数据共享平台。
    大家的片子和素材都放移动硬盘,需要就来回拷贝,效率低下,经常丢数据,然后移动硬盘还容易摔坏。
    后来有另外个客户B收摊,从B公司拿回一台已经使用了5年的老服务器,12个4T做raid 6。
    清扫一下后,以垃圾的价格卖给了公司A,他们使用后觉得非常方便,从此再也不用担心移动硬盘的效率和损坏了。
    重要数据用移动硬盘备份,热数据都在这个二手服务器里。
    随着使用的深入,渐渐的老服务器的空间开始不够,硬盘也开始损坏,每次都是买个4t的进去更换。基本更换过程都OK。
    公司A验证了这种运行模式的有效性后,购买了新的100T的服务器(raid 6),逐渐将热数据放进新的服务器。又把那个二手服务器当作了素材和暂时不用的工程备份用。
    于是形成了,常用数据,不常用数据,重要数据这样一个3级备份的工作流程,再加上客户机里的一份数据,最近几年来他们对于找不到东西的烦恼已经大大减少,而且数据丢失的情况也基本不再发生。
    可能这才是raid的真正价值吧。
    主要还是不能吧raid 当作保险柜,日常维护检查是必须的,每当有硬盘损坏,都是马上进行更换重建。不拖拉。也没说一定要全部拷贝出来。
  • wei731月前
    引用19
    硬盘坏一块 和 其他是不是会坏 没有必然联系,新的损坏的概率和旧的没区别 (SSD除外)
  • 哆啦咪1月前
    引用20
    slymitec 发表于 2022-4-28 13:18
    那是raid1配置的还不够多
    如果是raid6+1 甚至是三备份版本的raid 6+1呢
    raid不是备份,是高可靠性工具(HA)。
  • Mufasa1月前
    引用21
    RAID5,第一件事:
    降级模式下 用新的存储系统 尽快把老数据拷贝出来
    如果没有足够的备份存储系统能把当前数据备份出来,那就别用RAID 5
    RAID6,要求相对没那么严格。
    单盘损坏,可以换盘重建,不影响业务。
  • 楼主slymitec1月前
    引用22
    哆啦咪 发表于 2022-4-28 13:43
    raid不是备份,是高可靠性工具(HA)。
    这个我明白,备份的话,总感觉原理是类似
    比如上两台存储服务器,互相同步数据……这不就还是RAID1的翻版么(实现原理不同,单思路一样)……
  • 楼主slymitec1月前
    引用23
    Mufasa 发表于 2022-4-28 13:44
    RAID5,第一件事:
    降级模式下 用新的存储系统 尽快把老数据拷贝出来
    明白了,谢谢
    目前正在考虑RAID6+1,单位存储服务器上16块硬盘。
  • 楼主slymitec1月前
    引用24
    hcgxxx 发表于 2022-4-28 13:33
    说下实际使用案例。一个小影视公司A,本来没有数据共享平台。
    大家的片子和素材都放移动硬盘,需要就来回拷 ...
    明白了,谢谢
  • 哆啦咪1月前
    引用25
    slymitec 发表于 2022-4-28 13:50
    这个我明白,备份的话,总感觉原理是类似
    比如上两台存储服务器,互相同步数据……这不就还是RAID1的翻 ...
    不一样,备份一般是单向增量备份,不是覆盖数据,你可以追溯回到前一时刻的数据,用来恢复误删除和误格式化,甚至勒索病毒影响的数据。互相同步数据的备份情况还是很少的。raid阵列数据要删除,要格式化,要中毒都同步,起不到备份功能。
  • jimmystar1月前
    引用26
    真的这么担心数据安全就异地备份,别指望同一台机器上的任何备份措施
  • Mufasa1月前
    引用27
    slymitec 发表于 2022-4-28 13:50
    这个我明白,备份的话,总感觉原理是类似
    比如上两台存储服务器,互相同步数据……这不就还是RAID1的翻 ...
    两三台机器,可以考虑软件设置HA
    如果机器更多,就分布式存储了,例如ceph
    几个月前用8台主机进行了ceph集群实验。
    直接拔3台机器电源,集群报警,但是没有崩溃,数据全在,可以正常读写。
    把电源线插回去,开机,等一会,就恢复正常了。
    取一两个硬盘出来也不是问题,会自动转移恢复数据。
    然后删掉旧硬盘,换成新的,更大容量的硬盘,在线扩容。
    试验完毕,准备找机会开始实施。。。。
  • 引用28
    Mufasa 发表于 2022-4-28 14:04
    两三台机器,可以考虑软件设置HA
    如果机器更多,就分布式存储了,例如ceph
    之前有机会听过veeam对于数据灾备的讲解,似乎也是跟你说的形式差不多
  • houyuzhou1月前
    引用29
    如果数据重要到绝对不可以丢弃,那么一定还有一份安全性能不低于RAID6的异地备份。
    如果没到这程度,直接换盘重建呗,反正冗余量还有一块呢。 别听什么重建过程中同一批硬盘容易再坏,或是重建会莫名其妙失败之类的说法。
  • houyuzhou1月前
    引用30
    slymitec 发表于 2022-4-28 12:24
    假设我买了8个10tb 组建raid6后 就是60tb空间 然后我已经用了35tb了
    如果说备份是日常工作 那岂不是我还 ...
    6就够了,盘多的话0+1并不怎么安全。
    我这单位绝对不能能丢的数据是8盘R6,外加一个8盘R6互相备份,同时还有额外的离线冷备份。
    家用的NAS,RAID6一套足够,不可能所有数据都要求极端安全,单独挑选一些重要,弄个冷备盘或上传网盘就行。 R6本体出了什么问题直接重建,没必要过度折腾。
  • litguy1月前
    引用31
    RAID6 重构还行,如果还担心,再牺牲一块盘容量,作 RAID7 嘛
  • 引用32
    slymitec 发表于 2022-4-28 13:23
    然后隔段时间又坏一个?甚至直接炸2-3个
    ps这里都没敢拿raid5举例 拿的是至少可以坏两个的raid6 ...
    按16T来算 Raid 6都不需要按官方失效率,按保守失效率来算,10年重建崩掉的概率不到0.03%。说难听点,你要担心这个崩掉的话,还不如担心出门会不会被车撞。
  • xbcyl1月前
    引用33
    直接拔下来,换块新的。 因为阵列我只用raid1
  • xiao9111月前
    引用34
    我有一个疑问,如果阵列里坏了一块,然后我用额外的存储(小于阵列大小,但是足够备份需要的数据)在降级状态下备份出来。
    那么这个阵列该怎么处理??没坏的那几块盘就那么扔掉,整个阵列重新换盘??还是说添加一块新盘然后重置阵列??
  • 别折腾了,兄弟,115买11.5年,扩容到200t,省心
  • 9S機關1月前
    引用36
    这小心的,感觉raid-z3都稳不住你
  • rukky1月前
    引用37
    3盘raid5 坏过2次盘 ,重建了2次,没有问题。
  • goat1月前
    引用38
    slymitec 发表于 2022-4-28 13:18
    那是raid1配置的还不够多
    如果是raid6+1 甚至是三备份版本的raid 6+1呢
    这是在文件系统和硬盘中间再套一层可能出现故障的地方
  • Mufasa1月前
    引用39
    xiao911 发表于 2022-4-28 19:16
    我有一个疑问,如果阵列里坏了一块,然后我用额外的存储(小于阵列大小,但是足够备份需要的数据)在降级状 ...
    备份,然后换掉故障盘,重建。
    如果重建成功,可以继续用一段时间。
    服务器用的企业级硬盘通常建议5年换掉,差不多50000小时。
    如果大部分盘都没有到寿命,其实没必要拆了全换。
    如果是冷备,因为开机时间短,用超过5年也是很正常的。
  • YsHaNg1月前
    引用40
    Mufasa 发表于 2022-4-28 06:04
    两三台机器,可以考虑软件设置HA
    如果机器更多,就分布式存储了,例如ceph
    可以直接置于serverless上 用raft
  • c2h6o1月前
    引用41
    这个没什么保险不保险的,我只是说我这边12块盘的一个品牌存储,1年多的时候坏了一块,保修后用到现在其他都没坏,到现在大概8年了,除了清灰没停过。
  • bbzcat1月前
    引用42
    那种说RAID5甚至RAID6坏了一块就要全部备份出来的全是扯淡,你试试管个10个阵列上万块盘的机房,特么整天考来考去的,不忙死运维了,还开展个P业务啊
  • bbzcat1月前
    引用43
    手工REBUILD,HOTSPARE REBUILD,在线扩容,本质上都是在一个PACKAGE里面做全量数据的再分布,对磁盘的负载冲击都是一样的,所以那些拿个DATASHEET瞎算的人,有没有想过,数据中心里面这些天天在用的技术,每时每刻手动或者自动的在发生,如果可靠性那么不堪,你现在还有机会上网?
  • bbzcat1月前
    引用44
    把澡盆曲线挂在嘴上的同学,我希望你想明白,澡盆最左侧的几率,绝大部分已经在出厂老化测试里面过滤掉了,否则一个新建数据中心第一年三天两头崩溃,谁受得了
  • bbzcat1月前
    引用45
    像当年HP的AUTORAID,数据多了自动从RAID10切换到RAID5,别以为当时硬盘容量小,当时传输速度也慢啊,业务负载高的时候,后台迁移一个月我都见过,7X24一个月满负载,对企业级硬盘是个P事情。
  • hersvim1月前
    引用46
    既然是RAID-6,就直接rebuild,碰巧再坏一块,那再拷数据出来也来得及。
  • bbzcat1月前
    引用47
    Mufasa 发表于 2022-4-28 13:44
    RAID5,第一件事:
    降级模式下 用新的存储系统 尽快把老数据拷贝出来
    我觉得,如果你真的没有做过类似的工作,还是不要误人子弟为好
    降级模式下,我还得再花个两千万去买个新存储,扩容机柜,扩容UPS,扩容变压器和柴油发电机,然后把业务全停了,花半个月尽快吧老数据拷贝出来?
    当然我说得是夸张了,但是你有没有想过,RAID技术的出现,不就是为了避免这种情况吗?
  • bbzcat1月前
    引用48
    hersvim 发表于 2022-4-28 22:19
    既然是RAID-6,就直接rebuild,碰巧再坏一块,那再拷数据出来也来得及。
    RAID5也一样的,当你配置有hotspare的时候,你以为还有机会考虑是rebuild还是考出来?
  • bbzcat1月前
    引用49
    Mufasa 发表于 2022-4-28 20:33
    备份,然后换掉故障盘,重建。
    如果重建成功,可以继续用一段时间。
    看来你也只是个纸上谈兵的,一点运维都没做过啊
    备份这个事情跟RAID故障一毛钱关系都没有啊...
    你这说法,连运维面试都过不了...
  • Mufasa1月前
    引用50
    bbzcat 发表于 2022-4-28 22:20
    我觉得,如果你真的没有做过类似的工作,还是不要误人子弟为好
    降级模式下,我还得再花个两千万去买个新 ...
    那么大的机器不会用RAID,更不会用RAID 5这种简易的技术。
    大型存储,降级模式自然有厂家规定的工作步骤,照着做就行了。
  • bbzcat1月前
    引用51
    Mufasa 发表于 2022-4-28 22:35
    那么大的机器不会用RAID,更不会用RAID 5这种简易的技术。
    大型存储,降级模式自然有厂家规定的工作步骤 ...
    扯淡
    你知道RAID6的XOR是什么时候引入的吗?
    在那之前RAID5干了多少年主力
    我告诉你的就是标准的厂家工作步骤,如果你有知道不一样的,可以提出来啊
  • bbzcat1月前
    引用52
    我简单的总结一下思路吧:
    1. 标准存储部署环境中,我拿IBM DS8000系列举例吧,大概12块3.5寸或者24块2.5寸SAS作为一个盘包,也就是扩展单元,一般来说里面配有独立热备,然后整个扩展柜范围内再配有全局热备。当出现硬盘故障时,已独立热备->全局热备的顺序自动rebuild。
    2. 由此可知,出现硬盘故障的瞬间,hotspare是自动加入,自动重建的,因此什么新存储考出来之类的都是废话,根本不会给你机会。
    3. 这是企业几十年以来的技术了,当然中间由于容量大重建窗口长,引入SSD之类的原因,衍生出RAID5E,6E,RAID2.0,RAID2.0+之类的技术,但本质差不多,不详细说了
    4. 这个技术下放到工作站,家用环境,首先不要怀疑技术本身,尤其是原理
    5. 如果在家用环境下,碰到一次以上的rebuild失败,我建议按照1. 电源 2. 机箱共振 3. 操作流程的次序去检查,而不是拿着个Datasheet去YY什么概率。这个技术的可靠性是有足够的时间和场景支持的。概率这东西,如果真是那么高,各个运维的同学每天忙着拿磁带恢复就好了。
    6. 如果还不行,再检查一下用的硬盘,是否满足了RAID对硬盘质量的最基础的要求。虽然我觉得这个也有点扯,我手里快十年的绿盘一样跑得好好的,但往极端一点说,你搞一堆软盘驱动器,别说RAID6,RAID16都不一定能跑起来。
  • bbzcat1月前
    引用53
    bbzcat 发表于 2022-4-28 23:02
    我简单的总结一下思路吧:
    1. 标准存储部署环境中,我拿IBM DS8000系列举例吧,大概12块3.5寸或者24块2.5寸 ...
    最后补充一点,企业级敢这么干,是跟有定期备份计划分不开的。
    更不用说什么存储HA,PPRC,两地三中心之类的了。
    家用的,自己想清楚,概率虽小,也还是有可能的。
    最后最后再说一句,以我这二十年看机房的经验,人祸远大于天灾。
  • bbzcat1月前
    引用54
    然后我们再扯一扯rebuild的过程
    拿 raid5 rebuild来说
    本质上,是把所有原来阵列好的硬盘的数据读取出来,xor计算,然后写入新加入的硬盘
    如果不考虑业务负载,那么对于新加入的硬盘(假设磁盘数量足够,能提供足够带宽)
    工作负载就是满带宽顺序写入磁盘容量的数据一次
    对于原有磁盘
    工作负载就是满带宽/(N-1)顺序读取磁盘容量的数据一次
    看着时间很久,可是仔细一算,不就是一块硬盘标准的从头到尾顺序读取一次吗?
    所以,难道现代的硬盘那么娇气,满负载的顺序写一遍,或者弱弱的顺序读取了一遍,就会出故障,概率还高得可怕?
    给我感觉就是那个博士群里计算高空水滴落下是不是会砸死人一样可笑。
  • xrzhang29天前
    引用55
    bbzcat 发表于 2022-4-28 23:06
    最后补充一点,企业级敢这么干,是跟有定期备份计划分不开的。
    更不用说什么存储HA,PPRC,两地三中心之 ...
    “人祸远大于天灾”
    大赞
  • aya141229天前
    引用56
    在绝大多数情况下没啥问题,换硬盘rebuild,这也是为啥大家还是比较信任raid5/6的。但在极端的情况下,实际上同批硬盘寿命都差不多了,那些显示没问题的硬盘可能早就也有问题,于是就会出现楼主的担忧,坏一块的时候,换盘,rebuild,中途又坏一块,这时候就慌了,接着又坏一块,boom
  • Mufasa29天前
    引用57
    bbzcat 发表于 2022-4-28 23:06
    最后补充一点,企业级敢这么干,是跟有定期备份计划分不开的。
    更不用说什么存储HA,PPRC,两地三中心之 ...
    你是专业看机房,我是研发兼管理机器。
    小企业的服务器,通常没有热备盘,你所说的自动恢复过程,我们这里没有啊。
    楼主也没有设置单独的热备,那么降级依旧是要人工干预的。
    我这里几个人几年画的图纸也不到1TB,但是非常重要。
    数据崩了,几年的工作就没了。
    机器崩了,可以再买。
    全新的机器,重建个阵列当然没问题,但用了多年的旧机器,不敢保证。
    我碰到过两次,一次是重建坏盘,一次是接触不良掉第二个盘。
    所以,发生故障,遇事不决,先备份。
    然后,重启解决90%,重装解决95%,重买解决100%
    1TB的数据拷不了几分钟,直接给它搬新家,这样最安全。
    我自己存的那些电影也是一样,有万兆网络以后,几十TB也就几个小时拷完。
    然后重买新硬盘,解决100%
    换下来的旧盘,丢去实验用机器,或者备用机。
  • bbzcat29天前
    引用58
    aya1412 发表于 2022-4-29 09:40
    在绝大多数情况下没啥问题,换硬盘rebuild,这也是为啥大家还是比较信任raid5/6的。但在极端的情况下,实际 ...
    传统HDD中,故障主要是机械问题为主,电子器件出问题比较少见,即使由于制造工艺产生的机械缺陷,故障出现的分布也还是有一段比较宽泛的时间的。比如那批恶名远扬的WD NAS红盘,我同时买的四块坏了三块,但也是分布在半年多的时间内,我一一保修,或者替换成ST的狼盘,数据并没有损失。反过来SSD倒是会有这个问题,同一批次的闪存芯片确实有很高几率同时失效,因此全闪阵列会引入反磨损均衡的算法,在闪存寿命达到一个阈值之后,集中拼命写其中一块,让它加速失效,从而避免同时N块盘故障的情况。
  • bbzcat29天前
    引用59
    Mufasa 发表于 2022-4-29 10:44
    你是专业看机房,我是研发兼管理机器。
    小企业的服务器,通常没有热备盘,你所说的自动恢复过程,我们这 ...
    你的逻辑依旧不清晰
    1. 我说的是既然原理上有hotspare的机制,说明了在很高几率上根本不需要担心rebuild坏盘的情况,交给系统就行了,这是RAID的机制决定的
    2. 你们配不配是你们的事情,不影响原理
    3. 你们数据小,所以停下来备份,所以业务不是等于停了吗,不客气的说,这根本不是RAID的标准应用场景
    4. 一台企业级存储,从投入使用到退役,十年以上比比皆是,你见哪个厂商说五年以上不推荐REBUILD?说到底还是电源,环境,操作的问题
    5. 你说的两次故障,一次是rebuild坏盘,一次是接触不良掉盘,所以仍然没有超出我说的一次以上的范畴啊,接触不良掉盘,要不操作不当,要不没有背板,不都是人为因素吗
  • bbzcat29天前
    引用60
    bbzcat 发表于 2022-4-29 11:03
    你的逻辑依旧不清晰
    1. 我说的是既然原理上有hotspare的机制,说明了在很高几率上根本不需要担心rebuild ...
    二十年中,我 遇到的阵列故障,电源故障大概占七成,控制器故障大概占两成,其他占一成左右,由于存储的特性,上去乱搞的人为故障确实会少一些。至于rebuild过程中出现硬盘故障导致停机的,一次没有。
  • 游客
    61
返回