最新回复 (59)
- zhao1373141月前引用2楼买一块硬盘顶上就行了,问题不大,备份应该是日常工作。
- zhuifeng881月前引用3楼是什么使你觉得浴盆曲线下新的能比老的保险
- lucifersun1月前引用6楼所以要有热备盘,并设置例行巡读
有热备之后,会自动开始rebulid,你要做的基本上就是直接换盘。
例行巡度可以提前发现硬盘故障,搭配热备盘,在硬盘暴毙前完成直接替换,连rebulid都省了 - LambdaDelta1月前引用8楼raid6降级,直接换难道不是理所当然的事情?
- zhao1373141月前引用11楼我的生产系统就是这样的,而且还在两个不同的机房。生产是全闪存,备份是7200低速机械企业盘
slymitec 发表于 2022-4-28 12:24
假设我买了8个10tb 组建raid6后 就是60tb空间 然后我已经用了35tb了
如果说备份是日常工作 那岂不是我还 ... - zhuifeng881月前引用14楼浴盆曲线中期是这样的, 全新的故障率就是比用了一段时间没坏的高, 用了很长时间故障率才会升上去
slymitec 发表于 2022-4-28 12:25
是所有硬盘都换新的
你的意思是我买一个老的换上去 其稳定性比新硬盘重新组建阵列还安全? ... - zhuifeng881月前引用17楼短期内隔段时间再炸一个的概率和你当场换一个新的在换的时候就炸了的概率是一样的
slymitec 发表于 2022-4-28 13:23
然后隔段时间又坏一个?甚至直接炸2-3个
ps这里都没敢拿raid5举例 拿的是至少可以坏两个的raid6 ... - 说下实际使用案例。一个小影视公司A,本来没有数据共享平台。
大家的片子和素材都放移动硬盘,需要就来回拷贝,效率低下,经常丢数据,然后移动硬盘还容易摔坏。
后来有另外个客户B收摊,从B公司拿回一台已经使用了5年的老服务器,12个4T做raid 6。
清扫一下后,以垃圾的价格卖给了公司A,他们使用后觉得非常方便,从此再也不用担心移动硬盘的效率和损坏了。
重要数据用移动硬盘备份,热数据都在这个二手服务器里。
随着使用的深入,渐渐的老服务器的空间开始不够,硬盘也开始损坏,每次都是买个4t的进去更换。基本更换过程都OK。
公司A验证了这种运行模式的有效性后,购买了新的100T的服务器(raid 6),逐渐将热数据放进新的服务器。又把那个二手服务器当作了素材和暂时不用的工程备份用。
于是形成了,常用数据,不常用数据,重要数据这样一个3级备份的工作流程,再加上客户机里的一份数据,最近几年来他们对于找不到东西的烦恼已经大大减少,而且数据丢失的情况也基本不再发生。
可能这才是raid的真正价值吧。
主要还是不能吧raid 当作保险柜,日常维护检查是必须的,每当有硬盘损坏,都是马上进行更换重建。不拖拉。也没说一定要全部拷贝出来。 - LightningWu1月前引用28楼之前有机会听过veeam对于数据灾备的讲解,似乎也是跟你说的形式差不多
Mufasa 发表于 2022-4-28 14:04
两三台机器,可以考虑软件设置HA
如果机器更多,就分布式存储了,例如ceph - LambdaDelta1月前引用32楼按16T来算 Raid 6都不需要按官方失效率,按保守失效率来算,10年重建崩掉的概率不到0.03%。说难听点,你要担心这个崩掉的话,还不如担心出门会不会被车撞。
slymitec 发表于 2022-4-28 13:23
然后隔段时间又坏一个?甚至直接炸2-3个
ps这里都没敢拿raid5举例 拿的是至少可以坏两个的raid6 ... - 我简单的总结一下思路吧:
1. 标准存储部署环境中,我拿IBM DS8000系列举例吧,大概12块3.5寸或者24块2.5寸SAS作为一个盘包,也就是扩展单元,一般来说里面配有独立热备,然后整个扩展柜范围内再配有全局热备。当出现硬盘故障时,已独立热备->全局热备的顺序自动rebuild。
2. 由此可知,出现硬盘故障的瞬间,hotspare是自动加入,自动重建的,因此什么新存储考出来之类的都是废话,根本不会给你机会。
3. 这是企业几十年以来的技术了,当然中间由于容量大重建窗口长,引入SSD之类的原因,衍生出RAID5E,6E,RAID2.0,RAID2.0+之类的技术,但本质差不多,不详细说了
4. 这个技术下放到工作站,家用环境,首先不要怀疑技术本身,尤其是原理
5. 如果在家用环境下,碰到一次以上的rebuild失败,我建议按照1. 电源 2. 机箱共振 3. 操作流程的次序去检查,而不是拿着个Datasheet去YY什么概率。这个技术的可靠性是有足够的时间和场景支持的。概率这东西,如果真是那么高,各个运维的同学每天忙着拿磁带恢复就好了。
6. 如果还不行,再检查一下用的硬盘,是否满足了RAID对硬盘质量的最基础的要求。虽然我觉得这个也有点扯,我手里快十年的绿盘一样跑得好好的,但往极端一点说,你搞一堆软盘驱动器,别说RAID6,RAID16都不一定能跑起来。 - 然后我们再扯一扯rebuild的过程
拿 raid5 rebuild来说
本质上,是把所有原来阵列好的硬盘的数据读取出来,xor计算,然后写入新加入的硬盘
如果不考虑业务负载,那么对于新加入的硬盘(假设磁盘数量足够,能提供足够带宽)
工作负载就是满带宽顺序写入磁盘容量的数据一次
对于原有磁盘
工作负载就是满带宽/(N-1)顺序读取磁盘容量的数据一次
看着时间很久,可是仔细一算,不就是一块硬盘标准的从头到尾顺序读取一次吗?
所以,难道现代的硬盘那么娇气,满负载的顺序写一遍,或者弱弱的顺序读取了一遍,就会出故障,概率还高得可怕?
给我感觉就是那个博士群里计算高空水滴落下是不是会砸死人一样可笑。 - 你是专业看机房,我是研发兼管理机器。
bbzcat 发表于 2022-4-28 23:06
最后补充一点,企业级敢这么干,是跟有定期备份计划分不开的。
更不用说什么存储HA,PPRC,两地三中心之 ...
小企业的服务器,通常没有热备盘,你所说的自动恢复过程,我们这里没有啊。
楼主也没有设置单独的热备,那么降级依旧是要人工干预的。
我这里几个人几年画的图纸也不到1TB,但是非常重要。
数据崩了,几年的工作就没了。
机器崩了,可以再买。
全新的机器,重建个阵列当然没问题,但用了多年的旧机器,不敢保证。
我碰到过两次,一次是重建坏盘,一次是接触不良掉第二个盘。
所以,发生故障,遇事不决,先备份。
然后,重启解决90%,重装解决95%,重买解决100%
1TB的数据拷不了几分钟,直接给它搬新家,这样最安全。
我自己存的那些电影也是一样,有万兆网络以后,几十TB也就几个小时拷完。
然后重买新硬盘,解决100%
换下来的旧盘,丢去实验用机器,或者备用机。 - 传统HDD中,故障主要是机械问题为主,电子器件出问题比较少见,即使由于制造工艺产生的机械缺陷,故障出现的分布也还是有一段比较宽泛的时间的。比如那批恶名远扬的WD NAS红盘,我同时买的四块坏了三块,但也是分布在半年多的时间内,我一一保修,或者替换成ST的狼盘,数据并没有损失。反过来SSD倒是会有这个问题,同一批次的闪存芯片确实有很高几率同时失效,因此全闪阵列会引入反磨损均衡的算法,在闪存寿命达到一个阈值之后,集中拼命写其中一块,让它加速失效,从而避免同时N块盘故障的情况。
aya1412 发表于 2022-4-29 09:40
在绝大多数情况下没啥问题,换硬盘rebuild,这也是为啥大家还是比较信任raid5/6的。但在极端的情况下,实际 ... - 你的逻辑依旧不清晰
Mufasa 发表于 2022-4-29 10:44
你是专业看机房,我是研发兼管理机器。
小企业的服务器,通常没有热备盘,你所说的自动恢复过程,我们这 ...
1. 我说的是既然原理上有hotspare的机制,说明了在很高几率上根本不需要担心rebuild坏盘的情况,交给系统就行了,这是RAID的机制决定的
2. 你们配不配是你们的事情,不影响原理
3. 你们数据小,所以停下来备份,所以业务不是等于停了吗,不客气的说,这根本不是RAID的标准应用场景
4. 一台企业级存储,从投入使用到退役,十年以上比比皆是,你见哪个厂商说五年以上不推荐REBUILD?说到底还是电源,环境,操作的问题
5. 你说的两次故障,一次是rebuild坏盘,一次是接触不良掉盘,所以仍然没有超出我说的一次以上的范畴啊,接触不良掉盘,要不操作不当,要不没有背板,不都是人为因素吗 - 游客61楼
发新帖
主题数 460490 | 帖子数 7176701 | 注册排名 2 |
精彩推荐
- 全球主机交流想开个剑灵公益服各位mjj有什么意见吗?
- chiphellGen8+DSM7.1跑不满2.5G
- V2EXU-Web 网站统计收费了, V 友们有没免费的网站统计推荐
- V2EX想了解一下有多少移动端工程师同时开发 iOS 和 Android 应用呢?
- V2EXreact native 如何畅快的写样式
- 全球主机交流宝塔替代品 digitalocean开源的nginx配置web可视化界面
- 全球主机交流luna现在2块左右
- 耳机大家坛影院与音乐双修!Wharfedale乐富豪高端系列EVO4成影音市场热点!
- 全球主机交流南航一空姐工作时发内衣自拍照被炒,网上图好像是假的
- 全球主机交流有俄罗斯胜利日阅兵 的直播么,网上的好像都不是官方的
- 全球主机交流求个wps超级会员便宜路子
- V2EX广州租房导航 - 分享遇到过的坑以及租房经验