详解容灾系统建设的三个难题

时间：2011-08-29

　　容灾系统，对于IT而言，就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时，容灾系统将保证用户数据的安全性（数据容灾），甚至，一个更加完善的容灾系统，还能提供不间断的应用服务（应用容灾）。可以说，容灾系统是数据存储备份的层次。从其对系统的保护程度来分，可以将容灾系统分为：数据容灾和应用容灾。数据容灾就是指建立一个异地的数据系统，该系统是本地关键应用数据的一个实时复制。应用容灾是在数据容灾的基础上，在异地建立一套完整的与本地生产系统相当的备份应用系统（可以是互为备份），在灾难情况下，远程系统迅速接管业务运行。数据容灾是抗御灾难的保障，而应用容灾则是容灾系统建设的目标。

　　灾备系统首要防范的灾难

　　企业在制定数据安全方案时，首先要加强人员管理，建立安全体制，避免人为失误；第二步是采用磁带和双机热备份来确保本地的数据安全；第三步才是用到远程灾难备份。其实灾难备份只是业务连续性的一部分，保证业务连续性应包括两个方面：一是计划内的停机，如备份、系统升级、维护等造成的计划停机；另一方面是非计划的中断，如电源、通信链路、灾难等引起的灾难性备份。

　　此外，还有很多非硬性的灾难。这类灾难发生后，虽然建筑、设备、人员都是无损的，但整个站点同样失效，整个站点所提供的服务同样被中止。我们将这类灾难称为"'软'性灾难"或"类站点级灾难".它们带来的后果同样是灾难性的、甚至更加严重。这种灾难主要是由于一些恶意行为：如外部黑客攻击、内部高技术手段进行破坏以及一些人为的误操作（包括系统维护失误、误删除重要数据、打入冲突系统补丁）等。

　　硬性灾难或站点级灾难的发生是管理人员能够即刻发现的，造成的损失大多可以立刻评估、处理。而软性灾难或类站点级灾难大部分是无法被管理人员立时发现，因此造成的损失一般要远远大于前者。而且，软件性灾难的恢复非常麻烦，需要企业投入更多的资源、承担更多大的风险去解决。

　　传统容灾技术从诞生至今，已发展十数年未曾改变。这些传统容灾技术在帮助用户分析灾难时通常会刻意强调硬性灾难或站点级灾难的防御，而处处回避软性灾难或类站点级灾难，并将这些更具破坏性的灾难类型推卸给备份技术而逃避容灾规划中重要的环节。

　　无论技术如何发展，用户对灾难防御范围的要求却始终如一：防御所有类型的灾难是容灾系统建设的首要目标！因此，找到一种能够全面防灾、时时做到'有灾即有备'的灾备技术，成为用户灾备建设成功与否的基点。

　　灾备建设的成本

　　企业在建立灾难备份系统时，须考虑整个系统成本问题。如果实现远程异地自动备份，租赁通信链路所付出的代价较大。国内中小企业目前一般采用的多是本地备份，这主要是因为资金和中国通信广域网线路的限制。而国外用户一般都租用比较宽的带宽。

　　100公里以上的异地灾难备份将是未来的一种趋势。这种备份目前分为两种形式，一种是历史备份，一般采用每天凌晨备份的形式，出现问题可以恢复一天前的数据。如果对数据要求不是很高的话，可以采用3天，甚至一周备份的方式，可以节约很多成本。

　　以往，很多人认为灾备建设的成本只是购买灾备设备的费用，而在实践中，却因为估计不足吃了大亏，根本原因是没有把灾备建设的总体拥有成本计算清楚。

　　要想搞清灾备建设的总体拥有成本，我们看看以下几个元素：

　　1）场地费用：包括灾备机房基础设施费用，灾备中心人员费用等。

　　2）设备费用：包括购买的灾备存储、交换机、路由器、协议转换器、主机等各种设备的费用。这些费用由于容灾技术方案的不同，组成元素完全不同。

　　3）传输网络费用：这一部分费用随着灾备技术路线的不同更是差距明显。尤其在异地灾备体系的建设中，灾备技术路线的不同导致的传输带宽评估有时令人难以置信，可以相差达到40倍的带宽差异。例如，采用不同的技术，也可能只需要每年支付20万的传输网络费用，也可能需要支付每年200万的网络费用，而实际效果却完全相同。

　　4）运维费用：这部分的费用包括向厂商购买的每年服务和应急的服务费用，还包括别的系统维护人员的费用。一般而言，随着设备开放性的增加，维护人员的成本就相应下降，而灾备应急如果能够掌握在用户手中，灾难应急时向厂商购买的服务费用就减少。

　　综合考虑以上几个方面的因素，用户就可以比较准确的计算出容灾系统建设的整体拥有成本，并能做出合理的取舍，甚至能立刻做出建同城灾备还是异地灾备的选择。

　　还有人认为，容灾设备的采购成本和机房建设成本加起来就是容灾系统建设的总成本。但实际情况是，容灾设备的采购可能只需要600--700万，而用户每年要支付的网络传输成本可能高达200万，5年下来，网络费用早已超过了设备采购费用。而每年200万的网络传输成本中，却只有10%是用来传输有效数据（由于灾备技术的不同，相同的应用数据可能传输高达900%的冗余数据，自然占用大量的带宽）。

　　由于技术和人才有限，许多用户自己无法管理和维护容灾系统，只能依赖数据服务厂商。一旦出现事故，用户不仅需要向数据服务厂商支付大量的业务恢复服务费用，还无法控制服务的响应时间，快速恢复业务根本无从谈起。

　　灾备建设的设计者们不仅要掌握真正的成本测算规则，需要掌控灾难恢复的目标和效果，只有这样，才能避免容灾系统的重复投资和投资浪费，真正做到"有灾必备",消除"灾难盲区",从而有效降低容灾建设成本。

　　做容灾必须先整合吗

　　随着业务的发展，许多企业的数据中心存在不同时间建设的多个IT子系统，异构的系统环境给数据中心用户带来了新的困惑：现有的存储系统是由不同厂商的存储设备组成的，架构庞大而且十分复杂，容灾系统能在这种分散、异构的系统环境中建设吗？有人说，做容灾必须先进行系统整合，实际情况是不是这样呢？

　　市场中的容灾技术多种多样，包括主机复制型容灾技术、存储复制型容灾技术、CDP连续数据保护容灾技术等。如果用户采用的是存储复制型容灾技术，那就必须先进行系统整合，因为多个存储设备是不可能采用一种存储设备进行容灾的。存储复制型容灾技术不是一种开放的容灾技术，需要采用专用的单一存储设备，因此，除了进行整合，用户没有更好的办法。而其余的容灾技术都属于开放的灾备技术，系统整合则并不是十分必要。

　　以CDP灾备技术为例，是在主机后端的SAN上或者以太网上（即通过FC或者IP的连接），旁路加入一层数据复制器，这个数据复制器会含有一定的数据空间，它的角色就是通过关联技术持续不断地获取生产数据（以块的形式），不仅可以实现本地的数据冗余而且可以实现异地数据的复制。在异地的灾备系统中，同样部署持续数据复制器，就实现了和本地的连续数据复制器的远程灾备连接，并且将任何本地数据恢复的能力传递到异地的灾备系统。如飞康CDP,它是一种将容灾和备份一体化解决的技术，不仅可以实现达到任何IO历史轨迹的精细化颗粒度的恢复，而且能够在任何故障发生时，实现瞬间恢复的能力，并且十分关注恢复的有效性和效率。

　　CDP灾备技术由于对于每一个生产子系统都具有开放性的接入技术，而在灾备中心则可以汇聚到集中设备上来，因此完全不需要对数据中心内的各个子系统进行整合，也可以对于分布式的多分支机构的业务系统实现多点集中灾备。

　　由此可见，并不是所有的容灾项目都需要对系统进行整合，系统整合可能会带来很高的成本和风险。采用开放的容灾技术则是一种比较好的选择。

上一篇：语音识别技术让你的手机变的更加聪明

下一篇：解析下一代无源光网络的发展策略