logo

让我们从头开始:DRP/BCP vs PRI/PCI

虽然DRP(灾难恢复计划)和BCP(业务连续性计划)这两个缩略词现在已经广为悉知,但它们各自的范围却不那么为人所熟知。

DRP侧重于信息系统。至于BCP,它的范围已经扩展到公司的所有基本活动,当然也包括信息系统

在ILKI,为了避免任何混淆,当我们处理IT时,我们更喜欢使用以下缩略词:PSI(IT备份计划),它可以在PRI(IT恢复计划)或PCI(IT连续性计划)中使用。

同样重要的是,要了解PSI的实施是在灾难的背景下进行的,因此必须:

  • 确定要保护自己免受的损失
  • 确定每个索赔的要求

 

应该考虑哪些索赔要求?

必须考虑到某些类型的灾害:机房的物理损失,网络连接的损失,基本服务(业务,基础设施等)的损失,信息系统的可维护性的破坏(网络攻击)。

需要是肯定的:你不能百分之百地保护自己免受风险。由于原因可能是多方面的,因此有必要将每种风险与发生的概率和发生时的影响联系起来。这两个参数的组合可以定义风险级别,从而确定要考虑的最重要的风险。

RPO/RTO,构建PSI体系结构的关键点

  • RPO-恢复点目标  即灾难发生时最大允许数据丢失
  • RTO-恢复时间目标 即灾难事件中允许的最长中断时间

RPO/RTO对将根据每个应用程序或应用程序组定义。

需求再次成为思考的中心。后者应与最适合确定在发生灾害时什么是可接受的业务相关联地加以界定。

然而,需求和业务特性的定义必须伴随着。事实上,理解需求的来由可以避免默认响应,换句话说,通常是0/0对零数据丢失和零中断,如果这不是最相关的。

只有从RPO/RTO的定义中,才有可能定义目标体系结构和用于满足所表达的需求的机制。

 

首先,构建高可用体系结构

建设一个高度可用的基础设施(在各个级别)显然将有助于限制损失,特别是通过减少或消除在发生故障时对以下方面的影响:

  • 数据中心
  • 网络(WAN,MAN,LAN)
  • 计算/存储/虚拟化基础设施砖块

要消除SPOF(单点故障)的存在,一个简单的方法:在各个级别建立冗余!我们把一切基础资源都双倍冗余建设,直到物理光纤路径,以避免著名的“挖掘机打击”。

虽然异步和同步复制可以减少RPO/RTO,但要达到最佳水平,没有什么比被认为在应用程序级别上具有高可用性的应用程序更好的了。

此外,所谓的云原生应用程序是根据“为故障而设计”的原则开发的:基础设施正在崩溃!

 

网络攻击,一个需要考虑的新灾难!

没有必要提醒你,网络攻击越来越多地出现和发展。因此,近年来,网络攻击通过加密所有数据(例如勒索软件/cryptolocker)导致完整的IS服务关闭。网络攻击的问题是发生的可能性在增加,但影响仍然难以预测。

在这种情况下,备份通常是最后一道防线,因此需要严格保护,以防止它们被利用或损坏。

幸运的是,有一些方法可以减缓攻击者的进展,阻止对备份数据的访问,甚至通过不可更改 或者 间隙机制保护这些数据。但这个主题值得一篇完整的文章!

 

当然是技术方面的,但不仅仅是!

PSI的构建通常只与相关的技术模块相关,但组织和功能方面也不能忘记:

  • 制定流程和程序,以便在发生灾害时有效地管理危机
  • 按优先级设置重新启动服务的顺序
  • 重新启动后生成更新的测试手册/应用程序配方
  • 确定要参与的人员,并区分工作时间和非工作时间
  • 创建用于危机管理过程的沟通模板
  • 等等…

因此,建立一个危机处理部门,包括决策者和技术团队,是至关重要的一步。她不仅负责DRP的决策(触发、管理、沟通等),还负责保持流程和程序的更新。

最后,别忘了:

  • 故障转移:
    故障转移的需要通常等同于降级的情况
  • 定期测试:
    确认和更新所有流程和程序

正如您所看到的,灾后恢复方案的建设不能临时进行,需要调动许多行动者和资源,但对您的生产活动至关重要。此外,不要忘记您的DRP需要与您的IS一起发展。