三、最佳信息化实践情况介绍 1、背景介绍
南京熊猫电子集团对各个子公司实行集团化管理,在集团总部部属了财务、Web网站、人力资源、OA、CRM等多套集团信息化系统,对子公司的业务运营进行集中支持和管控。信息系统对集团的正常运转非常关键。 集团的数据量越来越大,对信息系统的依赖性越来越高。信息中心作为信息系统的责任部门,最担心的就是数据丢失。系统故障总是可以恢复的,只不过是时间问题,换一台设备、重建系统也相对容易。数据丢失的风险则要大得多,信息中心的责任重大。 2、目标与方针
为了确保业务连续性和数据安全性,2007年底,熊猫集团开始建设新一代的数据备份系统,目标是提高数据保护的级别,实现更高标准的RTO(恢复时间目标)和RPO(恢复点目标)。熊猫电子集团此前的保护措施是备份至本地磁带库,备份策略为周五晚全备份加平时每天的增量备份。
不过我们还是有两点担心:一是之前的磁带备份除了恢复时间长以外,还有一大缺点就是可靠性不够高。南京地区梅雨季节比较长,磁带受潮容易发霉。本以为数据都已经备份到磁带上,结果磁带读不出数据,那就麻烦了。二是如前面所说,整个集团的数据都在这个信息中心。如果遇到火灾、台风这类影响到整个机房的灾害,后果会很严重。所以信息中心决定做一个异地备份,多一道保障。显然,每天将备份磁带转运到异地保存是不可行的。即使不考虑每天转运的人力物力花费,也会因为费事而难以坚持。而且,即使坚持转运了也不是很可靠。 3、详细介绍
熊猫电子考虑在相距5公里的地方建一个数据容灾备份系统,两地间连接的是商用IP网络,其带宽为2Mb/s。由于带宽小,可以通过的数据量非常有限,因此需要一套先进的方案,有效降低对带宽的要求,同时又能可靠地进行备份。
经过多方考察,我们发现,重复数据删除技术是一个比较理想的方案。备份数据的重复率是非常高的。例如,办公自动化系统中,文件流转、版本修订比较普遍,一个文件可能抄送给多个人,一个文件可能有多个版本,这其中有大量的重复数据。尤其是文件比较大的时候,备份时重复的存储空间占用相当可观。重复数据删除技术就能解决这个问题。所有重复的数据,系统在备份时只保留一份,在重复出现的地方,只保存一个数据地址。恢复数据时,数据能够自动还原。这正是熊猫电子需要的技术。
EMC Avamar是业界最优秀的重复数据删除技术之一,它是一种源端的全局重复数据删除技术。其特点是,在数据源开始处感知应用,能够针对具体应用数据(例如,Oracle数据库、SQL Server数据库、Word文档、PPT文档、电话录音、流媒体等等)的特点,实现最大限度的重复数据删除,删除率高达300:1甚至更高。例如,公司一个介绍性的PPT文档,今天张总接待使用,会保存一个署名张总和相应日期的版本;明天陈总出访演示,会保存一个署名陈总和相应日期的版本。两个文件只有一页不同,其它内容都一样。EMC Avamar能做到,第二次备份时,只保存改过的那一页。
熊猫电子在中心机房搭建一台备份服务器,部署EMC Avamar技术。备份数据经过EMC Avamar去除重复以后,再通过IP网络传输到容灾备份中心,备份到这里的Avamar Data Store存储阵列上。在熊猫电子的应用环境上,Avamar的重复删除率达到100:1。由于传输的数据量非常小,大大节省了带宽,缩短了备份时间,也节约了备份空间。原来每天要备份好几小时,现在每天只要几十分钟就完成了。综合比较下来,采用EMC Avamar新一代备份方案,比传统的备份方式代价低得多,RTO和RPO却提高了很多。
9
Avamar数据保护方案简化了数据恢复操作。与传统解决方案不同,Avamar备份每天都是生成的完全备份,而不是传统备份方式的“全备份+增量备份”,Avamar只需操作一次就可以恢复所需要的时间点数据。Avamar对文件的恢复很简单,既可以使用传统的恢复操作,也可以通过Web页面的下载方式进行。
由于数据是备份到存储阵列的,存储阵列上有RAID冗余磁盘技术,可以随时、自动对数据进行校验,可靠性提高。从数据恢复速度看,磁盘备份比磁带备份的速度高一个数量级,数据可用性的提高不言而喻。
为了充分利用已有投资,多提供一重数据保护,除了用Avamar进行异地备份外,熊猫电子将之前的本地磁带库备份继续保留。
EMC Avamar的扩展性不错。将来熊猫电子的其它分支机构或厂区如果需要备份数据时,只要和Avamar的服务器建立网络连接,就可以将数据备份至Avamar上。如果需要加强数据的保护级别,可以再增加一个节点,和现有节点之间做数据镜像。如果未来的数据增长非常快,则可增加多个Avamar节点组成EMC专利的RAIN结构,既增加了备份空间,又使数据的保护更加可靠。
下一步,我们的计划是,采用VMware虚拟化技术,搭建一台高配置的服务器,把各个应用服务器都备份成虚拟机,放在这台服务器上。这样,当某个应用服务器出问题时,可以先用虚拟机工作,并马上通过虚拟机恢复系统。数据和系统都有备份,而且可以实时恢复,进一步提高系统的可用性。 4、效益分析
10
金税工程三期背景下省级容灾备份建设探索
2010-06-04 16:09:03 | 来源:税务信息化论文集 | 作者:戴文忠 肖昭坚 王晓明 田仲昊
——深圳国税同城异址灾备项目建设实践
内容提要:税收信息化的高速发展,积极推动了税收征管和纳税服务的发展。国家税务总局提出的\信息管税\工作思路,更进一步肯定了信息化建设的地位和作用。随着信息技术的发展,目前税收业务系统已经逐步实现省级集中,业务数据的存储和管理也已高度集中。如何增强系统运行的稳健性,提高数据存储保管的安全性,是当前信息化建设必须面对的问题。本文旨在通过深圳国税同城异址容灾项目建设的实践,探讨省级国税系统如何在总局金税工程三期统一规划下开展本地容灾建设工作。 关键词:金税工程三期 省级 容灾备份
信息技术的快速发展和社会信息化建设力度的不断增强,对信息数据的完整性和系统运行的持续性提出了更为严格的要求。信息数据海量增长、信息系统支撑的业务高度集中和信息存储网络化不但使得信息数据的重要性日益凸显,同时也加大了各类风险的发生概率和信息资产的脆弱程度。一旦遭受水灾、火灾、地震、战争、恐怖袭击等大型灾难,正常社会秩序受到冲击,各种矛盾和冲突必将产生,后果严重,比如经济损失、社会动荡、政府失效等。对于公众机构,如何在威胁面前保护信息化的资产,提供不间断的政府服务是当局者需认真考虑的问题。近几年,随着我国税收信息化工作的深入开展,主要核心业务系统已经逐渐实现省级集中,税收征管、纳税服务、行政后勤等主要税收工作的集中程度大副提高。如何保障省级数据中心持续、稳定运行已经引起高度关注,容灾备份建设已经成为当前税收信息化的重点工作之一。 一、容灾备份的发展状况
容灾备份技术于上世纪七十年代中期在美国起步,随着银行、证券、保险和政府等各部门对容灾备份需求的增加而得到迅猛发展。到1999年,美国市场共有31个容灾备份中心服务商,为金融、政府部门的不同客户提供服务。美国\恐怖袭击事件\后,大量设在世界贸易中心的大型投资公司由于丧失重要信息数据,被迫倒闭、破产。经历这次恐怖袭击事件后,容灾备份技术更受瞩目。2001年底,容灾备份调查公司Globe Continuity Inc.对美国、英国、澳大利亚及加拿大共565个大型公司使用容灾备份中心的情况进行调查,发现有71.2%的公司使用了容灾备份中心。在市场开发方面,也出现了更多的容灾产品,其产品功能、存储技术和备份技术有了突破性的发展,能够支持和实现更多级别的数据和应用容灾,性价比方面也有了更大的提升。
在我国,容灾备份工作同样受到各行业、各部门、各级政府的高度重视。2003年,在《国家信息化领导小组关于加强信息安全保障工作的意见》中,国务院明确提出:各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。为落实国家信息化领导小组关于加强信息安全保障工作的要求,国务院信息办会同有关部门在大量调查研究的基础上,组织起草了《关于做好重要信息系统灾难备份工作的通知》,对做好国家重要信息系统灾难备份工作的目标、原则和近期任务提出了明确要求。2004年10月开始,国务院信息办组织银行、电力、铁路、民航、证券、保险、海关和税务八大重点行业信息系统主管部门共同出台了《重要信息系统灾难恢复指南》。《指南》为各单位实施灾难恢复提供了最低参考标准,对行业灾难恢复管理规范的制定具有指导意义。 二、信息系统灾难风险分析
(一)大型机构常见信息系统风险共性分析
从机构常见灾难种类及其影响的统计分类来看,大多数大型企业、机构常见的信息系统灾难性故障类型及其对IT系统造成的影响可以从下表得到体现。 表1 灾难类型及可能带来的影响
11
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 灾害名称 地震 轰炸、爆炸 火灾 水灾 电力供应中断 环境污染 飞机坠毁 火山爆发 恐怖袭击 大风雪 病毒的发作 灾难的机器故障 阴谋破坏 对IT系统可能造成的影响 机房、机器损毁,电力、通信中断,人员伤亡 机房、机器损毁,电力、通信中断,人员伤亡 机房、机器损毁,电力、通信中断,人员伤亡 机器损坏、电力中断,人员受阻 机器停止运行 机器运行不正常,人员受损 机房、机器损毁,电力、通信中断,人员伤亡 机房、机器损毁,电力、通信中断,人员伤亡 机房、机器损毁,电力、通信中断,人员伤亡 交通受阻,人员不能到位,电力通信可能中断 系统运转不正常甚至停机 系统停机 系统运行不正常 从机构设施差异情况分析灾难风险危害性,不同设施发生灾难时对IT系统破坏程度也有差别,差别分析如下表所示。
表2机构设施风险分析列表
序号 风险 1 2 3 4 5 6 7 建筑环境物理安全 基础设施的脆弱性 数据中心的环境位置 不满情绪的雇员 数据安全 关键技术点 系统支持和恢复 对IT系统可能造成的影响 机房倒塌 漏水、漏电,电磁干扰 泥石流,粉尘、有毒气体,造成机房故障 蓄意破坏系统,误操作 非法入侵 文档丢失,关键技术人员离职 配件不齐、支持人员不够 从灾难的可控制程度来看,根据不同的风险,采取可能的控制方法对风险的控制程度情况,如下表所示。
表3 风险可控程度分析列表
序号 风险类型 1 2 3 4 自然的 人为的 技术的 政治的 可能的控制方法 提高抵御自然灾害的能力 严格管理制度 采用冗余配备,加强技术培训和管理 可控制程度 低 中 高 低 12
相关推荐: