目录
1. 存储方案整体设计 ............................................................................................. 1
1. 存储方案整体设计
数据的存储是档案扫描系统的核心组成部分,肩负着中国第二历史档案馆关键业务系统数据的存储与保护功能。由于系统包含扫描、加工、应用、数据库等重要系统,我们将依据不同应用特点进行方案设计,按应用性能需求、访问方式等不同的特点提供不同的存储方式。
在本项目当中,数据在进行加工系统中,既需要将数据传送到相应的服务器,也需要将数据进行本地存储。进行本地存储的好处是可以将得到的数据进行本地再处理,也可以作为数据的备份。
整体拓扑结构图:
数据在扫描、加工处理过程中,会从核心存储得到一个存储空间用于文件临时存放,随着业务流程推进,扫描数据最终变成了成品数据,核心存储中会划分一定的空间用于成品数据存放。
由于整个系统数据量比较大,因此对系统的存储容量、存储的方式、数据的安全性、数
据的可用性就有较高的要求。
数据存储采用分级存放方式,分级存储定义为三级:
1.1 在线方式
纸质档案的扫描工作是中国第二历史档案馆的生产系统,为考虑到大量的数据的安全存放,我们建议采用EMC VNX7500统一存储系统和EMC Isilon IQ 108NL群集存储设备作为数字档案的集中存储,并且该系统还需要为数据库等核心业务系统提供高性能的存储环境,同时也能为加工、检索等业务提供NAS共享存储环境。
在线方式主要为应用系统和业务系统提供存储空间,如数据库、应用服务器。以及结合后面的近线存储方式,归档系统会根据制定的策略将数据分成频繁访问和非频繁访问数据,频繁访问的数据会存放在在线的磁盘阵列中。因此,存储设备需要具备稳定、安全、高效及可扩展等诸多性能特点。结合我们的业务类型和数据文件类型,对存储设备进行了选型和定制。
1.2 近线方式
1.2.1 为什么要近线存储
扫描加工后的海量数据需求的增加速度比想象中的更快。所带来的解决起来看似不难,只要购买更多的主存储设备即可,但因此会产生更多的生产效率和成本问题。
? 新的存储系统可能很快地超载------以指数级速度增长的存储设备使对之产生的需求
预测越来越难。新购买的存储系统很快就不够用了
? 备份窗口越来越长------随着存储量不断的增加,备份时间窗口不能满足,管理员可能
因此无法进行完全的数据备份,只能选择性地备份最重要的内容。
? 灾难恢复要花费更长的时间------备份的时间越长,灾难发生时恢复的时间也越长,这
样就增加了宕机的时间,降低了生产效率。
? 磁盘空间越大,查找数据花费的时间就越长------如果用户或是管理员不能及时获取
所需的相应数据,那么备份系统还有什么价值呢?当容量增加,相应的查找文件的时间也会增加,生产效率则降低。
? 过度存储不仅浪费成本,也不环保------当对存储的需求快速增加时,与之对应的用
电量也急剧增加。除了存储系统运行所消耗的电量,另外还需要更多的电量用于冷却系统。此举不仅提高了成本,也不符合大多数企业所倡导的绿色存储的理念。
1.2.2 近线存储的解决方案
近线存储是将将年度加工的合格源数据的贮存,保存在磁带库中。用少量东西做更多事情的事情,实现控制成本并减少对主存储的存储需求总量。解决方案就是智能归档系统。
对于昂贵的存储资源来说,在主存储上存储非活动数据是一个巨大的浪费。针对现在越来越丰富的数据来说那是非常大的。另外,主存储主要用于快速传输及处理过程数据,它基本上不能支持数据恢复法规或在数据被写入存储若干年后,还能证实这一系列数据的完整性。这些都是归档存储的重要要求。
数据归档就是在二级存储设备上存储非活动数据,如磁盘、磁带等。这些数据是在将来可能需要的信息,因此不能删除他们。可能有合法的原因来保存这些数据,也可能是机构需要,如市场研究或正当的理由等。不管怎样,最后的决定是存储而不是将其删除。保存数据的问题或者是由于合法原因,或者是“以防万一”,也就是它必须保存在某个地方。
为了实现数据智能归档管理,节约磁盘存储成本,实现数据长期保存,通过专业归档软件对采集或交换而来的文本数据、图像数据等固定内容进行手工拖拽式归档和自动归档管理。系统将原始数据处理完成后,对这些原始数据做归档处理,将数据自动迁移到成本更低磁带介质上,实现这部分数据的长期、自动保存管理,以便今后查询调用。
灵活的归档设置可以基于各种文件固有属性,也可以通过手工添加标签,归档后的数据继续保持在线可访问。
对近线数据采用“智能归档软件”+物理磁带库的硬件框架平台来实现。智能归档系统是将存储在服务器上的数据档案进行智能处理的专业解决方案,通过自动的、最终用户触发的、工作流集成的方式将数据归档到长期存储平台,并且满足归档后的数据能够实现方便的应用访问和信息检索。
智能归档系统可将数据根据策略制定如:访问频繁程度、文件大小、最后修改的时间等方式进行分类进行归档。如认定为3个月没有访问的数据为非频繁访问数据,系统将3个月来没有任何访问的数据迁移到磁带库中实现数据的近线存储。在这期间如果有需要访问归档后的数据,归档系统能将数据从磁带库中迁移当磁盘中供应用系统访问。
1.2.3 近线存储的优势
现有加工后的数据海量,通过智能归档后能大幅降低对主存储空间的使用,并具有以下优势:
? 减少资本投入------由于节省了大量的主存储空间,IT部门节约了硬软件的投资,
也极大地减少了能源消耗。
? 缩短备份窗口------由于缩短了备份时间,IT管理员能更有效地保证所有数据都
得到保护。
? 加快了灾难恢复的速度------企业能大幅减少宕机时间和由意外而导致的用户生
产效率的损失。
1.3 离线方式
离线存储:离线存储是将数据通过光盘、移动硬盘、磁带实现一份数据三份备份介质的离线存储。并可将数据运送到异地进行保存。(约合计1810万)
相关推荐: