大数据中心建设功能要求技术规范
WORD版本下载后可编辑
一、数据服务中心建设规划
数据服务中心是整个智慧旅游大数据项目核心组成部分,在规划建设过程中,坚持以数据资源为核心,面向数据应用与服务、信息数据资源标准化与管理,实现数据资源横向集成、纵向贯通、全局共享的运转模式。数据服务中心数据流转图和逻辑架构如下图。
数服务中心逻辑架构图
整个数据服务中心逻辑组成部分有:数据存储、数据组织、数据处理、资源管理、数据服务支撑。
数据存储:基于大规模并行处理(Massively Parallel Processing,简称MPP)、Hadoop等分布式计算平台进行搭建,以满
足旅游行业结构化、图像视音频等非结构化多种类型格式的海量数据资源存储需求。
数据组织:对各类数据资源进行逻辑组织,形成基础数据资源库、专题应用资源库以及资源管理库,满足旅游行业数据资源应用、管理与服务的需求。
数据处理:主要包括数据整合汇集、数据标准化处理、通用数据处理、专题数据处理。从多个层面对数据资源进行分析挖掘,为不同业务需求提供数据处理服务支撑。
资源管理:资源管理从应用资源、数据资源、服务资源以及标准资源多个层面实现数据服务中心信息资源的管理与标准建设。
数据服务支撑:数据服务中心实现了智慧旅游云数据资源的存储和组织。主要包括基础数据资源库、专题应用资源库和资源管理库。
数据分析处理:面向具体业务需求,建立对应的数据分析处理模型,实现对数据资源的深度挖掘和综合利用。
1.1 大数据平台建设
数据集中统一管理后,由于一体化业务为在线运行的系统,为避免大数据应用对现有生产系统造成影响,本期单独建设一套大数据平台,通过ETL将生产数据抽取到大数据平台中,进行分析处理,建立数据仓库,为上层应用提供支撑。
基于大数据等新先进理念,融合MPP、Hadoop、OLTP以及HDFS分布式文件系统等数据处理技术,构建具有海量数据处理能力
的旅游大数据平台技术支撑体系。有效汇总整合内外部数据资源,实现对数据资源的统一管理、高度共享和高效利用,解决数据资源海量化、异构化,应用需求多样化、复杂化等现实问题,进一步提升信息资源开发利用水平,提升信息资源服务的能力和服务品质,深层次满足上层业务应用、管理决策支持和信息再生应用的需要,达到强化情报信息数据支撑,服务实战应用的目的。
完整的大数据集群应当包含4大部分:ETL集群、MPP集群、Hadoop集群和数据仓库,提供从数据抽取、清洗、转换、加载到数据存储计算及数据仓库建设的一整套完整的大数据解决方案。各节点通过万兆网口连接,满足集群网络IO密集型的要求。
? ETL集群建议不少于1个节点,完成从各种数据源抽取、清洗、转化和加载数据到大数据集群的工作。
? MPP集群建议不少于2个节点。MPP集群负责结构化数据的存储与计算。
? Hadoop集群至少应包含6个节点,以满足数据多个备份的高可靠性要求。Hadoop集群负责非结构化和半结构化数据的存储与计算。 ? 数据仓库节点,将ETL集群、MPP集群和Hadoop集群导入的高度提炼汇总后的数据进行存储和分析,满足专业应用需要。 流程如下图所示:
相关推荐: