第一范文网 - 专业文章范例文档资料分享平台

大数据中心建设方案(2)

来源:用户分享 时间:2022-05-06 本文由控制吥住の情绪 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

云中心既是一个企业云,也可以对外提供服务,扩展成公有云。学校还可以使用别的公有云如阿里云,形成混合云。

云中心包括iaas 、paas 、saas 三层服务:

1). SaaS :提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储等等;

2). PaaS :提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java ,python, .Net 等)开发的或收购的应用程序部署到供应商的云计算基础设施上去。客户不需要管理或控制底层的云基础设施,包括网络、服务器、操作系统、存储等,但客户能控制部署的应用程序,也可能控制运行应用程序的托管环境配置;可以使用docker 容器完成应用系统的部署和管理。

3). IaaS

:提供给消费者的服务是对所有计算基础设施的利用,包括处理

大数据中心建设方案

12

CPU 、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(例如路由器、,防火墙,、负载均衡器等)的控制。

云中心采用xen 、kvm 、VMware 进行虚拟化,LXC 提供Linux 容器,支持docker 应用容器。

一 . 服务器采用浪潮整机柜服务器SmartRack ,面向海量数据的存储和处理,适合云资源池如虚拟化、分布式存储,大数据处理如Hadoop 集群等应用,目前在国内服务器中占主导地位,特点如下:

定位多种应用,支持各类服务器节点。

针对不同业务对存储、计算、IO 吞吐量、功耗的不同要求,设计开发出不同种类的服务器节点,包括:1U 全宽双路12盘位综合型节点、1U 全宽单路

18

大数据中心建设方案

盘位冷存储节点、1U半宽双路计算型节点,满足不同需求。

整机柜集中供电、集中散热,相比其他架构服务器,运行功耗降低10%以上。

整机柜由一组电源模块集中供电,最大输出功率高达22.5kw,直接支持交流或高压直流供电,各节点通过铜排从电源模块取电,结合电源负载动态调整技术,电源转换效率高达94%以上。

机柜背部风扇墙集中散热,根据节点数量灵活调节风扇墙高度,采用140mm 大尺寸风扇,相同功耗下可提供更大散热量。

领先的架构设计,保障系统高可靠运行。

服务器节点中无独立的电源和风扇,有效降低单点故障。

根据整机柜实际负载情况,电源可实现N+N/N+2/N+1多种冗余方式。

风扇可根据温度状况自动调节转速,支持2+1冗余。

对整机柜节点、电源、风扇进行集中监控管理。

实现管理中心RMC对整个机柜各模块的统一监控和管理,节点、电源、风扇的健康状况、温度、配置信息一目了然,还可进行批量开关机、重启,功耗控制,风扇转速自动/手动调节等功能,搭配专为Smart Rack设计的可视化管理软件,轻松实现简易化智能管理。

简易维护,无需繁琐拆装。

独有节点前维护设计、各模组免工具热插拔设计、优化的线缆走线设计,使得系统运维难度大大降低。风扇等易损部件全部裸露在外,更加方便更换维护。二.云操作系统建议采用浪潮云海·云数据中心操作系统V3.0 ,此系统秉承开放化、模块化、标准化的设计理念,基于虚拟化技术,实现了数据中心资源融合、资源管理及服务交付,简化了云数据中心运维,提高了云数据中心服务水平。云

13

大数据中心建设方案

海·云数据中心操作系统有以下特点:

自主可控、安全可靠的云数据中心操作系统:

浪潮自主研发的国产云数据中心操作系统,加强了WEB安全、虚拟化安全、数据安全、访问控制、安全审计等方面的安全控制,可帮助用户构建安全可控的云数据中心。

异构资源管理:

云海OS支持对数据中心各类异构硬件设备及软件资源的统一管理;支持对VMWare vSphere、Inspur iVirtual等异构虚拟化资源池的集中管理,已部署的虚拟化环境可被云海OS无缝接管;

精细的软硬件资源监控:

云海OS支持对数据中心主流厂商的服务器、网络设备、存储设备等物理资源,操作系统、数据库、WEB应用等软件资源,VMWare vSphere、Inspur iVirtual等虚拟化环境的精细监控,提供界面、邮件、短信等多种告警方式,通过详尽清晰的报表分析数据,帮助数据中心的运维人员随时掌握数据中心的各类资源的运行状况,降低运维管理复杂度,提高运维效率。

快速的服务交付:

云海OS支持通过虚拟机模板、应用服务模板的方式,实现业务的快速交付,业务上线时间由原来的几周、几天,缩短为几分钟,大大提高数据中心的服务水平。

资源使用按量计费:

实时的资源使用情况统计,让用户精确掌控自身资源和费用使用情况,帮助IT部门实现由成本中心向价值中心的角色转变。

14

大数据中心建设方案资源按需服务:

云海OS可实现将基础架构作为服务交付,用户可通过自助服务门户在线申请及访问自己的虚拟数据中心、应用服务、虚拟机等资源,实现资源的按需申请、便捷获取、自助使用。

可定制的业务流程:

云海OS支持用户创建与原工作流程吻合的资源申请的审批流程,实现业务流程的个性化、可定制化。

灵活的服务交付方式:

云海OS既支持从下到上的资源申请与审批,也支持从上到下的资源创建与分配的服务交付方式,可满足不同客户对资源获取方式的不同需要。

多租户私有云:

云海OS可创建多个组织,一个组织可代表某业务部门、分部或子公司。每个组织都有各自独立的虚拟数据中心、用户及独有的目录,可将组织资源分配给本组织的用户,每个组织如同拥有自己的数据中心。利用基于权限的用户控制机制和基于虚拟交换机的网络隔离技术,实现多租户环境下的安全性和可靠性,以此构建安全的多租户私有云。

灵活可控的权限管理:

云海OS支持用户自定义角色类型,不同的权限可自由组合,实现灵活可控的系统权限管理。

服务全生命周期管理:

云海OS涵盖服务提供所需的各个环节,包括服务的申请审批;服务的交付和回收;服务的使用统计和计费;服务的运行监控

15

大数据中心建设方案服务移动性:

通过vApp封装多个虚拟机服务和相关的网络连接策略,遵循OVF等开放式标准,实现同一个云环境的终端用户彼此之间可以轻松共享服务,而不同的云环境的用户可以轻松的在云之间迁移服务。

3.2 大数据处理设计

通过在虚拟机上安装Hadoop2.6、hbase1.0等Nosql数据库集群,用sqoop1.3把现有的数据汇总进来,要对现有数据做个总的分析,对字段统一定义规划,制定转换策略,做到正确性、唯一性、可用性,去除重复字段,通过ETL抽取、清洗数据,把数据导入hbase,这样就可以消除信息孤岛,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。

云中心通过调度系统自动采集、加工、存储数据,为应用系统提供支持:

16

大数据中心建设方案在云中心的平台上,开发招生、创业、就业、数据实验室等应用系统,通过元数据库管理所有的数据数据经过采集、加工后进入hbase,消除信息孤岛,统一管理使用:

一.hadoop2架构体系

下图是hadoop2的架构图

17

大数据中心建设方案

18

1. HDFS 文件系统,Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System ),简称HDFS 。HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost )硬件上;而且它提供高吞吐量(high throughput )来访问应用程序的数据,适合那些有着超大数据集(large data set )的应用程序。HDFS 放宽了(relax )POSIX 的要求,可以以流的形式访问(streaming access )文件系统中的数据。

2、YARN 是一套资源统一管理和调度平台,可管理各种计算框架,包括MapReduce ,Spark ,MPI 等。包括 以下内容:ResourceManager (RM ):整个系统只有一个RM ,它就只管调度方面的事情,并且为集群应用而优化,因而具有很好的性能。RM 的一个核心是它的Scheduler 。调度包含两个过程,一要搜集各节点的情况;二要根据某种调度策略,分配合适的节点。搜集节点情况是基于一个资源容器(resource container)的概念,该容器包括cpu,disk,network 等(目前只用到cpu )

NodeManager (NM ):NM 是每个节点一个实例,管理每个节点,它触发应用容器(application container ),监控节点的资源(cpu/disk

等),

大数据中心建设方案

并向RM报告资源的情况。

ApplicationMaster(AM):AM是每个应用一个实例,它是一个特定的框架接口库,一方面与RM中的Scheduler协商得到resource container,另一方面与NM一起执行和监控各子任务部件,从系统的角度,AM本身也一种container(下图中将它与container画得一样)。

Container:从逻辑上,container可认为是资源的分配容器,它包括hostname,cpu,memory等属性。AM发送ResourceRequest给RM,然后RM分配合适的Container给AM,AM再将此Container提交给它所在节点的NM,NM采用此资源容器运行任务。实际上,Container是一种使用资源的“授权”,AM得到此授权后,在NM的管理下,可以运行任何进程(包括非Java应用,这一点与1.0不同)。

二、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。

主要特点:

存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。

三、HBase

HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于

19

大数据中心建设方案

缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在HBase 中数据按主键排序,同时表按主键划分为多个HRegion,如下图所示(HBase 数据表结构图):

四. Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

五.spark架构体系

20

大数据中心建设方案

21

Spark 与Hadoop 的对比

◆ Spark 的中间数据放到内存中,对于迭代运算效率更高。

Spark 更适合于迭代运算比较多的ML 和DM 运算。因为在Spark 里面,有RDD 的抽象概念。

◆ Spark 比Hadoop 更通用。

Spark 提供的数据集操作类型有很多种,不像Hadoop 只提供了Map 和Reduce 两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy 等多种操作类型,Spark 把这些操作称为Transformations 。同时还提供Count, collect, reduce, lookup, save 等多种actions 操作。Spark 的mllib 支持机器学习。

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop 那样就是唯一的Data

Shuffle

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新医药卫生大数据中心建设方案(2)全文阅读和word下载服务。

大数据中心建设方案(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1422280.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top