浪潮(北京)电子信息产业有限公司
? 适合数据处理应用:模式计算,商业智能,医疗数据挖掘等。计算能力、I/O
能力、存储能力均衡。
SDA-2:
? 满配: CPU:288Core;内存:6912GB;存储容量: 540TB;网络: 1Gbps、
10Gbps或者40Gbps ? 支持线性扩展
? 适合处理密集型的重载应用: 视频处理,图片处理分析,图像渲染,在线交易
等。可重构加速器件或众核处理器,硬件加速。
二.关键模块介绍
HDFS分布式存储解决数据如何存储的问题,Map/Reduce解决数据如何处理问题,HBase解决实时数据库问题,Hive解决基于SQL的数据分析和挖掘。
2.1 Hadoop分布式文件系统:
–使用低成本存储和服务器构建 –存放PB级别的海量数据
–高可扩展性,实际生产环境扩展至4000个节点 –高可靠性和容错性,数据自动复制 ,可自我修复 –高带宽,高并发访问
5
浪潮(北京)电子信息产业有限公司
2.2 Hadoop MapReduce计算框架:
为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。通用的计算框架,松耦合,非常利于线性扩展。与HDFS一起使用,具有容错特性,数据本地化处理,通过移动计算,而非移动数据来实现高效数据处理。
?分析问题能够被并行化,且输入数据集可以被切分 ?一个Map函数,在第一阶段计算
?一个Reduce函数,在第二阶段用于汇总Map函数的结果
2.3 HBase 分布式数据库
HBase是一个分布式的、按列存储的、多维表结构的实时数据库, 为高速在线数据服务而设计
–NoSQL
?面向列、可压缩,有效降低磁盘I/O,提高利用率。
?多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。 ?灵活的表结构,可动态改变和增加(包括行、列和时间戳)。 ?支持单行的ACID事务处理 –分布式系统
?高性能,支持高速并发写入和高并发查询;
?可扩展,数据自动切分和分布,可动态扩容,无需停机;
6
浪潮(北京)电子信息产业有限公司
?高可用性,建立在HDFS分布式文件系统之上。
2.4 Hive数据仓库
Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据 –采用HDFS进行数据存储 –采用Map/Reduce进行数据操作
基本特点:
–提供类似于SQL的查询语言
–高扩展性(scale-out),动态扩容无须停机 –针对海量数据的高性能查询和分析系统 –提供灵活的扩展性
?复杂数据类型,扩展函数和脚本等
三.浪潮云海大数据一体机解决方案优势
3.1 高性能
? 专用的大数据存储服务器:针对大数据的应用特点,浪潮凭借在服务器及存储
方面的领先优势,自主开发了大数据存储服务器,具备高密度、大容量存储特性。
? 胖节点加速方案:胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS
特性保障。
7
浪潮(北京)电子信息产业有限公司
? 闪存加速技术:将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类
型,实现全局的算法,降低冗余率,使整个平台的计算节点、存储节点大大提高运行效率。
? 高速通信网络:通信网络选用性能领先的万兆网络或者IB网络,实现一体机内
部的高速互联,消除网络瓶颈。 ? 软件性能优化
? IO瓶颈易于解决
? 可以发挥大规模并行运算优势
? 支持大规模并行装载,装载前无需数据格式化,节点越多装载速度越快 ? 优化系统任务调度策略,对任务实现实时监控,
? 动态调整任务执行资源,减少慢任务数量,提高整体性能
3.2 高可靠性
? 服务器本身冗余特性:节点的硬盘、风扇、电源等关键部件都是冗余设计,保
障了节点本身的可靠性。
8
相关推荐: