第一范文网 - 专业文章范例文档资料分享平台

大数据课程分类

来源:用户分享 时间:2025/12/14 15:19:48 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

大数据课程:

基础阶段:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。

hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、历史,HDFS工作原理,YARN介绍及组件介绍。 大数据存储阶段:hbase、hive、sqoop。

大数据架构设计阶段:Flume分布式、Zookeeper、Kafka。 大数据实时计算阶段:Mahout、Spark、storm。 大数据数据采集阶段:Python、Scala。

大数据商业实战阶段:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。

大数据之Linux+大数据开发篇

Java Linux程

Shell

数WEB

清工

编洗具

Hadoop2.x HDFS YARN MapReduce ETL

大数

Hive Sqoop Flume/Oozieo Hue HBase Storm Storm ScalaSpark Spark5.3.x管理 CDH 5.3.x集群 核心源码剖析 CM 大数据之数据挖掘\\分析&机器学习篇

页脚.

Lucene 爬虫技术 Solr集群 KI分词 Apriori算法 Tanagra工具 决策树 贝叶斯分类器人工神经网络 K均值算法 层次聚类 聚类算法 SPSS Modeler R语言 数据分析模型统计算法 回归 聚类 数据降维 关联规则 决策树 Mahout->Python金融分析 大数据之运维、云计算平台篇

Zookeeper Docker OpenStack云计算

大数据之PB级别性能优化篇

CDN镜像技术 虚拟化云计算 共享存储 海量数据 队列缓存 Memcached+Redis\\No-SqlLVS负载均 Nginx 大数据之Java企业级核心技术篇

Java性能调优 Tomcat、Apache集群 数据库集群技术 分布式技术 WebLogic企业级技术 阶段一、大数据、云计算 - Hadoop大数据

开发技术

课程一、大数据运维之Linux基础

页脚.

本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。

6)用户和用户组管理 7)磁盘管理

8)Linux文件和目录管理 9)Linux终端常用命令 10)linux系统监测与维护

1)Linux系统概述

2)系统安装及相关配置 3)Linux网络基础 4)OpenSSH实现网络安全连接

5)vi文本编辑器

课程二、大数据开发核心技术 - Hadoop 2.x从入门到精通

本课程是整套大数据课程的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架YARN,是Hadoop 云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN 集群资源管理与任务监控,MapReduce编程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。

一、初识Hadoop 2.x 二、深入Hadoop 2.x

页脚.

1)大数据应用发展、前景 2)Hadoop 2.x概述及生态系统

3)Hadoop 2.x环境搭建与测试

1)HDFS文件系统的架构、功能、设计

2)HDFS Java API使用 3)YARN 架构、集群管理、应用监控

4)MapReduce编程模型、Shuffle过程、编程调优

三、高级Hadoop 2.x

1)分布式部署Hadoop 2.x 2)分布式协作服务框架Zookeeper

3)HDFS HA架构、配置、测试

4)HDFS 2.x中高级特性 5)YARN HA架构、配置 6)Hadoop 主要发行版本(CDH、HDP、Apache)

四、实战应用

1)以【北风网用户浏览日志】数据进行实际的分析 2)原数据采集 3)数据的预处理(ETL) 4)数据的分析处理(MapReduce)

课程三、大数据开发核心技术 - 大数据仓库Hive精讲

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通类SQL

页脚.

语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

二、Hive深入使用

1)Hive中的部表、外部表、分区表

2)Hive 数据迁移

3)Hive常见查询(select、where、distinct、join、group by)

4)Hive 置函数和UDF编程

一、Hive 初识入门

1)Hive功能、体系结构、使用场景

2)Hive环境搭建、初级使用

3)Hive原数据配置、常见交互方式

三、Hive高级进阶

1)Hive数据的存储和压缩 2)Hive常见优化(数据倾斜、压缩等)

四、结合【北风网用户浏览日志】实际案例分析 1)依据业务设计表

2)数据清洗、导入(ETL) 3)使用HiveQL,统计常见的指标

课程四、大数据协作框架 - Sqoop/Flume/Oozie精讲

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第

页脚.

搜索更多关于: 大数据课程分类 的文档
大数据课程分类.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c2x8zk8s5u0565jb3urou8mpoj7oc3w00zq4_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top