大数据工程师学习路径_华为云开发者学堂_华为云

第一阶段：大数据发展趋势

大数据趋势课程，主要分为两个主要部分：第一部分为大数据时代的机遇与挑战，第二部分主要介绍华为鲲鹏的解决方案。

开始学习

大数据发展趋势与鲲鹏大数据

大数据发展趋势与鲲鹏大数据

第二阶段：大数据相关技术学习

本课主要讲解大数据分布式存储系统HDFS和解决分布式应用中经常遇到的一些数据管理问题的ZooKeeper 分布式服务框架。通过本章的学习，为后续组件学习打好基础。

开始学习

HDFS分布式文件系统和ZooKeeper

HDFS分布式文件系统和ZooKeeper

Apache Hive数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已经存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

开始学习

Hive分布式数据仓库

Hive分布式数据仓库

本课主要讲述开源的非关系型分布式数据库HBase, 它可以满足大规模数据实时处理应用的需求。

开始学习

Hbase技术原理

Hbase技术原理

本课主要讲述大数据领域中最著名的批处理与离线处理计算框架——MapReduce，以及Hadoop集群中负责统一的资源管理与调度的组件——Yarn，以及华为为这些组件所提供的增强特性

开始学习

MapReduce和Yarn技术原理

MapReduce和Yarn技术原理

本课主要讲述Spark基本概念，了解Spark中RDD、DataSet、DataFrame三种数据结构的异同点。理解Spark SQL、Spark Streaming、Structured Streaming三种常用组件的特点。

开始学习

Spark基于内存的分布式计算

Spark基于内存的分布式计算

Apache Flink是为分布式、高性能的流处理应用程序打造的开源流处理框架。Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算，还能提供批量数据处理。相较于市面上的其他数据处理引擎，它采用的是基于流计算来模拟批处理。

开始学习

Flink流批一体分布式实时处理引擎

Flink流批一体分布式实时处理引擎

Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方。

开始学习

Flume海量日志聚合

Flume海量日志聚合

Loader是基于开源Sqoop组件1.99.x版本进行了功能增强，主要用于大数据平台和结构化数据存储（例如关系数据库）之间进行高效的数据导入、导出服务。

开始学习

Loader数据转换

Loader数据转换

本课程主要讲述Kafka基本概念、架构及功能。重在了解Kafka是如何保证数据存储、传输的可靠性，以及对于旧数据的处理方式

开始学习

Kafka分布式消息订阅系统

Kafka分布式消息订阅系统

大数据开源技术的深入发展离不开Hadoop等底层平台技术的支持。华为大数据平台实现了一种基于LDAP和Kerberos技术的高可靠集群安全模式，提供一体化安全认证功能。

开始学习

Hadoop基础技术-Kerberos&LDAP

Hadoop基础技术-Kerberos&LDAP

近年ElasticSearch发展迅猛，已经超越了其最初的纯搜索引擎的角色，增加了数据聚合分析和可视化的特性，如果你有数百万的文档需要通过关键词进行定位时，ElasticSearch肯定是最佳选择。

开始学习

ElasticSearch分布式全文检索

ElasticSearch分布式全文检索

Redis是一个基于网络的，高性能key-value内存数据库。数据可以持久化，而且支持的数据类型很丰富。支持在服务器端计算集合的并、交和补集(difference)等，还支持多种排序功能。

开始学习

Redis内存数据库

Redis内存数据库

查看更多内容收起

第三阶段：华为大数据解决方案

华为大数据及数据中台服务基于华为鲲鹏处理器的全新混合云解决方案。从当前的“混合资源管理“，进入“精细管控+业务混合”，催生出华为云Stack8.0，重新定义混合云。

开始学习

华为大数据解决方案

华为大数据解决方案

华为云开发者学堂，从入门到精通，探索更多学习路径

进入开发者学堂