华为认证大数据工程师学习路径是HCIA-Big Data V3.0认证的学习指引,主要介绍了大数据开源技术,业界常用且重要大数据组件技术原理,华为大数据FusionInsight HD解决方案以及大数据组件的基础操作和应用场景综合实践。
大数据趋势课程,主要分为两个主要部分:第一部分为大数据时代的机遇与挑战,第二部分主要介绍华为鲲鹏的解决方案。
本课主要讲解大数据分布式存储系统HDFS和解决分布式应用中经常遇到的一些数据管理问题的ZooKeeper 分布式服务框架。通过本章的学习,为后续组件学习打好基础。
Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已经存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。
本课主要讲述开源的非关系型分布式数据库HBase, 它可以满足大规模数据实时处理应用的需求。
本课主要讲述大数据领域中最著名的批处理与离线处理计算框架——MapReduce,以及Hadoop集群中负责统一的资源管理与调度的组件——Yarn,以及华为为这些组件所提供的增强特性
本课主要讲述Spark基本概念,了解Spark中RDD、DataSet、DataFrame三种数据结构的异同点。理解Spark SQL、Spark Streaming、Structured Streaming三种常用组件的特点。
Apache Flink是为分布式、高性能的流处理应用程序打造的开源流处理框架。Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理。相较于市面上的其他数据处理引擎,它采用的是基于流计算来模拟批处理。
Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方。
Loader是基于开源Sqoop组件1.99.x版本进行了功能增强,主要用于大数据平台和结构化数据存储(例如关系数据库)之间进行高效的数据导入、导出服务。
本课程主要讲述Kafka基本概念、架构及功能。重在了解Kafka是如何保证数据存储、传输的可靠性,以及对于旧数据的处理方式
大数据开源技术的深入发展离不开Hadoop等底层平台技术的支持。华为大数据平台实现了一种基于LDAP和Kerberos技术的高可靠集群安全模式,提供一体化安全认证功能。
近年ElasticSearch发展迅猛,已经超越了其最初的纯搜索引擎的角色,增加了数据聚合分析和可视化的特性,如果你有数百万的文档需要通过关键词进行定位时,ElasticSearch肯定是最佳选择。
Redis是一个基于网络的,高性能key-value内存数据库。数据可以持久化,而且支持的数据类型很丰富。支持在服务器端计算集合的并、交和补集(difference)等,还支持多种排序功能。
华为大数据及数据中台服务基于华为鲲鹏处理器的全新混合云解决方案。从当前的“混合资源管理“,进入“精细管控+业务混合”,催生出华为云Stack8.0,重新定义混合云。
华为云开发者学堂,从入门到精通,探索更多学习路径