第一阶段:大数据入门级课程学习
第一阶段:大数据入门级课程学习

大数据概述
面向大数据初学者,培训与认证大数据核心基础理论及基于华为云大数据服务MRS的基础应用开发能力。

Hadoop生态系统与华为云服务MRS概述
了解Hadoop和华为云MRS服务特点及其优势。

HDFS分布式文件系统
掌握HDFS原理及其基本操作。

HBase分布式数据库
掌握HBase系统架构及其基本操作。

Hive数据仓库
掌握Hive系统架构及其基本操作。

MapReduce编程框架
掌握MapReduce编程框架及其编程流程。

Spark计算引擎
掌握Spark及其生态系统基本原理和操作。

华为云MRS服务
掌握华为云MRS服务架构、优势和解决方案。

HCCDA-Big Data 综合实验
HCCDA-Big Data 综合实验。

HCCDA-Big Data 考试大纲及考试样题
了解认证考试的考点和比例分布。
第二阶段:大数据入门级实验练习
第二阶段:大数据入门级实验练习
HDFS数据及文件的增删改查
利用Hadoop提供的客户端命令即CLI来对HDFS进行增删改查相关操作。
上传数据到HDFS
利用Python语言将文件写入HDFS已存在的文件中。
HDFS读文件
通过实验了解Linux云服务器的登录方式以及在云服务环境实际操作,同时学习在hdfs上对文件进行上传、权限变更、查看、以及使用python读取HDFS指定文件内容等操作。
HDFS写文件
利用Python语言将本地的数据上传到HDFS指定的目录下。
HBase数据仓库加载
本实验针对已上传至ECS远程服务器的数据,利用Hadoop集群启动HBase客户端,使用HBase的thrift功能自动地将本地数据选课数据表(user_tag_value)和成绩表(moc_score)导入HBase中,实现HBase对数据表的创建、上传、查询。
HBase数据表基本操作
本实验针对已上传至ECS远程服务器的数据,利用Hadoop集群启动HBase客户端,使用HBase的thrift功能自动地将本地数据导入HBase中。具体来说,是利用HBase Shell命令对用户选课表(user_tag_value)进行创建表、删除表、修改表结构、增加数据、删除数据、查询数据和修改数据等操作。
Hive创建数据仓库
本实验利用Hadoop集群启动Hive客户端,实现对数据库和数据表的基本操作。利用Hive组件创建数据仓库,实现Hive数据仓库加载,且在Hive中创建Database,然后创建数据表,针对数据表进行增删改查操作。
Hive的数据查询
利用Hive组件创建数据仓库,实现Hive数据仓库加载。具体来说,首先在Hive中创建Database,然后创建数据表。
Hive的数据统计
本实验通过Hive创建数据仓库,实现hive数据仓库的数据统计功能。首先,使用数据库,然后进行单表统计和多表统计。
基于MapReduce实现排序
通过MapReduce组件对数据进行全局排序。执行对应Python脚本调用MapReduce组件,统计用户选课表中不同地区选课人数和选择的课程后,对用户选课数量直接进行排序,分析整体用户选课偏好和人数的分布情况。
基于MapReduce求平均值
通过MapReduce组件统计出用户选课表中各省份各科的选课数量,最终计算出每个省份各个科目的平均选课数量。
基于MapReduce分类统计
通过MapReduce组件统计出用户选课表中不同地区选课人数和选择的课程,按用户的省份划分为不同的类别,分析不同地区用户选课偏好和人数的分布情况。
基于Spark的关联分析
本实验基于Spark进行关联分析的实例。基于多个课程讨论表综合分析师生互动讨论对学生参与讨论积极性的影响。具体来说,是统计有无教师参与讨论情况和学生参与讨论次数之间的关联关系。
基于Spark的偏好分析
本实验是基于Spark进行偏好分析的实例。我们利用课程信息表,分析学生学习成绩变化趋势和学习偏好。
基于用户选课分布统计分析
本实验是基于MapReduce组件和Spark组件对用户选课分布进行统计分析。以课程为样本点,基于聚类算法对课程进行分类,找出每个样本所包含的属性,包括学习优秀率、测验通过率、选课人数的学生比例等,从而进一步分析影响线上学习体验的主要因素。
基于学习偏好的课程推荐
本实验是基于MRS服务中的Spark组件对学习偏好进行分析,并进行系统推荐。实验所用数据表来自用户选课评分表,通过绘制学生学习行为的关系图,基于协同过滤算法揭示学生的学习偏好,从而分析不同类型学生学习课程的行为差异。
第三阶段:云上考试认证
第三阶段:云上考试认证
大数据入门级开发者认证
HCCDA-Big Data
面向大数据初学者,培训与认证大数据核心基础理论及基于华为云大数据服务MRS的基础应用开发能力。