大数据开发工程师 2期

授课时间:每周三、日 20:00-23:00

抢先预订名额

  • 50+

    已报名学员

  • 2020-08-30

    报名截止/开课时间

  • 2.0

    课程版本

课程简介/Course Introduction

  • 1.课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等。
  • 2.课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术。
  • 3.用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据开发工程师!

适合人群/Suitable For People

  • 1-3年开发经验,
    想要学习大数据技术的工程师

  • DBA,运维,数仓,BI,
    数据挖掘等方面的的工程师,想要成为大数据工程师

  • 期望寻找大数据解决方案,
    扩充技术栈的工程师

职业发展前景/Career Development Prospects

  • 岗位年薪对比

  • 人才缺口

  • 前沿技术

  • 岗位拓展职位

师资团队/Faculty Team

肖秋平

肖秋平毕业于复旦大学

前巴分巴秒信息科技创始人&CEO, 前阿里巴巴架构师, 10+年大型世界500强外企和IT互联网工作经验,参与并负责日活百万级音乐交易、直播类移动APP的整体分布式架构设计,中台建设; 前阿吉豆IT副总裁 CIO ,负责AJIDOU阿吉豆全国800多家零售连锁门店企业信息化战略与规划,IT产品技术创新与组织管理。

曾益强

曾益强毕业于东南大学

大数据技术专家,前阿里巴巴大数据资深架构师,7年大数据研发经验,精通大数据生态技术源码,在机器学习,深度学习方面也有深入研究,并著有《TensorFlow机器学习实战指南》、《R语言编程指南:数据分析和可视化》等多本畅销书。

李奡

李奡毕业于北京邮电大学

前电信公司部门大数据团队负责人,推动部门大数据中台能力建设,主导并参与多个大数据项目,擅长Hadoop,HBase,Hive等大数据技术,具有丰富的大数据研发和集群运维经验。多年电信行业从业经验。

李希沅

李希沅毕业于河北工程大学

前转转公司大数据资深架构师,Hadoop平台负责人,带头研发了公司任务调度平台,即席查询平台等核心平台,曾任东方国信大数据架构师,大数据技术经理,负责《联通全流量查询平台》《联通IP溯源平台》等多个PB级数据知名项目,曾架构管理联通10000+台机器大数据集群,并为中国平安,中国移动等多家企业内训,有丰富的授课经验。

马中华

马中华毕业于湖北师范大学

前Oracle数据开发技术组负责人,动批网数据运营系统负责人,阿里云/腾讯云全球第一位认证金牌讲师,阿里云栖大会特邀演讲嘉宾,具备多年大数据技术研发和项目管理经验,精通Hadoop,Spark,Flink等大数据技术,在机器学习,自然语言处理方向有深入研究。有丰富的企业技术培训和技术讲座的实战经验,历史受训学员2000+。

  • 肖秋平

    肖秋平

  • 曾益强

    曾益强

  • 李奡

    李奡

  • 李希沅

    李希沅

  • 马中华

    马中华

课程大纲/Syllabus

  • 4.5

    课程时长(月)

  • 50

    单元(个)

  • 173

    知识点(个)

阶段一:小规模数据处理篇

第一单元 掌握Python基础语法 1. 集合类型
2. 条件,循环
3. 文件操作
4. 函数和函数式编程
5. 面向对象
第二单元 掌握NumPy进行数据分析 1. NumPy基本使用
2. Numpy进阶知识
第三单元 掌握Pandas进行数据分析 1. Pandas基础知识
2. Series数据结构
3. DataFrame数据结构
4. 综合案例演示

阶段二:中等规模数据处理篇

第四单元 掌握Elastichsearch核心设计 1. Elastichsearch总体架构设计
2. Elastichsearch核心流程分析
3. Elastichsearch核心概念详解
第五单元 掌握Elastichsearch API使用与调优 1. Elastichsearch语法详解
2. Elastichsearch容错原理剖析
3. Elastichsearch性能调优
第六单元 掌握ELK生态针对中等数据规模的方案实践 1. Logstash原理剖析与实战
2. Kibana原理剖析与实战
3. 企业级海量日志分析系统实战

阶段三:大数据基础平台篇

第七单元 掌握ZooKeeper核心设计与应用 1. ZooKeeper架构设计原理
2. ZooKeeper核心读写流程剖析
3. ZooKeeper企业应用场景实战
第八单元 掌握HDFS核心架构原理 1. 大数据基础知识
2. HDFS架构设计原理
第九单元 掌握HDFS企业级架构方案设计 1. HDFS高可用架构设计
2. HDFS联邦架构设计
3. HDFS企业级集群部署
第十单元 掌握MapReduce分布式计算模型 1. MapReduce核心原理剖析
2. MapReduce Shuffle机制深度剖析
3. MapReduce案例实操
第十一单元 掌握YARN任务调度模型 1. YARN架构设计原理
2. YARN核心运行流程

阶段四:大数据存储篇

第十二单元 掌握Hive核心架构设计 1. Hive生态体系
2. Hive集群安装
3. HQL语法精讲
第十三单元 掌握Hive企业实操 1. Hive函数精讲
2. Hive执行原理深度剖析
第十四单元 掌握Hive企业级解决方案 1. Hive企业级调优
2. Hive企业高频业务场景剖析
第十五单元 掌握HBase核心架构原理 1. HBase架构设计原理剖析
2. HBase数据模型
3. HBase数据模型
4. HBase读写原理剖析
5. HBase企业级集群分布式部署
第十六单元 掌握HBase企业设计方案 1. HBase表设计
2. HBase RowKey设计
3. HBase二级索引方案实践
第十七单元 掌握Kafka核心架构设计 1. Kafka架构设计原理
2. Kafka核心概念深度剖析
第十八单元 掌握Kafka架构设计优势与运维 1. Kafka架构设计优势
2. Kafka集群部署与运维
第十九单元 掌握Kafka客户端原理与性能调优 1. Kafka生产者原理深度剖析
2. Kafka消费者原理
3. Kafka性能调优

阶段五:大数据采集篇

第二十单元 掌握Flume/Sqoop日志采集系统实践 1. Sqoop核心原理剖析
2. Sqoop企业案例实操
3. Flume核心原理剖析
4. Flume企业案例实操

阶段六:任务调度篇

第二十一单元 掌握Azkaban任务调度实践 1. Azkanban架构原理
2. Azkanban企业案例实操

阶段七:大数据处理篇

第二十二单元 掌握SparkCore核心原理(上) 1. Spark任务运行流程
2. RDD核心原理剖析
3. Spark任务运行模式
4. Spark核心算子案例实践
5. Spark企业级集群分布式部署
第二十三单元 掌握SparkCore核心原理(下) 1. 广播变量与累加变量原理剖析
2. 窄依赖和宽依赖原理剖析
3. Stage划分算法
4. Spark内存模型
第二十四单元 掌握SparkCore企业级调优 1. SparkCore企业级调优实践
第二十五单元 掌握SparkSQL核心原理与实践 1. SparkSQL的前世今生
2. DataFrame核心原理剖析
3. DataSet核心原理剖析
4. UDF/UDAF案例实践
第二十六单元 掌握SparkStreaming核心原理 1. SparkStreaming任务运行流程
2. DStream核心抽象原理剖析
第二十七单元 掌握SparkStreaming核心API企业实践 1. SparkStreaming高阶函数实操
2. SparkStreaming容错分析
第二十八单元 掌握SparkStreaming企业应用 1. SparkStreaming企业级数据令零丢失方案设计
2. SparkStreaming企业级监控告警方案设计
第二十九单元 掌握Flink任务调度原理与资源分配 1. Streaming运行原理
2. 数据传输策略
3. Flink并行度&Task原理剖析
4. Flink资源调度原理剖析
5. Flink集群分布式部署
第三十单元 掌握Flink-Streaming State核心设计与实践 1. State类型深度剖析
2. State核心原理深度剖析
3. Checkpoint & Savepoint企业实践
第三十一单元 掌握Flink-Streaming WasterMark核心设计与实践 1. Time时间类型详解
2. 有序事件与无序事件
3. WaterMark原理剖析与实践
第三十二单元 掌握Flink-Streaming Window核心设计与实践 1. Window原理深度剖析
2. Window触发原理深度剖析与实践
第三十三单元 掌握Flink-Streaming企业应用 1. 综合案例实践
第三十四单元 掌握Flink SQL企业实践 1. 1. Flink SQL编程详解
2. Flink SQL动态表与连续表
3. 表流转模式剖析
4. Flink SQL案例实践
第三十五单元 掌握Druid架构原理与实践 1. Druid架构设计原理
2. Druid案例实践
第三十六单元 掌握Kylin架构原理与实践 1. Kylin架构设计原理
2. Kylin案例实践
第三十七单元 掌握ClickHouse架构原理与实践 1. ClickHouse架构设计原理
2. ClickHouse案例实践

赠送知识

第一单元 企业级大数据集群部署和运维篇 1.Ambari功能概述
2.Ambari架构设计
3.Ambari基础环境准备
4.企业级集群部署安装
5.企业级集群管理和实践
6.ClouderaManager产生背景
7.ClouderaManager架构设计
8.企业级集群规划
9.ClouderaManager基础环境准备
10.企业级ClouderaManager集群部署安装
11.企业级CDH集群运维管理
第二单元 Java知识准备 1.Java基础知识
2.循环语句
3.面向对象
4.Java集合
5.Java多线程
6.Java IO详解
7.Java NIO详解
8.综合案例实践
第三单元 Scala知识准备 1.Scala概述和基础环境安装
2.变量
3.数据类型
4.方法和函数
5.数组
6.类的定义
7.构造函数
8.Scala对象
9.Trait
10.Scala模式匹配
11.隐式转换
12.上界和下界
13.Actor
14.综合案例实践
第四单元 Linux/Shell知识准备 1.Linux操作系统介绍
2.Vmware安装和介绍
3.Linux命令分类
4.Linux命令详解
5.vi编辑器详解
6.用户和组
7.权限管理
8.crontab管理
9.网络
10文本处理
11.SSH协议
12.Shell编程

实战课程案例/Practical Course Cases

  • 企业级电商实时广告分析系统
  • 企业级电商实时广告分析系统

    很多电商进行广告推广,都需要进行实时广告投放效果监控,如:监控广告投放质量、广告回传、广告反作弊等。 企业级电商实时广告分析系统使用SparkStreaming技术实现了实时监控广告投放效果,项目在架构设计中实现了业务需求的同时,还进行了数据0丢失方案设计,实时任务数据延迟监控告警方案设计等。

    立即咨询

  • 数据仓项目
  • 数据仓项目

    公司是一家独角兽二手电商,一年的GMV大约在150亿左右。公司的数据存在多个业务系统中,而且数据源来自不同地方,有小程序,APP,PC端,移动端等,数据比较大而且分散,收集和分析都比较困难。因此想搭建基于大数据平台的数据仓库,并能实时展示报表数据。

    立即咨询

  • 二手独角兽电商实际业务应用场景
  • 二手独角兽电商实际业务应用场景

    随着5G的的发展,物联网的发展,DT时代的到来,互联网公司的数据量与日俱增,公司越来越多的应用场景产生,应用场景更复杂, 此时很多公司都需要实现高性能的实时数据仓库系统来满足公司运营指标分析,对电商数据仓库的常见的运营指标以及难点进行实战。

    立即咨询

课程学习安排/Curriculum Arrangement

学习时长:4-5个月
每周三、日 20:00-23:00(3小时)

名师大V倾囊授课;班主任全程解答,辅导
学业,5A级专业服务;线上社群互动;线
下沙龙交流;促学习、优人脉。

直播大课为主,实时在线互动,老师实时解答;录播课程为辅,协助时间不足或希望反复学习同学;分享预习资料、课程PPT、笔记、源码等资料。

教学服务体系/Teaching Service System

  • 课前
  • 课中
  • 课后
  • 课程结业
  • 终身学员服务
  • · 学员能力评估,职业规划辅导
  • · 1对1班主任贴心服务
    · 课程视频录像长期有效
    · 真实大项目实战,助教老师辅导
  • · 期期作业测试,督促学习
  • · 简历修改优惠,面试辅导
    · 内推岗位
  • · 定期线下交流,行业人脉拓展
    · 新课程,学员大优惠

学员反馈/Student Feedback

课程收获/Lessons Learned

  • 从0到1构建企业级大数据生态知识体系

    1. · 掌握大数据采集核心技术
    2. · 掌握大数据存储核心技术
    3. · 掌握大数据处理核心技术
    4. · 掌握大数据任务调度核心技术
  • 具备企业级数仓(离线/实时)构建能力

    1. · 掌握企业级数据仓库分层原理
    2. · 掌握企业级数据仓库建模理论
    3. · 掌握企业级数据仓库落地实践能力
  • 具备企业级离线场景/实时场景开发处理能力

    1. · 掌握Hadoop/Spark生态体系处理离线任务
    2. · 掌握业内流程新技术Flink生态体系处理实时任务
  • 具备针对不同数据规模方案处理能力

    1. · 掌握针对小规模数据量的Python解决方案
    2. · 掌握针对中等规模数据量的ELK生态解决方案

大数据开发工程师:权威系统课

学习时长:4.5个月   课程单元:47个   精讲知识点:128个

报名价格:¥5999

剩余优惠名额:0

预约试听

· 分期购买:全程无压力      · 试听不满:全额退款(前2次课)     · 报名优惠:每期前50名报名优惠1000元