北京
修改本活动

收藏 ({{favorite_count}})

已收藏 ({{favorite_count}})

互动吧-spark大数据处理与案例实践班

spark大数据处理与案例实践班

{{shopName|html}}

该主办方已通过互动吧个人认证,请放心参与。

该主办方已通过互动吧企业认证,请放心参与。

该主办方已通过互动吧组织认证,请放心参与。

{{info_share}}+{{info_hits}}
此活动来自活动节优品
地点:

Live语音直播间

时间:

{{list.startDate}}

未开始 进行中 随时回听

票种:

  • 免费 ¥{{item.price}} {{item.name}}


    已售罄 停止售票 {{item.minJoinLimit}}张起订 , 剩余{{item.inventory - item.sales}}张

  • 该票种需要主办方审核

领券:

  • 立减{{coupon.couponDiscountMoney}}元

    满{{coupon.couponLimitMoney}}减{{coupon.couponDiscountMoney}}

服务承诺:

更多场次
{{list.name}}

各有关单位:

    当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,但MapReduce自身存在很多问题,为了克服MapReduce的众多问题,新型计算框架出现了。Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴,腾讯,百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果.因此我单位举办“spark大数据处理与案例实践班”,具体由北京中科软培科技有限公司举办,本次培训班由权威师资主讲。

一、培训目的:

本课程将为大家全面而又深入的介绍Spark、平台的构建流程,涉及Spark、系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark、系统适用的场景;掌握Spark等初中级应用开发技能。

二、主讲专家:

董老师  毕业于吉林大学计算机科学与技术学院,博士学位。主要研

究方向为智能规划、空间推理、大数据技术等。曾主讲多期大数据培训班的核心课程:Spark及其组件(Spark Streaming, Spark Graphx, Spark SQL, MLlib)的基本原理与应用、Scala语言、Hbase基本原理与应用等,受到师生广泛好评,具备坚实的计算机理论基础和丰富的大数据教学与实践经验。曾编写出版Spark教材一部:《Spark大数据分析 — 技术与实战》。在“北京高校第十届青年教师教学基本功比赛”中,荣获理工B组综合成绩一等奖,兼获最佳教案奖、最佳演示奖、最受学生欢迎奖。

三、培训内容:

 

 

 

 

第一天

 

 

 

 

Part 1.    Scala基础

n     变量的定义与使用

n     结构化控制语句

Ø  if语句;

Ø  for语句。

n     函数

Ø  函数的定义;

Ø  匿名函数;

Ø  高阶函数。

 

n     集合类型

Ø  数组、元祖、映射、列表、集;

Ø  集合类型相关操作。

 

 

n     面向对象编程开发

Ø  类的相关定义;

Ø  单例对象与伴生对象;

Ø  特质。

n     模式匹配

Ø  模式匹配简介;

Ø  模式匹配类型;

Ø  模式匹配样例类。

n     隐式转换

Ø  隐式转换函数;

Ø  隐式转换参数。

 

 

 

第二天

 

 

Part 2.    Spark基础理论

n     Spark简介

Ø  Spark的功能与结构;

Ø  Spark与MapReduce对比分析;

Ø  Spark中四个核心组件概述。

 

n     Spark 框架与原理

Ø  Spark运行速度、通用性、运行模式等方面的详细介绍。

n     Spark 分布式集群搭建

Standalone模式Spark集群搭建的详细步骤与注意事项。

 

 

 

 

 

第三天

 

 

Part 3.    Spark RDD与内核

n     Spark RDD

Ø  RDD的基本概念与原理。

n     RDD的操作

Ø  转换操作:map、filter、flatMap、groupByKey、reduceByKey、join等;

Ø  执行操作:count、take、collect、top等。

n     案例分析

Ø  案例1:基于Spark实现WordCount程序,并在WordCount程序基础上进行功能扩展;

Ø  案例2:基于sougo搜索日志的用户行为分析。

 

n     Spark作业调度

Ø  RDD之间的宽依赖关系与窄依赖关系;

Ø  Spark基于DAG图实现的容错机制。

Ø  Standalone模式的Spark集群中Master与Worker节点的功能;

Ø  Driver、Executor、SparkContext、TaskScheduler、DAGScheduler等基本概念;

Ø  Spark作业调度流程。

 

 

 

 

 

 

 

第四天

 

 

 

 

 

Part 4.    Spark   GrapX

n     Spark GraphX简介

Ø  Spark GraphX的应用场景。

n     Spark GraphX架构解析

Ø  图论基本概念(点、边、出度、入度、子图等);

Ø  弹性分布式属性图的基本概念、表示方法、存储方法。

n     Spark GraphX的操作

Ø  基于HDFS上的文本数据建图;

Ø  图的属性操作:mapVertices、mapEdges、mapTriplets等;

Ø  图的结构操作:reverse、subgraph等。

n     案例

Ø  基于GraphX中的PageRank分析社交网络中各用户的重要性。

 

 

 

Part 5.    Spark SQL

n     Spark SQL简介

Ø  Spark SQL的发展与应用场景;

Ø  Spark SQL、Hive、Shark之间的联系与性能对比。

n     Spark SQL基本原理

Ø  讲解Spark SQL任务处理流程,介绍LogicalPlan、SqlParser、Analyzer、Optimizer等相关概念;

Ø  Catalyst优化器;

Ø  SQL语句的语义与语法;

Ø  DataFrame的基本概念与相关操作。

n     案例

Ø  利用Spark SQL对某零售企业销售数据进行交互式查询。

 

 

 

 

 

 

 

 

第五天

 

 

 

 

 

 

 

 

Part 6.    Spark   Streaming

n     Spark Streaming简介

Ø  Spark Streaming应用场景介绍;

Ø  Spark Streaming与Storm、Flink的对比分析。

n     Spark Streaming基本原理

Ø  批处理间隔、DSteam、窗口、滑动间隔等重要概念;

Ø  DSteam的基本概念与相关操作:fileStream、socketStream、window、countByWindow、reduceByWindow等;

Ø  讲解Spark Streaming持久化方法与容错策略。

n     案例

Ø  介绍Spark Streaming的应用模式以及相关操作;

Ø  案例1:基于HDFS上的文本文件创建DStream,并对更新的文件进行实时分析;

Ø  案例2:基于TCP sockets创建DStream,对网络中指定端口的数据进行实时分析。

 

Part 7.    Spark MLib

n     机器学习基本概念与Spark MLib架构

Ø  机器学习的定义与基本概念;

Ø  机器学习的常见算法简介(条件概率、人工神经网络、决策树、回归、支持向量机、贝叶斯网等)。

n     线性回归

Ø  线性回归算法简介;

Ø  LinearRegressionWithSGD源码分析与调试。

n     协同过滤

Ø  协同过滤算法简介;

Ø  基于ALS的协同过滤算法的源码分析与调试。

n     聚类

Ø  聚类算法简介、聚类与分类的区别;

Ø  K-Means源码分析与调试。

 

 

四、时间地点:

    2018131-24  30日报到   北京

    联系电话:13932327338   邮箱:13932327338@163.com

五、培训对象:

    各高校信息管理与信息系统、统计、金融、计算机等相关专业负责人和骨干老师、高年级本科生及研究生;金融、医疗、保险、电商、卫生、统计、银行、通信、环境等领域相关企业技术或管理人员。                                                                                                   
六、报名方式及费用:

    报名人员可直接回复报名回执表至邮箱。或与会务组电话联系咨询。¥RMB:4300元/人(含报名费、培训费、教材费、资料费)食宿统一安排费用自理。

七、颁发证书:

颁发人社部中国职协“大数据研发工程师”(高级)培训证书、证书可在官网(http://cx.cnhr.org/)查询,可作为能力评价、考核和任职的重要依据。证书费用(可选):500元/人



收藏 ({{favorite_count}})

已收藏 ({{favorite_count}})

已报名 {{join_total_num}}

其中{{join_unpay_num}}人正在支付

还木有人报名,快来成为活动第一人吧!

正在加载...
成为VIP主办方,即可去除以下广告 马上成为VIP
  • 精选活动
  • 相似活动
  • {{hot.infoTitle}}

    {{hot.infoStartTime}}

    {{hot.infoStartTime}}

    {{hot.infoStartTime.substr(0,16).replace(new Date().getFullYear()+'-','')}}

    Live
    {{hot.priceWithSign}} {{hot.highlight|html}}
  • {{same.infoTitle}}

    {{same.infoStartTime}}

    {{same.infoStartTime}}

    {{same.infoStartTime.substr(0,16).replace(new Date().getFullYear()+'-','')}}

    Live
    {{same.priceWithSign}} {{same.highlight|html}}

{{shopName|html}}

该主办方已通过互动吧个人认证,请放心参与。

该主办方已通过互动吧企业认证,请放心参与。

该主办方已通过互动吧组织认证,请放心参与。

{{pub_count}}

举办活动

{{join_count}}

参与人数

{{shopDesc|html}}

Ta组织活动太忙,还没腾出空写简介

取消关注
确定取消关注吗?
取消关注后将无法再关注列表查看Ta的动态

联系Ta

售后咨询:仅参与此活动用户可见。

你也可以在活动详情下方留言处给主办方 留言

服务合作:仅入驻当前活动举办地的服务商可见。

你也可以在活动详情下方留言处给主办方留言

售后咨询: {{joinMobile}}

你也可以在活动详情下方留言处给主办方 留言

服务合作:仅入驻当前活动举办地的服务商可见。

你也可以在活动详情下方留言处给主办方 留言

售后咨询: {{joinMobile}} 仅参与此活动用户可见。

你也可以在活动详情下方留言处给主办方 留言

服务合作: {{supplierMobile}}

你也可以在活动详情下方留言处给主办方 留言

售后咨询:{{joinMobile}}

服务合作:{{supplierMobile}}

我知道了

你将要打开一个非互动吧页面,建议不要在该网页输入互动吧帐号、银行资料等隐私信息。

继续访问
取消
取消关注
确定取消关注吗?
取消关注后将无法再关注列表查看Ta的动态
提示
确定删除本条讨论?
讨论删除后,将不可恢复,您确定继续删除吗?

请输入密码

关闭
互动吧
取消 确定

最新公告

在线客服 互动吧 互动吧