|
Java电子书:图解Spark:核心技术与案例实战 格式 pdf 电子书 PDF 电子书 Java吧 java8.com# N5 a2 c) w2 c8 Y1 Z; V
! p6 Q0 c8 V5 ?) A3 g; V" w
. ]' G( c; n* [3 e
编号:mudaima-P0303【Java吧 java8.com】, Q$ g1 p3 d, e7 b' W* M4 d* Y
2 u8 \) P" v9 H2 n5 k- @. a' ^$ ]) g+ ]. S+ U, o+ r7 y0 K
. m/ [& `. e! g) W+ t, v$ }0 K
Java电子书目录:第1章 Spark及其生态圈概述
+ h; S9 j: u3 L+ X2 X1 O8 R1.1 Spark简介9 j* }1 x: N6 U# ? y# F4 b
1.1.1 什么是Spark- _5 f% g, v v2 C* L$ U
1.1.2 Spark与MapReduce比较
% T* A( N8 i2 ?3 T- O4 C1.1.3 Spark的演进路线图
. ]$ n) \" T% d; a. }! p* i1.2 Spark生态系统/ n* N! u( x' Q: m3 u0 Q
1.2.1 Spark Core. i# g. O( `5 U
1.2.2 Spark Streaming+ w, Z. l) W R6 @
1.2.3 Spark SQL
- T6 g P# J$ O/ s7 w1.2.4 BlinkDB. J9 v) ~( @: D% s
1.2.5 MLBase/MLlib- s% A2 U+ ^" N' J+ t! ~
1.2.6 GraphX1 h% K/ _. L( E/ Q. v( E7 U7 M
1.2.7 SparkR
6 J+ y9 ?1 f( u& N7 ^1.2.8 Alluxio6 [" O" m' {5 l0 k2 b" u# N
1.3 小结
# X$ d) U9 }( I. w5 i6 L5 C第2章 搭建Spark实战环境, ?( n& h% o- K
2.1 基础环境搭建
$ O8 @9 ~6 L' ]6 e- J8 d7 H7 B. R2.1.1 搭建集群样板机
: E7 G7 E( J1 ~9 M- Q0 I0 L& z2.1.2 配置集群环境
4 Y, Z" L( h& B7 l! ^# z2.2 编译Spark源代码+ W: | V# Z. o2 U T& J
2.2.1 配置Spark编译环境
' G7 J$ g2 K( T4 ?9 M+ A6 c* z2.2.2 使用Maven编译Spark$ V; f i( M- r" W4 ]/ ^! }
2.2.3 使用SBT编译Spark- y: r' b3 K2 G/ D5 Z" X
2.2.4 生成Spark部署包; a' k9 N8 e/ M2 y) u8 l
2.3 搭建Spark运行集群
7 j: B3 S( F6 w3 r* G" e4 Y2.3.1 修改配置文件
! F% c$ Z5 {) ]2.3.2 启动Spark1 ?; \7 B0 U5 ]& `8 {( e
2.3.3 验证启动
" {4 t; n& E5 |2 j' w# P9 \6 r2.3.4 个实例0 J- R$ X# K+ f* F
2.4 搭建Spark实战开发环境
3 p: e" @5 V2 `5 S2.4.1 CentOS中部署IDEA
" f% W) Q5 j+ r2.4.2 使用IDEA开发程序
) P; U8 j2 l& s0 L0 g2.4.3 使用IDEA阅读源代码8 C3 g5 T' s* q4 ~3 y; ~
2.5 小结. Q7 m3 {) v* |6 K) C$ _
4 M9 @+ L H* L+ e8 [, x第二篇 核心篇( _" p0 ~" x3 ~7 \
第3章 Spark编程模型5 c: E. u$ w4 E$ M4 d) a$ ]
3.1 RDD概述" J3 n" P; \1 p
3.1.1 背景0 w+ a; Z# F6 r7 M; L7 B( \
3.1.2 RDD简介
( r9 f3 i* X" ?+ ]3.1.3 RDD的类型, v2 G O, s' w r, c
3.2 RDD的实现' ]& ?" Q3 O6 _
3.2.1 作业调度
/ C! F: ^ @9 L) U( O# x& k3.2.2 解析器集成/ `* a! ^+ d3 K; N4 Z
3.2.3 内存管理$ Z ]7 g6 S1 ], p3 Z1 |
3.2.4 检查点支持
$ n* z" o- H8 C3.2.5 多用户管理* M7 ~0 h# e* i
3.3 编程接口
|5 C t9 a, Y4 z3.3.1 RDD分区(Partitions)
' I- v9 `6 p+ ~: F6 Y* \3.3.2 RDD位置(PreferredLocations): D4 ]# D: p& {0 s
3.3.3 RDD依赖关系(Dependencies)
: [- B( Q' J$ K& J! A: s6 d) w3.3.4 RDD分区计算(Iterator)
/ n3 @7 E/ X; O. d) m" Q _. A5 T3.3.5 RDD分区函数(Partitioner) B6 y1 r1 F0 [$ ]4 N+ j! \# k9 X; j
3.4 创建操作3 F0 B/ Q4 T& D7 _: L1 h# i$ X
3.4.1 并行化集合创建操作
9 h$ C: k8 l9 L# O$ y! S3.4.2 外部存储创建操作3 A- L7 v9 `! t! N9 z' @
3.5 转换操作0 L, x) ~! \5 P7 v7 D( k2 l3 P; L( E, v
3.5.1 基础转换操作4 e }7 c9 P& r& G* E8 K
3.5.2 键值转换操作1 J. t9 Z! H J; H9 _) |! ^4 _+ i
3.6 控制操作- x" B) l) L+ n& U' s% \1 x
3.7 行动操作
: t# {2 \! v4 N+ b8 Q3.7.1 集合标量行动操作, V9 _2 w4 {+ H. d! s
3.7.2 存储行动操作
1 W/ q6 I5 a' n* V3.8 小结: O3 g. u; S1 }7 Z0 d
第4章 Spark核心原理
! v% w$ x* z- b+ H7 A4.1 消息通信原理* ^. ?: p$ }% e( ? |- E- }( G
4.1.1 Spark消息通信架构3 O( B" l% D/ h' O) X
4.1.2 Spark启动消息通信" F3 B" S) q$ x( j; l+ S
4.1.3 Spark运行时消息通信) J: B1 g4 U/ T
4.2 作业执行原理* C' S0 I7 M) \
4.2.1 概述3 s( u2 P7 {- {) b/ n) u ` V
4.2.2 提交作业& O. f% l7 F2 [1 w( G
4.2.3 划分调度阶段
# ?9 p& {! Z3 m5 w4.2.4 提交调度阶段9 k# s. a4 N! ?% d; i: d6 A/ F: j6 R
4.2.5 提交任务2 h5 I2 j' N8 t- A3 [) q
4.2.6 执行任务
) G. O7 Z. m+ m) k' F6 r4.2.7 获取执行结果. H1 O8 G5 R& E, w7 @
4.3 调度算法
+ o! [: n' K0 `4.3.1 应用程序之间
. y' ?+ Y; l7 M4.3.2 作业及调度阶段之间
! _; o! s' N0 n" U( }' Z) o) u2 ?4.3.3 任务之间
- \' p8 w. O9 {4.4 容错及HA
9 p' f! a$ c6 K$ A& @4.4.1 Executor异常
- O: W# [5 ^5 b7 }4.4.2 Worker异常
* y8 `0 X2 }9 r9 Q4.4.3 Master异常, Y+ Z- c9 K% X- x8 u. R
4.5 监控管理9 v" d, f7 Q0 W
4.5.1 UI监控' l% f) T, r3 p9 c! }% ~
4.5.2 Metrics$ `4 y- y" d' p, n- l) W
4.5.3 REST
9 C, O% ^, T% P [# z# r+ \1 K2 H4.6 实例演示
3 h; ]0 C4 M, q* ~4.6.1 计算年降水实例
# m' D/ [, D- Q4.6.2 HA配置实例
1 A# N' {/ {$ q4.7 小结* }" N1 V- U3 d6 ` E6 y0 z
第5章 Spark存储原理
9 H8 v. s6 O O' {# c5.1 存储分析4 d$ f4 {7 c V/ C6 Z
5.1.1 整体架构
. s6 b$ a5 p- z5 l) Y5.1.2 存储级别
: i6 B8 M k- Z. g+ |5.1.3 RDD存储调用0 H+ z; u( P( T# n' ^5 G
5.1.4 读数据过程
* i9 g" `, }. P3 r& }' \5.1.5 写数据过程
# w& t$ [7 o Q3 M5.2 Shuffle分析
, S8 Q; y- w, {- Z5.2.1 Shuffle简介
: o1 L7 w1 x; c% q- q; z3 [/ q5.2.2 Shuffle的写操作$ O3 Y4 _. S( p& t1 o8 }
5.2.3 Shuffle的读操作# E8 c" m5 [# {! z) M
5.3 序列化和压缩2 [6 O7 f- }) r) \- M
5.3.1 序列化: H3 b0 i. ?2 k
5.3.2 压缩% y2 O% W5 R- r e8 V+ f) C7 T1 s
5.4 共享变量
4 L6 B6 E2 y; \ q9 o4 S5.4.1 广播变量
# W* l$ q3 \; {( I5 S, F5.4.2 累加器
9 b: K% m _5 g2 W3 a* t" z5.5 实例演示
. r. M$ P+ N' Z; n* W/ b5.6 小结- E( W! N, ~: w
第6章 Spark运行架构( v' L) E$ q! D
6.1 运行架构总体介绍( L% n) s- x- |3 h. p
6.1.1 总体介绍& }8 c1 G- [) b2 }& C& a
6.1.2 重要类介绍
8 p% _; ~+ V+ b5 Q5 C! x" _9 ?' h6.2 本地(Local)运行模式% K* p- @, }3 H2 X/ N
6.2.1 运行模式介绍% R. y8 H+ E: B8 |0 _- F9 Q, H# }
6.2.2 实现原理( t. t* b& E" @8 k: v
6.3 伪分布(Local-Cluster)运行模式' ^! x" s8 K7 {. b5 t
6.3.1 运行模式介绍& d( t5 ~: `0 q
6.3.2 实现原理) ~/ v3 {. P- B5 M1 O2 L
6.4 独立(Standalone)运行模式
3 J9 t! @) v0 [1 K6.4.1 运行模式介绍
- y7 `4 G8 K! x" E6.4.2 实现原理; r/ a+ f$ X, w& s5 g" t5 u! P
6.5 YARN运行模式
- C: x/ G# a3 L6.5.1 YARN运行框架
. o3 W5 j& \% |9 D3 d( n H6.5.2 YARN-Client运行模式介绍6 r9 t7 r0 m9 X. _# v2 Z! s
6.5.3 YARN-Client 运行模式实现原理
/ E1 `+ e4 b; r1 p* P1 @6.5.4 YARN-Cluster运行模式介绍5 {. f& ?# w9 _
6.5.5 YARN-Cluster 运行模式实现原理
; G/ b: o( d5 o: P! {6.5.6 YARN-Client与YARN-Cluster对比0 M; H; I% U6 D- H, O+ V+ c7 @
6.6 Mesos运行模式0 t( B$ u+ F3 Q. W6 `/ V5 {
6.6.1 Mesos介绍
7 s6 X7 [+ `: ~& V9 q( r6.6.2 粗粒度运行模式介绍
4 O o% L# s+ F$ z6.6.3 粗粒度实现原理
) Q" y' Y7 _( o& M k6.6.4 细粒度运行模式介绍
- ~- H1 G: L' ^" D" v# Y4 k3 m6.6.5 细粒度实现原理
9 a" k5 h6 |7 ^2 r) e) y- H6.6.6 Mesos粗粒度和Mesos细粒度对比/ J+ ^0 s$ s1 ?+ E. v q
6.7 实例演示) Z2 W& o9 g Q8 U
6.7.1 独立运行模式实例
9 {9 K6 C0 J7 t! M6.7.2 YARN-Client实例
6 C7 U8 `, a$ S+ }- j5 D0 g8 O6.7.3 YARN-Cluster实例- v# w% c6 G) z0 r w4 M' W
6.8 小结$ |" Q* |! l- i0 R1 V* F) o
T( n- C4 K, J& d: ?5 r
第三篇 组件篇9 e6 W+ Z" x( E5 E1 h
第7章 Spark SQL* l' e; b2 R6 C6 a
7.1 Spark SQL简介0 r6 u- s3 q1 D
7.1.1 Spark SQL发展历史
3 O! v V' y5 X% i0 X7.1.2 DataFrame/Dataset介绍% n9 Z: P2 V5 a3 m' S5 q j
7.2 Spark SQL运行原理& h( U+ [/ H) q% G1 T
7.2.1 通用SQL执行原理
' i4 ?- f7 O u7 _; U7.2.2 SparkSQL运行架构( ]% X+ D5 u9 L7 W$ ^% ~
7.2.3 SQLContext运行原理分析/ p. P F+ r& e9 U
7.2.4 HiveContext介绍
2 [1 g4 R1 ^, Q- p3 q7.3 使用Hive-Console
# q, j; `# }3 G O- H# S7.3.1 编译Hive-Console
/ Z/ G) E6 T3 ~7 x8 P" I7.3.2 查看执行计划; S3 T" a$ E; L
7.3.3 应用Hive-Console t g8 v( u6 g; k
7.4 使用SQLConsole2 Y8 Z, F/ X$ E* q% d' l- z- n
7.4.1 启动HDFS和Spark Shell
$ \' |3 L. E" z0 S1 \6 G7.4.2 与RDD交互操作
* `3 x& a' h: {: C7.4.3 读取JSON格式数据3 U2 `2 K+ j( x ?0 u
7.4.4 读取Parquet格式数据7 ?1 @: h7 Z# c
7.4.5 缓存演示7 E2 r D6 f/ b, _
7.4.6 DSL演示
+ I/ d+ ], h2 e4 N7.5 使用Spark SQL CLI
; k5 e, z; d( G5 i+ u `1 d8 b3 Q* W7.5.1 配置并启动Spark SQL CLI
1 J9 @- H! i# x! |( Z7.5.2 实战Spark SQL CLI8 z4 m* R2 p! a7 V3 @
7.6 使用Thrift Server5 R* b/ Q; M2 I1 T( s
7.6.1 配置并启动Thrift Server
8 q+ Q0 W: R8 N' a" Z7.6.2 基本操作
- e# b" t- P6 }$ o7.6.3 交易数据实例, K: P( T% g! r* U$ H' i- K8 p
7.6.4 使用IDEA开发实例7 v1 [* @- j% R+ a
7.7 实例演示8 k e" x8 R* X3 p4 m+ S& }! g$ y
7.7.1 销售数据分类实例# O( w% u' U6 x" O+ `% _. w& i
7.7.2 网店销售数据统计3 D- L, g+ K, @9 C0 |5 [
7.8 小结
$ c! w0 {! ^; l- g/ d7 { o第8章 Spark Streaming- O5 Y$ [1 S+ r# y
8.1 Spark Streaming简介
" U J7 R, C0 B8.1.1 术语定义7 Q( i+ g0 Q7 ~0 W) o$ y
8.1.2 Spark Streaming特点7 N! N1 Q9 Z6 @
8.2 Spark Streaming编程模型
2 D' a/ V2 A6 a8.2.1 DStream的输入源% ? D! K/ m' r- k& l$ R
8.2.2 DStream的操作
, m- g( Q4 u2 }' A% a9 v8.3 Spark Streaming运行架构$ U$ k% j* g7 u& v: p& a! B
8.3.1 运行架构
4 }! U% K7 `" r" t+ V& p6 `- ?; h8.3.2 消息通信
5 S( q" u- }. ~- C; Y/ V' @! B' u* l8.3.3 Receiver分发% l9 i5 n! b8 H' f( _, Z
8.3.4 容错性( {" H; i. D! s6 Y6 h
8.4 Spark Streaming运行原理
" L) e$ N9 @# a8.4.1 启动流处理引擎; M/ }& J9 b7 g8 w
8.4.2 接收及存储流数据
2 X( ~; ?+ g( w. J) z8.4.3 数据处理
3 s; m! ?4 ^7 D1 a/ S- h3 E8.5 实例演示$ M* D$ ]8 g- w& h
8.5.1 流数据模拟器8 x0 w1 ?/ p2 n2 Q
8.5.2 销售数据统计实例
: E% M! ]5 R( J. D5 `8.5.3 Spark Streaming Kafka实例
2 m9 v+ A- _8 D5 c8.6 小结
6 H! E/ \5 ~" H# b4 E! ]' j第9章 Spark MLlib
: d+ [' v A( x& z9 W- _9.1 Spark MLlib简介
4 }# I% S7 ?5 ^# @5 y+ E9.1.1 Spark MLlib介绍/ d/ T( J8 `) L; ]) V: i
9.1.2 Spark MLlib数据类型% U3 ~% q3 z, t% \. i0 y
9.1.3 Spark MLlib基本统计方法& a8 ~$ P* M# z
9.1.4 预言模型标记语言% }1 d# A# s6 y8 ?# \& l
9.2 线性模型4 a1 f; j5 y g8 C: X. r
9.2.1 数学公式
5 F/ E* k) O O" s. c6 j9.2.2 线性回归( C% a3 q8 @' `8 }5 i8 t9 t
9.2.3 线性支持向量机" K1 G" B8 d5 W5 [, x- ^5 D* P
9.2.4 逻辑回归
+ F, h) H/ J* R: F* j$ y5 V P9.2.5 线性小二乘法、Lasso和岭回归7 I5 {. A; Y3 S+ y8 ?" |/ b
9.2.6 流式线性回归; _9 w4 K* T0 d3 P G" C% A0 Z
9.3 决策树
: p& U) d( ?$ ~+ y/ e; ?9 O" _9.4 决策模型组合
7 v. q; F( ^; o' C" D9.4.1 随机森林
. w3 G. ~2 K8 \$ R9.4.2 梯度提升决策树
: s& b4 E. j9 e; ~, N5 u! K9.5 朴素贝叶斯
- }) ` K! p. Q! O6 G9.6 协同过滤% X% G$ Y9 _# C- x- J0 E
9.7 聚类" Z& m$ B: J+ a/ e8 T4 t$ L% z
9.7.1 K-means
; d# f/ _* i# `( d$ j3 j5 G( e- {9.7.2 高斯混合2 ~9 S/ ^% E0 i7 @) t$ o) C
9.7.3 快速迭代聚类
; R7 I- I4 ^$ l3 d1 J9.7.4 LDA$ h3 ]5 X3 X6 R m: ]6 l% S
9.7.5 二分K-means; w$ }7 k5 k8 V; {$ Y C7 `
9.7.6 流式K-means7 z$ u" \) E+ |! Z5 G' m
9.8 降维1 n0 P! P3 k3 A; k+ s
9.8.1 奇异值分解降维 E2 i' u g1 h) I0 {1 H- u
9.8.2 主成分分析降维$ A! U8 D5 ]% W7 [6 e5 k
9.9 特征提取和变换
5 z: ~3 ^, e' i- U6 L2 t9.9.1 词频—逆文档频率8 _8 t+ G! g& u7 d1 x; t: E
9.9.2 词向量化工具
O/ i, o) ?9 M, E9.9.3 标准化
; @6 [6 E6 i* E. S/ i3 i9.9.4 范数化0 H3 {$ g9 u4 F9 _4 i
9.10 频繁模式挖掘
; t' @6 e1 E, d4 g) H2 t9 f6 Y: P9.10.1 频繁模式增长
, M0 U& e# j% f/ n7 J; @' d- c9.10.2 关联规则挖掘( r+ M+ ~( @0 `: g" x* R
9.10.3 PrefixSpan
" v8 K/ q T0 ?$ i9 v5 m9.11 实例演示( K7 w- i: d8 o7 U
9.11.1 K-means聚类算法实例; J; _" e" `: l
9.11.2 手机短信分类实例8 z! T- x$ S; O$ t9 }( Y
9.12 小结7 |9 V1 _5 n* R9 G& y
第10章 Spark GraphX" W9 W& f! P" p4 K# V' A
10.1 GraphX介绍& I# Z G( D+ |! ]7 S# P" r! \
10.1.1 图计算
8 q: f8 v4 R6 r5 X: X4 E, m10.1.2 GraphX介绍: ]' r/ ^1 O J$ M# u# ~
10.1.3 发展历程
. ]0 A( ?3 K4 w Y$ D10.2 GraphX实现分析/ b9 S" _8 f1 P4 j4 [
10.2.1 GraphX图数据模型1 m1 ^) D! K+ ?$ m$ |
10.2.2 GraphX图数据存储" s% m6 d* b' T4 O2 H. H4 b
10.2.3 GraphX图切分策略! a# Q: l2 r9 N: r
10.2.4 GraphX图操作+ l# W9 x' ]2 P7 e
10.3 实例演示
/ f/ G5 q& |9 `( T( k# {2 X' e: y3 b& z10.3.1 图例演示6 j- }* w) @7 L8 p8 R) h
10.3.2 社区发现演示; T: s% { w: t; L5 H- Z. G% ^
10.4 小结8 |+ V1 _, p& J
第11章 SparkR) b4 W9 L0 x' w7 ~! D: t
11.1 概述4 P1 q6 L3 t' ? N6 K- X- P7 i; T
11.1.1 R语言介绍) q" ~6 y( [: ?, {+ n
11.1.2 SparkR介绍$ [5 u: J# K3 e {% b
11.2 SparkR与DataFrame) s/ ]# ^: u9 I+ C8 R' ^8 }
11.2.1 DataFrames介绍
/ _* G- k: F! `% ~; @11.2.2 与DataFrame的相关操作. x$ ~( \" z* z( R
11.3 编译安装SparkR
% Y9 e3 @& W% M11.3.1 编译安装R语言5 K c5 @6 w' u* U# J& M6 j U
11.3.2 安装SparkR运行环境
. e. D4 ]3 J( W8 ^# M11.3.3 安装SparkR
' ~' u7 h, y* { Y8 i+ l11.3.4 启动并验证安装1 h4 o6 w7 f+ R/ H' G% ?; Y4 \
11.4 实例演示$ Y$ i y2 y! J5 D9 I
11.5 小结$ C& \0 v& b2 a3 K0 y" C9 S) h
第12章 Alluxio! g2 O; S! M4 }- V- e. ^
12.1 Alluxio简介
% J& R Q- K H8 t12.1.1 Alluxio介绍3 d: F9 s) V4 Z1 V5 z& O$ C; ^
12.1.2 Alluxio系统架构
: a' ?/ c5 V- g& W8 g" {2 l5 v12.1.3 HDFS与Alluxio
' f8 k2 \% _3 b% [12.2 Alluxio编译部署( A: w% {9 E6 w9 Z4 K/ ?1 S
12.2.1 编译Alluxio2 A6 D7 ~& L, C' w' S; F* P- Z
12.2.2 单机部署Alluxio9 z- P5 _' ^5 H* E
12.2.3 集群模式部署Alluxio7 X7 z( S1 {- k( l& v8 C
12.3 Alluxio命令行使用6 R; W, y# b+ [+ r g3 y( X
12.3.1 接口说明/ s) e; B, t( Y$ o) G, K
12.3.2 接口操作示例
0 p: X& l: M3 `- ~$ E7 I: m12.4 实例演示
& D+ \. X Q% [9 P6 E12.4.1 启动环境
! Y% W/ U' D. k) {; c- w H12.4.2 Alluxio上运行Spark
5 D# ]2 ` D5 O12.4.3 Alluxio上运行MapReduce* e d( p# Q( H |0 V/ W2 ` ~3 |8 f
12.5 小结 2 D) D% X( ~% ~; _
' A0 g7 Z1 @' D) ]7 f/ |) n/ f& Q* ] ~- L& R: {5 f- S$ n
百度云盘下载地址(完全免费-绝无套路):
! _: c( H9 d( @$ ~9 F% i: R |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|