您现在的位置：Fun书 > Flink核心技术：源码剖析与特性开发

Flink核心技术：源码剖析与特性开发

作　　者：黄伟哲

出版社：人民邮电出版社

出版时间：2022年07月

定　　价：109.90

I S B N ：9787115584472

所属分类：专业科技 > 计算机/网络 > 程序设计

购买这本书可以去

价格报错

标　　签：

TOP内容简介

本书主要分为两部分。第一部分以核心概念和基本应用为脉络，介绍了Flink的核心特性（如检查点机制、时间与窗口、shuffle机制等），部署，DataStream API、Dataset API、Table API的应用，运行时的原理等内容，每一章先对概念做基本的介绍，然后基于应用实例详细分析Flink的设计思想和源码实现。第二部分基于对原理的理解，手把手教读者如何进行定制化的特性开发和性能提升，能够让读者对Flink的理解有质的飞跃。这一部分内容来自作者大量的工作实践，所引用例均源自企业级的真实需求，能够解决非常复杂的现网问题。

TOP作者简介

黄伟哲，约翰斯·霍普金斯大学硕士，架构师、软件开发工程师、咨询师，Spark Contributor。《人工智能技术与大数据》译者，目前就职于美团。在开源大数据框架的应用与特性开发方面有丰富的经验。

TOP目录

第一部分设计思想篇\n
第 1章序篇　3\n
1．1 Flink的诞生与发展　3\n
1．1．1 Stratosphere项目　3\n
1．1．2 Apache Flink的发展　4\n
1．2 Flink的应用场景　5\n
1．2．1 事件驱动型应用　5\n
1．2．2 数据分析型应用　5\n
1．2．3 数据管道型应用　9\n
1．3 Flink的核心特性与架构　9\n
1．3．1 核心特性　9\n
1．3．2 架构　10\n
1．4 准备工作　11\n
1．5 总结　12\n
第 2章 Flink编程　13\n
2．1 API层级　13\n
2．2 DataStream API　14\n
2．2．1 DataStream版本的\n
WordCount　14\n
2．2．2 数据源　16\n
2．2．3 数据的转换操作　16\n
2．2．4 数据的输出　20\n
2．2．5 重分区　21\n
2．3 DataSet API　21\n
2．3．1 DataSet版本的WordCount　21\n
2．3．2 数据源　22\n
2．3．3 数据的转换操作　22\n
2．3．4 数据的输出　24\n
2．3．5 重分区　25\n
2．4 Table API　25\n
2．4．1 Table API版本的WordCount　25\n
2．4．2 初始化执行环境　26\n
2．4．3 获取Table对象　28\n
2．4．4 Table API中的转换操作及输出　28\n
2．5 SQL　34\n
2．6 总结　34\n
第3章 Flink API层的实现原理　36\n
3．1 DataStream API　37\n
3．1．1 StreamExecutionEnvironment执行环境　37\n
3．1．2 Function接口分析　42\n
3．1．3 StreamOperator算子分析　45\n
3．1．4 转换操作分析　48\n
3．1．5 数据流相关类分析　53\n
3．2 DataSet API　59\n
3．2．1 ExecutionEnvironment执行环境　59\n
3．2．2 InputFormat和OutputFormat　62\n
3．2．3 数据集相关类分析　63\n
3．3 Table API和SQL　68\n
3．4 总结　71\n
第4章 Flink的执行图　72\n
4．1 StreamGraph的生成　73\n
4．1．1 StreamGraphGenerator分析　73\n
4．1．2 StreamGraph分析　77\n
4．1．3 StreamNode和StreamEdge　80\n
4．2 Plan的生成　81\n
4．2．1 OperatorTranslation分析　82\n
4．2．2 Plan分析　84\n
4．3 从StreamGraph到JobGraph　85\n
4．3．1 StreamingJobGraphGenerator分析　87\n
4．3．2 JobGraph分析　93\n
4．3．3 JobVertex、JobEdge和IntermediateDataSet　94\n
4．4 从Plan到JobGraph　95\n
4．5 从JobGraph到ExecutionGraph　96\n
4．5．1 ExecutionGraphBuilder分析　98\n
4．5．2 ExecutionGraph分析　99\n
4．5．3 ExecutionJobVertex、ExecutionVertex和Execution分析　102\n
4．5．4 IntermediateResult、IntermediateResultPartition和ExecutionEdge　106\n
4．6 总结　108\n
第5章 Flink的运行时架构　109\n
5．1 客户端代码的运行　110\n
5．2 高可用相关组件　115\n
5．2．1 EmbeddedHaServices　115\n
5．2．2 EmbeddedLeaderService　117\n
5．3 派发器的初始化与启动　122\n
5．4 资源管理器的初始化与启动　128\n
5．5 TaskExecutor的初始化与启动　131\n
5．6 JobMaster的初始化与启动　134\n
5．7 总结　137\n
第6章任务调度　138\n
6．1 调度器　138\n
6．1．1 调度器的基本构成与初始化　139\n
6．1．2 构造ExecutionGraph　142\n
6．2 调度拓扑　143\n
6．3 调度策略　147\n
6．3．1 EagerSchedulingStrategy　147\n
6．3．2 LazyFromSourcesSchedulingStrategy　149\n
6．3．3 InputDependencyConstraintChecker　152\n
6．4 调度过程的实现　157\n
6．4．1 开始调度　157\n
6．4．2 更新任务状态　159\n
6．4．3 调度或更新消费者　163\n
6．5 任务的部署　163\n
6．6 Execution对象在调度过程中的行为　166\n
6．7 总结　173\n
第7章任务的生命周期　174\n
7．1 任务的提交　174\n
7．1．1 TaskDeploymentDescriptor　176\n
7．1．2 ResultPartitionDeployment Descriptor　178\n
7．1．3 InputGateDeployment Descriptor　180\n
7．1．4 ShuffleDescriptor　181\n
7．1．5 ProducerDescriptor和PartitionDescriptor　185\n
7．1．6 TaskDeploymentDescriptor的提交　188\n
7．2 任务的初始化　189\n
7．2．1 Task的初始化　189\n
7．2．2 ResultPartition的初始化　191\n
7．2．3 InputGate的初始化　194\n
7．3 任务的执行　197\n
7．3．1 StreamTask的初始化　202\n
7．3．2 StreamTask中的重要概念　204\n
7．3．3 StreamTask的实现类　219\n
7．3．4 StreamTask的生命周期　222\n
7．3．5 DataSourceTask、BatchTask和DataSinkTask　227\n
7．4 总结　237\n
第8章数据传输　238\n
8．1 基本概念与设计思想　238\n
8．1．1 从逻辑执行图到物理执行图　239\n
8．1．2 用同一套模型应对批处理和流处理　242\n
8．1．3 混洗　242\n
8．1．4 流量控制　245\n
8．2 数据的输出　252\n
8．2．1 ResultPartitionType　253\n
8．2．2 ResultPartitionWriter　256\n
8．2．3 ResultSubpartition　262\n
8．3 数据的读取　265\n
8．3．1 ResultSubpartitionView　266\n
8．3．2 InputGate　269\n
8．3．3 InputChannel　273\n
8．4 反压机制的原理　278\n
8．5 总结　283\n
第9章时间与窗口　284\n
9．1 基本概念和设计思想　284\n
9．1．1 从批处理到流处理　284\n
9．1．2 数据流模型的设计思想　287\n
9．1．3 Flink中与窗口操作相关的核心概念　289\n
9．2 WindowedStream　290\n
9．3 窗口相关模型的实现　292\n
9．3．1 Window类　292\n
9．3．2 WindowAssigner类　293\n
9．3．3 Trigger类　294\n
9．3．4 Evictor类　296\n
9．4 WindowOperator　297\n
9．5 水位线　299\n
9．5．1 产生水位线　300\n
9．5．2 多个数据流传来的水位　303\n
9．6 定时器　304\n
9．7 总结　307\n
第 10章状态与容错　308\n
10．1 基本概念与设计思想　308\n
10．1．1 状态与容错的基本概念　308\n
10．1．2 Hadoop与Spark如何设计容错机制　311\n
10．1．3 Flink中容错机制的设计思想　311\n
10．1．4 Flink的状态与容错机制的核心概念　313\n
10．2 状态存储　315\n
10．2．1 检查点的触发　316\n
10．2．2 栅栏的传输　323\n
10．2．3 状态数据的更新和存储　331\n
10．2．4 元信息的存储　336\n
10．3 状态恢复　341\n
10．3．1 元信息的读取　342\n
10．3．2 状态的重分配　344\n
10．3．3 状态数据的恢复　347\n
10．4 状态的重分配策略　349\n
10．4．1 操作符状态的重分配　350\n
10．4．2 键控状态的重分配　352\n
10．5 总结　353\n
第二部分特性开发篇\n
第 11章动态调整并行度　357\n
11．1 模型设计　357\n
11．1．1 传统模型的局限　357\n
11．1．2 DS2模型的核心概念　358\n
11．1．3 算法原理　359\n
11．1．4 架构设计　360\n
11．1．5 使用DS2模型的注意事项　361\n
11．2 指标收集　361\n
11．3 指标管理　364\n
11．4 总结　366\n
第 12章自适应查询执行　367\n
12．1 Flink框架下的自适应查询执行　368\n
12．1．1 执行阶段的划分　368\n
12．1．2 优化流程　368\n
12．1．3 优化策略　370\n
12．2 统计信息的收集　373\n
12．3 执行图与调度拓扑的修改　374\n
12．4 上下游关系的建立　377\n
12．5 总结　378\n
第 13章 Flink Sort-Merge Shuffle　379\n
13．1 混洗机制的对比　379\n
13．2 Flink混洗机制　381\n
13．3 Blink混洗的数据流转　382\n
13．3．1 ExternalResultPartition　383\n
13．3．2 PartitionMergeFileWriter　384\n
13．4 Blink混洗的Sort-Merge过程　386\n
13．4．1 PushedUnilateralSort Merger　387\n
13．4．2 NormalizedKeySorter　390\n
13．4．3 排序线程　393\n
13．4．4 溢写线程　393\n
13．4．5 合并线程　395\n
13．5 文件的读取和元信息管理　398\n
13．5．1 ExternalBlockResultPartition Manager　398\n
13．5．2 ExternalBlockResultPartition Meta　399\n
13．5．3 ExternalBlockSubpartition View　400\n
13．6 总结　402\n
第 14章修改检查点的状态　403\n
14．1 状态修改的原理　403\n
14．1．1 状态元信息的读取　404\n
14．1．2 状态数据的读取　405\n
14．2 状态处理器API　407\n
14．2．1 数据的读取　409\n
14．2．2 数据的写出　413\n
14．3 总结　414

TOP书摘

TOP 其它信息

页　　数：414

开　　本：16开

正文语种：中文