百道网
 您现在的位置:Fun书 > 并行数据挖掘及性能优化――关联规则与数据相关性分析
并行数据挖掘及性能优化――关联规则与数据相关性分析


并行数据挖掘及性能优化――关联规则与数据相关性分析

作  者:荀亚玲

出 版 社:电子工业出版社

出版时间:2019年12月

定  价:88.00

I S B N :9787121375828

所属分类: 专业科技  >  计算机/网络  >  数据库    

标  签:  

[查看微博评论]

分享到:

TOP内容简介

大数据推动了各行各业的迅猛发展,各领域呈现出新产品、新技术、新服务和新的发展业态,但“信息丰富而知识贫乏”的现象仍然存在。逾越数据与知识之间的鸿沟,需要强有力的分析工具和分析方法的支撑。现有的关联规则挖掘算法,因其时空复杂性和I/O代价高,难以适应大数据分析任务。本书充分利用Hadoop、Spark等集群系统的强大数据处理能力,论述了支持大数据分析的关联规则并行挖掘算法与集群系统性能优化,并探讨了其在智能制造领域的应用。本书可供从事数据挖掘、机器学习及并行计算等相关专业的科研人员参考,也可作为高等院校计算机、大数据专业的高年级本科生与研究生的学习参考书。

TOP作者简介

荀亚玲,女,1980年生,山西临汾霍州人,博士,现任太原科技大学计算机科学与技术学院副教授。在科研方面一直从事数据挖掘和并行与分布式计算等方面的研究工作。在关联规则挖掘、天体光谱数据挖掘技术、并行与分布式计算等领域进行了理论和应用研究,已取得了一些阶段性的研究成果。先后参与了多项国家自然科学基金、国家\

TOP目录

目录
第一篇 基础理论篇
第1章 绪论\t3
1.1 数据挖掘\t4
1.1.1 数据挖掘的产生和定义\t4
1.1.2 数据挖掘的任务与分类\t6
1.1.3 研究前沿和发展趋势\t8
1.2 关联规则\t9
1.2.1 关联规则及其分类\t9
1.2.2 关联规则挖掘算法\t12
1.3 集群系统与并行计算模型\t17
1.3.1 集群系统\t17
1.3.2 并行计算模型\t18
1.3.3 大数据处理架构Hadoop与Spark\t21
1.4 大数据环境下的数据挖掘及应用\t27
1.4.1 大数据\t27
1.4.2 大数据挖掘及应用\t29
第2章 MapReduce集群环境下的数据放置策略\t33
2.1 引言\t34
2.2 数据放置策略的关键问题与度量标准\t35
2.3 数据放置策略的优化\t37
2.3.1 MapReduce集群系统能耗与数据放置策略\t38
2.3.2 负载均衡的数据放置策略\t41
2.3.3 改善I/O性能与通信负载的数据放置策略\t46
2.3.4 考虑其他因素的数据放置策略\t49
2.4 数据放置策略的分析与归纳\t50
2.5 本章小结\t53
第二篇 关联规则并行挖掘及性能优化篇
第3章 压缩后缀链表与并行频繁项集挖掘算法\t61
3.1 问题提出\t62
3.2 基础理论\t63
3.3 基于MapReduce的频繁项集挖掘算法\t65
3.3.1 第一个MapReduce作业\t67
3.3.2 第二个MapReduce作业\t67
3.4 实验评价\t68
3.4.1 最小支持度\t69
3.4.2 可扩展性\t70
3.4.3 加速比\t70
3.5 本章小结\t71
第4章 FIUT算法与频繁项集并行挖掘\t73
4.1 引言\t74
4.2 FIUT算法描述\t76
4.3 FiDoop算法概述\t77
4.4 基于MapReduce的FiDoop算法\t81
4.4.1 第一个MapReduce作业\t83
4.4.2 第二个MapReduce作业\t83
4.4.3 第三个MapReduce作业\t84
4.5 实现细节\t87
4.5.1 负载均衡\t87
4.5.2 高维优化\t88
4.6 FiDoop-HD算法\t90
4.7 实验评价\t92
4.7.1 最小支持度\t93
4.7.2 负载均衡\t95
4.7.3 加速比\t96
4.7.4 可扩展性\t97
4.8 本章小结\t98
第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法\t101
5.1 问题提出\t102
5.2 约束频繁项集挖掘算法的并行化\t103
5.3 基于MapReduce的约束频繁项集并行挖掘\t105
5.4 基于MapReduce的约束频繁项集并行挖掘算法(PACFP)\t108
5.4.1 并行化计数过程\t108
5.4.2 并行化CFP-Growth算法\t109
5.4.3 结果聚合\t111
5.5 负载均衡\t111
5.6 实验结果及分析\t112
5.6.1 最小支持度\t113
5.6.2 可伸缩性\t115
5.6.3 可扩展性\t116
5.6.4 约束条件判断的代价分析\t117
5.6.5 负载均衡\t118
5.7 本章小结\t120
第6章 支持并行频繁项集挖掘的数据划分策略\t121
6.1 引言\t122
6.1.1 FiDoop-DP算法的研发动机\t123
6.1.2 FiDoop-DP算法要解决的数据划分问题\t124
6.1.3 FiDoop-DP算法的基本思想\t125
6.2 并行FP-Growth算法\t126
6.3 相关工作\t128
6.3.1 MapReduce下的数据划分\t128
6.3.2 应用系统相关的数据划分\t129
6.4 问题陈述和设计目标\t131
6.4.1 基本方法与问题陈述\t131
6.4.2 设计目标\t132
6.5 数据划分策略\t133
6.5.1 距离度量\t134
6.5.2 K-Means算法种子点的选择\t135
6.5.3 划分策略\t135
6.6 实现细节\t138
6.7 实验评价\t143
6.7.1 种子点个数对算法的影响\t143
6.7.2 最小支持度对算法的影响\t145
6.7.3 数据特征对算法的影响\t147
6.7.4 加速比\t149
6.7.5 可扩展性\t150
6.8 本章小结\t151
第7章 频繁项集并行化过程中的重定向任务调度\t153
7.1 问题提出\t154
7.2 重定向任务调度算法\t156
7.2.1 数据本地化的重要性\t156
7.2.2 计算响应时间\t157
7.2.3 重定向任务调度算法的设计\t158
7.3 实验结果及分析\t160
7.3.1 有效性\t160
7.3.2 可扩展性\t161
7.3.3 稳定性\t162
7.4 本章小结\t163
第8章 基于Spark内存计算的并行频繁项集挖掘及优化\t165
8.1 引言\t166
8.2 FP-Growth 算法的并行化分析\t167
8.3 Spark环境下的均衡FP-Growth算法\t169
8.3.1 负载均衡的分组策略\t169
8.3.2 负载均衡的FP-Growth算法并行化\t172
8.4 实验评价\t174
8.4.1 算法执行效率\t175
8.4.2 加速比\t176
8.4.3 可扩展性\t177
8.5 本章小结\t178
第三篇 应 用 篇
第9章 冷轧辊加工质量管理过程相关性分析\t181
9.1 引言\t182
9.2 系统需求与总体设计\t184
9.2.1 轧辊生产工艺流程\t184
9.2.2 冷轧辊生产质量管理特点\t186
9.2.3 系统的软件体系结构及功能\t188
9.3 数据预处理及关键技术\t190
9.3.1 数据转换\t190
9.3.2 数据清理\t190
9.3.3 数据离散化\t193
9.4 提取关联规则\t195
9.5 系统实现及运行结果\t196
9.6 本章小结\t203
附录A 冷轧辊加工数据\t205
附录B 冷轧辊加工数据预处理格式\t207
参考文献\t209











第一篇 基础理论篇
第1章 绪论\t3
1.1 数据挖掘\t4
1.1.1 数据挖掘的产生和定义\t4
1.1.2 数据挖掘的任务与分类\t6
1.1.3 研究前沿和发展趋势\t8
1.2 关联规则\t9
1.2.1 关联规则及其分类\t9
1.2.2 关联规则挖掘算法\t12
1.3 集群系统与并行计算模型\t17
1.3.1 集群系统\t17
1.3.2 并行计算模型\t18
1.3.3 大数据处理架构Hadoop与Spark\t21
1.4 大数据环境下的数据挖掘及应用\t27
1.4.1 大数据\t27
1.4.2 大数据挖掘及应用\t29
第2章 MapReduce集群环境下的数据放置策略\t33
2.1 引言\t34
2.2 数据放置策略的关键问题与度量标准\t35
2.3 数据放置策略的优化\t37
2.3.1 MapReduce集群系统能耗与数据放置策略\t38
2.3.2 负载均衡的数据放置策略\t41
2.3.3 改善I/O性能与通信负载的数据放置策略\t46
2.3.4 考虑其他因素的数据放置策略\t49
2.4 数据放置策略的分析与归纳\t50
2.5 本章小结\t53
第二篇 关联规则并行挖掘及性能优化篇
第3章 压缩后缀链表与并行频繁项集挖掘算法\t61
3.1 问题提出\t62
3.2 基础理论\t63
3.3 基于MapReduce的频繁项集挖掘算法\t65
3.3.1 第一个MapReduce作业\t67
3.3.2 第二个MapReduce作业\t67
3.4 实验评价\t68
3.4.1 最小支持度\t69
3.4.2 可扩展性\t70
3.4.3 加速比\t70
3.5 本章小结\t71
第4章 FIUT算法与频繁项集并行挖掘\t73
4.1 引言\t74
4.2 FIUT算法描述\t76
4.3 FiDoop算法概述\t77
4.4 基于MapReduce的FiDoop算法\t81
4.4.1 第一个MapReduce作业\t83
4.4.2 第二个MapReduce作业\t83
4.4.3 第三个MapReduce作业\t84
4.5 实现细节\t87
4.5.1 负载均衡\t87
4.5.2 高维优化\t88
4.6 FiDoop-HD算法\t90
4.7 实验评价\t92
4.7.1 最小支持度\t93
4.7.2 负载均衡\t95
4.7.3 加速比\t96
4.7.4 可扩展性\t97
4.8 本章小结\t98
第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法\t101
5.1 问题提出\t102
5.2 约束频繁项集挖掘算法的并行化\t103
5.3 基于MapReduce的约束频繁项集并行挖掘\t105
5.4 基于MapReduce的约束频繁项集并行挖掘算法(PACFP)\t108
5.4.1 并行化计数过程\t108
5.4.2 并行化CFP-Growth算法\t109
5.4.3 结果聚合\t111
5.5 负载均衡\t111
5.6 实验结果及分析\t112
5.6.1 最小支持度\t113
5.6.2 可伸缩性\t115
5.6.3 可扩展性\t116
5.6.4 约束条件判断的代价分析\t117
5.6.5 负载均衡\t118
5.7 本章小结\t120
第6章 支持并行频繁项集挖掘的数据划分策略\t121
6.1 引言\t122
6.1.1 FiDoop-DP算法的研发动机\t123
6.1.2 FiDoop-DP算法要解决的数据划分问题\t124
6.1.3 FiDoop-DP算法的基本思想\t125
6.2 并行FP-Growth算法\t126
6.3 相关工作\t128
6.3.1 MapReduce下的数据划分\t128
6.3.2 应用系统相关的数据划分\t129
6.4 问题陈述和设计目标\t131
6.4.1 基本方法与问题陈述\t131
6.4.2 设计目标\t132
6.5 数据划分策略\t133
6.5.1 距离度量\t134
6.5.2 K-Means算法种子点的选择\t135
6.5.3 划分策略\t135
6.6 实现细节\t138
6.7 实验评价\t143
6.7.1 种子点个数对算法的影响\t143
6.7.2 最小支持度对算法的影响\t145
6.7.3 数据特征对算法的影响\t147
6.7.4 加速比\t149
6.7.5 可扩展性\t150
6.8 本章小结\t151
第7章 频繁项集并行化过程中的重定向任务调度\t153
7.1 问题提出\t154
7.2 重定向任务调度算法\t156
7.2.1 数据本地化的重要性\t156
7.2.2 计算响应时间\t157
7.2.3 重定向任务调度算法的设计\t158
7.3 实验结果及分析\t160
7.3.1 有效性\t160
7.3.2 可扩展性\t161
7.3.3 稳定性\t162
7.4 本章小结\t163
第8章 基于Spark内存计算的并行频繁项集挖掘及优化\t165
8.1 引言\t166
8.2 FP-Growth 算法的并行化分析\t167
8.3 Spark环境下的均衡FP-Growth算法\t169
8.3.1 负载均衡的分组策略\t169
8.3.2 负载均衡的FP-Growth算法并行化\t172
8.4 实验评价\t174
8.4.1 算法执行效率\t175
8.4.2 加速比\t176
8.4.3 可扩展性\t177
8.5 本章小结\t178
第三篇 应 用 篇
第9章 冷轧辊加工质量管理过程相关性分析\t181
9.1 引言\t182
9.2 系统需求与总体设计\t184
9.2.1 轧辊生产工艺流程\t184
9.2.2 冷轧辊生产质量管理特点\t186
9.2.3 系统的软件体系结构及功能\t188
9.3 数据预处理及关键技术\t190
9.3.1 数据转换\t190
9.3.2 数据清理\t190
9.3.3 数据离散化\t193
9.4 提取关联规则\t195
9.5 系统实现及运行结果\t196
9.6 本章小结\t203
附录A 冷轧辊加工数据\t205
附录B 冷轧辊加工数据预处理格式\t207
参考文献\t209

TOP书摘

TOP 其它信息

页  数:224

开  本:16开

正文语种:中文

加载页面用时:31.2554