作 者:[美] Rajiv,Tiwari(拉吉夫.蒂瓦里) 著;王小宁 译
出 版 社:电子工业出版社
出版时间:2017年03月
定 价:59.00
I S B N :9787121310515
所属分类: 专业科技 > 计算机/网络 > 程序设计  
标 签:
在互联网+时代,数据是炙手可热的重要资源,网络使用基础的提升,数据流量增大,用户需求多样化和多变对架构设计提出严峻考验,而Hadoop为快速响应用户需求提供了重要技术支撑。作者Rajiv Tiwari从事数据研究近15年,在Hadoop应用方面有许多实战经验,他通过实际案例帮助读者学习如何借助Hadoop来处理巨大数据信息,对于开发者、分析师、架构师、管理者等都具有很好的指导。
王小宁,中国人民大学统计学院14级硕士、16级博士,统计之都副主编,中国人民大学数据挖掘中心分布式计算负责人,中国人民大学中国调查与数据中心研究员,研究兴趣包括统计机器学习、缺失数据处理和数据流抽样。 Rajiv Tiwari 是一位有着超过15年经验的自由大数据架构师,涉及的方向包括大数据、数据分析、数据管理、数据架构、数据清洗/数据整合、数据仓库、以及银行和其他金融组织中的数据智能等。__eol__他毕业于瓦拉纳西印度理工学院(IIT)的电子工程专业,在英国工作已经超过十年,大部分时间在英国金融城,伦敦。从2010年起,Rajiv 就开始使用Hadoop,当时银行部门使用Hadoop 的还很少。他目前正在帮助1级投资银行(Tier 1 Investment Bank)在Hadoop平台上实施一个大的风险分析项目。
第 1章 大数据回顾. ...................................................................... 1
大数据是什么 ................................................................................................. 1
数据量 .......................................................................................................... 2
数据速度 ...................................................................................................... 2
数据类型 ...................................................................................................... 3
大数据技术的演进 ......................................................................................... 3
过去 .............................................................................................................. 3
现在 .............................................................................................................. 4
未来 .............................................................................................................. 5
大数据愿景 ..................................................................................................... 5
存储 .............................................................................................................. 6
NoSQL ......................................................................................................... 6
NoSQL数据库类型 .................................................................................... 7
资源管理 ...................................................................................................... 7
数据治理 ...................................................................................................... 8
批量计算 ...................................................................................................... 8
实时计算 ...................................................................................................... 8
数据整合工具 .............................................................................................. 9
机器学习 ...................................................................................................... 9
商务智能和可视化 ...................................................................................... 9
大数据相关的职业 .................................................................................... 10
Hadoop架构 ...................................................................................................11
HDFS集群 ................................................................................................ 12
MapReduce V1 .......................................................................................... 14
MapReduce V2——YARN ........................................................................ 15
Hadoop生态圈简介 ...................................................................................... 18
驯服大数据 ................................................................................................ 18
Hadoop——英雄 ....................................................................................... 19
HDFS——Hadoop分布式系统 ................................................................ 19
Hadoop版本 .................................................................................................. 23
发行版——本地部署 ................................................................................ 25
发行版——云端 ........................................................................................ 27
总结 ............................................................................................................... 28
第 2章 金融服务中的大数据...................................................... 29
各个行业的大数据使用情况 ....................................................................... 29
卫生保健 .................................................................................................... 30
人类科学 .................................................................................................... 30
电信 ............................................................................................................ 31
在线零售商 ................................................................................................ 31
为什么金融部门需要大数据 ....................................................................... 31
金融部门的大数据应用案例 ....................................................................... 34
HDFS上的数据归档 ................................................................................ 34
监管 ............................................................................................................ 35
欺诈检测 .................................................................................................... 35
交易数据 .................................................................................................... 36
风险管理 .................................................................................................... 36
客户行为预测 ............................................................................................ 36
情感分析——非结构化 ............................................................................ 36
其他应用案例 ............................................................................................ 37
金融大数据的演进过程 ............................................................................... 37
应该如何学习金融大数据 ........................................................................... 41
把你的数据上传到 HDFS上 ................................................................... 41
从 HDFS上查询数据 ............................................................................... 42
在 Hadoop上的 SQL................................................................................. 43
实时 ............................................................................................................ 44
数据治理和运营 ........................................................................................ 44
ETL工具 ................................................................................................... 45
数据分析和商业智能 ................................................................................ 45
金融大数据的实现 ....................................................................................... 46
关键挑战 .................................................................................................... 46
克服挑战 .................................................................................................... 47
总结 ............................................................................................................... 50
第 3章 在云端使用 Hadoop....................................................... 51
大数据云的故事 ........................................................................................... 51
原因 ............................................................................................................ 52
时机 ............................................................................................................ 53
收获 ............................................................................................................ 54
项目细节——在云中进行风险模拟 ............................................................ 54
解决方案 .................................................................................................... 55
现实世界 .................................................................................................... 55
目标世界 .................................................................................................... 57
数据转换 .................................................................................................... 60
数据分析 .................................................................................................... 62
总结 ............................................................................................................... 63
第 4章 使用 Hadoop进行数据迁移. ........................................... 65
项目细节——归档你的交易数据 ................................................................ 65
解决方案 .................................................................................................... 67
项目第一阶段——分裂交易数据到数据仓库和 Hadoop ...................... 68
项目第二阶段——完成数据从关系型数据仓库到 Hadoop的迁移 ..... 77
总结 ............................................................................................................... 83
第 5章 入门. ............................................................................... 85
项目详细信息——风险和监管报告 ............................................................ 86
解决方案 .................................................................................................... 87
现实世界 .................................................................................................... 87
目标世界 .................................................................................................... 88
数据收集 .................................................................................................... 89
数据转换 .................................................................................................... 97
数据分析 ...................................................................................................112
总结 ..............................................................................................................116
第 6章 变得有经验. .................................................................. 117
实时大数据 ..................................................................................................117
项目细节——识别欺诈交易 .......................................................................119
解决方案 .................................................................................................. 120
现实世界 .................................................................................................. 120
目标世界 .................................................................................................. 120
马尔科夫链模型执行——批处理模式 .................................................. 121
数据收集 .................................................................................................. 126
数据转换 .................................................................................................. 128
总结 ............................................................................................................. 132
第 7章 深入扩展 Hadoop的企业级应用.................................. 133
扩展开来——实际上的水平 ...................................................................... 134
更多的大数据使用案例 ............................................................................. 135
使用案例——再谈欺诈问题 .................................................................. 136
解决方案 .................................................................................................. 136
使用案例——用户投诉 .......................................................................... 137
解决方案 .................................................................................................. 137
使用案例——算法交易 .......................................................................... 137
解决方案 .................................................................................................. 138
使用案例——外汇交易 .......................................................................... 138
解决方案 .................................................................................................. 138
使用案例——基于社交媒体的交易数据 .............................................. 139
解决方案 .................................................................................................. 139
使用案例——非大数据 .......................................................................... 140
解决方案 .................................................................................................. 140
数据湖 ......................................................................................................... 140
Lambda架构 ............................................................................................... 143
大数据管理 ................................................................................................. 144
Apache Falcon概览 ................................................................................ 146
安全性 ......................................................................................................... 147
总结 ............................................................................................................. 149
第 8章 Hadoop的快速增长..................................................... 151
Hadoop发行版的升级周期 ........................................................................ 151
最佳实践和标准 ......................................................................................... 154
环境 .......................................................................................................... 154
与 BI和 ETL工具的集成 ...................................................................... 155
提示 .......................................................................................................... 155
新的趋势 ..................................................................................................... 157
总结 ............................................................................................................. 158