百道网
 您现在的位置:Fun书 > 写给大忙人的Hadoop 2
写给大忙人的Hadoop 2


写给大忙人的Hadoop 2

作  者:(美)Douglas Eadline(道格拉斯·伊德理恩)

出 版 社:电子工业出版社

丛 书:卢涛

出版时间:2016年05月

定  价:69.00

I S B N :9787121288050

所属分类: 专业科技  >  计算机/网络  >  程序设计    

标  签:程序设计  计算机/网络  其他  

[查看微博评论]

分享到:

TOP内容简介

本书首先介绍了Hadoop的背景知识,包括Hadoop 2和YARN的工作原理和对Hadoop 1的改进,然后将数据湖与传统存储比较。第2章到第8章,分别介绍了Hadoop 2和核心服务的安装方法、Hadoop分布式文件系统、MapReduce和YARN编程,以及利用Apache Pig等Hadoop工具简化编程。最后两章讲述了利用Apache Ambari等工具管理Hadoop和基本的管理程序。附录包括Hadoop 2故障诊断和排除的基础知识、Apache Hue和Apache Spark安装等。本书通俗易懂,具有大量操作实例,易于上手,适合Hadoop用户、管理员、开发和运维人员、程序员、架构师、分析师和数据科学工作者阅读。

TOP作者简介

卢涛,专业社区ITPUB Oracle开发版版主。1995年参加工作,2001年转到IT部门从事C/C++软件开发,2004年开始做系统分析和Oracle数据库方面工作。参加过多个全国性普查数据处理项目的开发和运维,目前主要从事统计报表联网填报系统的后台支持和优化。曾参与编写《剑破冰山—Oracle开发的艺术》一书,并翻译了数本Oracle管理、开发和性能优化;C/C++开发、Web开发等方面的书籍。 Douglas Eadline,博士,作为一个Linux集群HPC革命的践行者和记录者开始他的职业生涯,而现在他在记录大数据分析。从开始第一份操作文档以来,道格写了数百篇文章、白皮书,以及说明文档,涵盖高性能计算(HPC)的几乎所有方面。在2005年启动和编辑颇受欢迎的ClusterMonkey.net网站之前,他担任ClusterWorld杂志的主编,并曾是Linux杂志的HPC资深编辑。他具有多方面的HPC实际操作经验,包括硬件和软件设计、基准测试、存储、GPU、云计算和并行计算。

TOP目录

1背景和概念 1定义Apache Hadoop 1Apache Hadoop的发展简史 3大数据的定义 4Hadoop作为数据湖 5使用Hadoop:管理员、用户或两种身份兼具 7原始的MapReduce 7Apache Hadoop的设计原则 8Apache Hadoop MapReduce示例 8MapReduce的优势 10Apache Hadoop V1 MapReduce操作 11使用Hadoop V2 超越MapReduce 13Hadoop V2 YARN操作设计 14Apache Hadoop项目生态系统 16总结和补充资料 182安装攻略 21核心Hadoop服务 21Hadoop配置文件 22规划你的资源 23硬件的选择 23软件选择 24在台式机或笔记本电脑上安装 25安装Hortonworks HDP 2.2沙箱 25用Apache源代码安装Hadoop 32配置单节点YARN服务器的步骤 33运行简单的MapReduce示例 42安装 Apache Pig(可选) 42安装Apache Hive(可选) 43使用Ambari安装Hadoop 44执行Ambari安装 45撤消Ambari安装 59使用Apache Whirr在云中安装Hadoop 59总结和补充资料 653HDFS基础知识 67HDFS设计的特点 67HDFS组件 68HDFS块复制 71HDFS安全模式 72机架的识别 73NameNode高可用性 73HDFS NameNode联邦 75HDFS检查点和备份 76HDFS快照 76HDFS NFS网关 76HDFS用户命令 77简要HDFS命令参考 77一般HDFS命令 78列出HDFS中的文件 79在HDFS中创建一个目录 80将文件复制到HDFS 80从HDFS复制文件 81在HDFS中复制文件 81删除在HDFS中的文件 81删除在HDFS中的目录 81获取HDFS状态报告 81HDFS的Web图形用户界面 82在程序中使用HDFS 82HDFS Java应用程序示例 82HDFS C应用程序示例 86总结和补充资料 884运行示例程序和基准测试程序 91列出可用的示例 92运行Pi示例 93使用Web界面监控示例 95运行基本Hadoop基准测试程序 101运行Terasort测试 101运行TestDFSIO基准 102管理Hadoop MapReduce作业 103总结和补充资料 1045Hadoop MapReduce框架 107MapReduce模型 107MapReduce并行数据流 110容错和推测执行 114推测执行 114Hadoop MapReduce硬件 115总结和补充资料 1156MapReduce 117编译和运行Hadoop WordCount的示例 117使用流式接口 122使用管道接口 125编译和运行Hadoop Grep链示例 127调试MapReduce 131作业的列举、清除和状态查询 131Hadoop日志管理 131启用YARN日志聚合 132Web界面日志查看 133命令行日志查看 133总结和附加资源 1357基本的Hadoop工具 137使用Apache Pig 137Pig示例演练 138使用Apache Hive 140Hive示例演练 140更高级的Hive示例 142使用Apache Sqoop获取关系型数据 145Apache Sqoop导入和导出方法 145Apache Sqoop版本更改 147Sqoop示例演练 148使用Apache Flume获取数据流 155Flume的示例演练 157使用Apache Oozie管理 Hadoop工作流 160Oozie示例演练 162使用Apache HBase 170HBase数据模型概述 170HBase示例演练 171总结和补充资料 1768Hadoop YARN应用程序 179YARN分布式shell 179使用YARN分布式shell 180一个简单的示例 181使用更多的容器 182带有shell参数的分布式 shell 示例 183YARN应用程序的结构 185YARN应用程序框架 187Hadoop MapReduce 188Apache Tez 188Apache Giraph 189Hoya: HBase on YARN 189Dryad on YARN 189Apache Spark 189Apache Storm 190Apache REEF:可持续计算执行框架 190Hamster:Hadoop和MPI在同一集群 190Apache Flink:可扩展的批处理和流式数据处理 191Apache Slider:动态应用程序管理 191总结和补充资料 1929用Apache Ambari管理Hadoop 193快速浏览 Apache Ambari 194仪表板视图 194服务视图 197主机视图 199管理视图 201查看视图 201Admin下拉菜单 202更改Hadoop属性 206总结和补充资料 21210基本的Hadoop管理程序 213基本的Hadoop YARN管理 214停用YARN节点 214YARN WebProxy 214使用 JobHistoryServer 215管理YARN作业 215设置容器内存 215设置容器核心 216设置MapReduce属性 216基本的HDFS管理 217NameNode用户界面 217将用户添加到HDFS 219在HDFS上执行FSCK 220平衡HDFS 221HDFS安全模式 222停用HDFS节点 222SecondaryNameNode 223HDFS快照 223配置到HDFS的NFSv3网关 225容量调度程序背景知识 229Hadoop 2的MapReduce兼容性 231启用应用主控程序的重新启动功能 231计算一个节点的承载容量 232运行Hadoop 1的应用程序 233总结和补充资料 235附录A本书的网页和代码下载 237附录B入门流程图和故障排除指南 239入门流程图 239常见的Hadoop故障排除指南 239规则1:不要惊慌 239规则2:安装并使用Ambari 244规则3:检查日志 244规则4:简化情况 245规则5:在互联网上提问 245其他有用的提示 246附录C按主题列出的Apache Hadoop资源汇总 253常规的Hadoop 信息 253Hadoop安装攻略 253HDFS 254示例 255MapReduce 255MapReduce 编程 255基本工具 256YARN应用程序框架 257Ambari管理 257基本的Hadoop 管理 257附录D安装Hue Hadoop GUI 259Hue安装 259安装和配置Hue 262启动Hue 263Hue用户界面 263附录E安装Apache Spark 267在集群上安装Spark 267在整个集群中启动Spark 268在伪分布式的单节点安装版本中安装和启动Spark 270运行Spark示例 271

TOP书摘

TOP 其它信息

装  帧:平塑

页  数:288

加载页面用时:76.6444