作 者:Holden,Karau,Rachel,Warren
出 版 社:东南大学出版社
出版时间:2018年02月
定 价:88.00
I S B N :9787564175184
所属分类: 专业科技 > 计算机/网络 > 程序设计  
标 签:计算机?网络 软件工程及软件方法学
本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。
在本书中你将发现:
* Spark SQL的新接口如何在SQL的RDD数据结构上改善性能
* Core Spark和Spark SQL之间的数据拼接选择
* 充分发挥标准RDD转换功能的技巧
* 如何处理Spark的键/值对范式的相关性能问题
* 编写高性能Spark代码,不使用Scala或JVM
* 如何在应用建议的改进措施时测试功能和性能
* 使用Spark MLlib和Spark ML机器学习库
* Spark的流组件和外部社区软件包
Holden Karau是一位跨性别加拿大人,在IBM Spark技术中心担任软件开发工程师。她是Spark代码贡献者,并且经常提交贡献代码,特别是PySpark和机器学习部分。Holden在多个国际活动中演讲Spark相关话题。
Rachel Warren是Alpine Data的软件工程师和数据科学家。在日常工作中,她使用Spark来处理真实世界的数据和机器学习问题。她也曾在工业界和学术界担任分析师和导师。