Spark快速大数据分析(第2版)

朱尔斯·S. 达米吉 布鲁克·韦尼希 丹尼·李 泰瑟加塔·达斯
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
zhaojiew

结合内容这本书的真实名称应该叫做学习spark sql编程,偏向于api介绍级别的读物。 总体上按照spark各个库的顺序分别进行了介绍,涉及spark底层原理的部分较少。 spark已经在批流一体,执行优化和事件时间方面做出改进。 从设计上,spark的机器学习库在用法上和单机机器学习库的接口保持一致,屏蔽了底层实现的细节,无疑是降低了学习成本。 作为开始接触大数据领域的新人,个人感觉这本书可以作为速览读物学习,细枝末节可以在实践中打磨。缺点在于部分翻译过于生硬,如果首次接触spark可以先了解下相关概念的英文名称再阅读此书。

xiaosi

还可以

人世间

简洁明了

峻岳

Spark经典入门级书籍。一定要看第2版,Spark2.0后重要的接口全变了,第1版基本不能看了。

song

算是spark的入门级书籍,更多在实操层面给予了很多的介绍和说明,同时提供了实例代码,可以方便初学者快速上手使用;但是对于更宏观的设计与架构,以及实际应用场景的使用没有过多的提及。总体而已是一本相对详实的入门参考书籍,适合初学者一读!

RongBlade

对入门有帮助的,可以辅助实战

阿里小小

大数据,分布式处理,必备学习技术之一。

TiMe

快速所以不够深入

清…荷

建议初学者阅读此书籍

KC

作为入门是不错的

刘新放

还行吧。浅入浅出

海平

本书讲解了spark的使用方法,可以作为有一定hadoop基础的人阅读,使用最新的spark3.0进行讲解,内容相对比较新,想深入研究的可能需要了解其他更多书籍

不学舌

方方面面都有介绍到,例子也很实用

JaJian

知识点蜻蜓点水,完全的小白入门级书,示例用法较多。

左左乾坤

挺好的,学习到很多东西,挺不错的!

暂时没有数据