我刚开始了解大数据,本来想找一本专门讲Hadoop的书,不过阅读的过程发现这本书理论讲得很好,从数据仓库的背景出发,帮助我更好地理解了Hadoop在数据仓库中的位置。全书只有第三章在介绍Hadoop的理论知识,但是这么简短的篇幅就把Hadoop的核心介绍得一清二楚。比起Hadoop,这本书更多地是在讲数据仓库,数据仓库的历史,在发展的过程中遇到的问题,Hadoop技术如何解决数据仓库的问题,以及在Hadoop出现之后,依然适用的数据仓库技术,比如维度表技术、事实表技术。 读完这本书,我有三个收获,第一,操作性系统和分析性系统在目的上的区别?操作性系统是为了完成业务在事物级别的增删改查,分析性系统是为了对大规模数据多维度分析,目的不同导致方法不同;第二,MapReduce为什么不适合交互式分析查询?Map和Reduce的结果都需要写入磁盘,Reduce的结果还需要写入HDFS,整个过程肯定慢,第三,Hadoop如何“打破”CAP理论,比关系型数据库更适合做数据仓库?Hadoop用数据的增加代替事务的修改,没有变更,只需要最终一致性,让Hadoop更适合大数据仓库。 在实践部分,这本书很多内容都不再适用,比如Cloudera官方不再提供免费的Ambari和CDH套件下载,Hive ORC支持增加列,所以实践部分可以关注作者解决问题的思路,实际的做法还需要结合最新的技术进展。
7普通快递
对于基础知识的掌握有必要
属于横向面积大,深度浅的技术书籍,对于想了解Hadoop及数仓相关概念可以学习阅读,但是想理解原理及实现,则无法满足
非常好的一本书
结合Google早年发布的GFS、MapReduce、Bigtable等论文能够对大数据分布式架构的发展历程有更深入的理解
前半部分可以做复习数仓大纲,后半部分的内容相对过时了,粗略看看即可。
浏览一遍,了解一下
比较详细,比较专业
总体说的比较浅显易懂,可以作为温故教材。
非常好的Hadoop入门科普
hadoop基本组件部分讲的简明扼要,数据模型这块也还不错
特别好!
内容多,不够详细,适合有一定基础的同学查看。 主要是文字,可读性不是太好
前边了解行业术语 后面的代码较多
我刚开始了解大数据,本来想找一本专门讲Hadoop的书,不过阅读的过程发现这本书理论讲得很好,从数据仓库的背景出发,帮助我更好地理解了Hadoop在数据仓库中的位置。全书只有第三章在介绍Hadoop的理论知识,但是这么简短的篇幅就把Hadoop的核心介绍得一清二楚。比起Hadoop,这本书更多地是在讲数据仓库,数据仓库的历史,在发展的过程中遇到的问题,Hadoop技术如何解决数据仓库的问题,以及在Hadoop出现之后,依然适用的数据仓库技术,比如维度表技术、事实表技术。 读完这本书,我有三个收获,第一,操作性系统和分析性系统在目的上的区别?操作性系统是为了完成业务在事物级别的增删改查,分析性系统是为了对大规模数据多维度分析,目的不同导致方法不同;第二,MapReduce为什么不适合交互式分析查询?Map和Reduce的结果都需要写入磁盘,Reduce的结果还需要写入HDFS,整个过程肯定慢,第三,Hadoop如何“打破”CAP理论,比关系型数据库更适合做数据仓库?Hadoop用数据的增加代替事务的修改,没有变更,只需要最终一致性,让Hadoop更适合大数据仓库。 在实践部分,这本书很多内容都不再适用,比如Cloudera官方不再提供免费的Ambari和CDH套件下载,Hive ORC支持增加列,所以实践部分可以关注作者解决问题的思路,实际的做法还需要结合最新的技术进展。
7普通快递
对于基础知识的掌握有必要
属于横向面积大,深度浅的技术书籍,对于想了解Hadoop及数仓相关概念可以学习阅读,但是想理解原理及实现,则无法满足
非常好的一本书
结合Google早年发布的GFS、MapReduce、Bigtable等论文能够对大数据分布式架构的发展历程有更深入的理解
前半部分可以做复习数仓大纲,后半部分的内容相对过时了,粗略看看即可。
浏览一遍,了解一下
比较详细,比较专业
总体说的比较浅显易懂,可以作为温故教材。
非常好的Hadoop入门科普
hadoop基本组件部分讲的简明扼要,数据模型这块也还不错
特别好!
内容多,不够详细,适合有一定基础的同学查看。 主要是文字,可读性不是太好
前边了解行业术语 后面的代码较多