Hadoop构建数据仓库实践

王雪迎
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到
黄金

我刚开始了解大数据,本来想找一本专门讲Hadoop的书,不过阅读的过程发现这本书理论讲得很好,从数据仓库的背景出发,帮助我更好地理解了Hadoop在数据仓库中的位置。全书只有第三章在介绍Hadoop的理论知识,但是这么简短的篇幅就把Hadoop的核心介绍得一清二楚。比起Hadoop,这本书更多地是在讲数据仓库,数据仓库的历史,在发展的过程中遇到的问题,Hadoop技术如何解决数据仓库的问题,以及在Hadoop出现之后,依然适用的数据仓库技术,比如维度表技术、事实表技术。 读完这本书,我有三个收获,第一,操作性系统和分析性系统在目的上的区别?操作性系统是为了完成业务在事物级别的增删改查,分析性系统是为了对大规模数据多维度分析,目的不同导致方法不同;第二,MapReduce为什么不适合交互式分析查询?Map和Reduce的结果都需要写入磁盘,Reduce的结果还需要写入HDFS,整个过程肯定慢,第三,Hadoop如何“打破”CAP理论,比关系型数据库更适合做数据仓库?Hadoop用数据的增加代替事务的修改,没有变更,只需要最终一致性,让Hadoop更适合大数据仓库。 在实践部分,这本书很多内容都不再适用,比如Cloudera官方不再提供免费的Ambari和CDH套件下载,Hive ORC支持增加列,所以实践部分可以关注作者解决问题的思路,实际的做法还需要结合最新的技术进展。

ㅤㅤㅤㅤㅤㅤ

7普通快递

爱染无垢

对于基础知识的掌握有必要

键盘上的钢琴家

属于横向面积大,深度浅的技术书籍,对于想了解Hadoop及数仓相关概念可以学习阅读,但是想理解原理及实现,则无法满足

路遥777

非常好的一本书

Glorious

结合Google早年发布的GFS、MapReduce、Bigtable等论文能够对大数据分布式架构的发展历程有更深入的理解

风中散发

前半部分可以做复习数仓大纲,后半部分的内容相对过时了,粗略看看即可。

大叔

浏览一遍,了解一下

笑眼看雪

比较详细,比较专业

Aurora^zbyy

总体说的比较浅显易懂,可以作为温故教材。

Laniakea

非常好的Hadoop入门科普

LU

hadoop基本组件部分讲的简明扼要,数据模型这块也还不错

Yilia Liu

特别好!

尹嵘

内容多,不够详细,适合有一定基础的同学查看。 主要是文字,可读性不是太好

前边了解行业术语 后面的代码较多

暂时没有数据