《大数据浪潮——大数据整体解决方案及关键技术探索》是华中科大出版社出版的,由陈敏等人编着的一本在大数据学科发展前沿和大数据产业发展方向上,结合学术界和工业界的研究成果和实践经验,传播大数据领域的研究动态和先进技术。全书通过“基础、进阶、实战、套用”四个篇章,既深入浅出地介绍大数据的基本概念,又面面俱到地剖析了大数据整体解决方案所涉及的具体技术细节。本书既适合初学者作为基础学习资料,又适合科研人员作为理论研究教程,更适合从业人员作为技术参考书目。
基本介绍
- 书名:大数据浪潮——大数据整体解决方案及关键技术探索
- 作者:陈敏等
- ISBN:978-7-5680-1270-6
- 类别:大数据和数据仓库
- 页数:251
- 定价:43
- 出版社:华中科大出版社出版
- 出版时间:2015.11
- 装帧:平装
- 开本:16
内容简介
前言步入21世纪以来,各领域的数据都呈现爆炸式的增长,对数据的管理和分析已成为人类面临的巨大的挑战。如今,工业界、研究界甚至政府部门都对大数据这一研究领域产生了巨大的兴趣。《自然》、《科学》等国际知名杂誌也分别开设了专栏,用来讨论大数据带来的挑战和重要性。在过去的几年中,几乎所有主要的工业公司,其中包括EMC、甲骨文(Oracle)、IBM、微软、谷歌、亚马逊和Facebook等,都开始发展自己的大数据项目。随着大数据产业的蓬勃发展,数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素,创造着巨大的社会和经济价值。在我国政府发布的“十二五”规划中,信息处理技术作为四项关键技术创新工程之一被不断提出,其中包括了海量数据存储、数据挖掘、图像视频智慧型分析,这些都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。在科技部发布的《“十二五”国家科技计画信息技术领域2013年度备选项目徵集指南》中的“先进计算”板块已明确提出,重点发展“面向大数据的先进存储结构及关键技术”。在“十二五”收官之际,本书通过“基础、进阶、实战、套用”四个篇章共十五个章节,全面总结了过去五年中在大数据领域涌现的关键技术和典型套用,回顾大数据在我国从概念走向实践的发展历程,激励更多人才参与发展大数据这一国家战略中来,促进数据资源成为带动我国经济成长的新的要素。本书是国内第一本产学研合作,介绍大数据研究热点和技术难点的图书,它全方位解读了该领域的现状、趋势及挑战。本书详细介绍了大数据的生命周期、关键技术及套用领域,并突出强调了大数据整体解决方案的重要性。无论传统的数据仓库技术,还是新兴的分散式处理技术等方案都有特定的短板,无法满足大数据对于基础设施扩展性,数据处理个性化、多样性和一体化等方面的需求。因此,本书总结工业界和学术界多年实践经验,结合网际网路、开源社区和大数据厂商多年的研究成果,融入作者对大数据的理解和分析,提出大数据解决方案参考模型,填补大数据领域目前尚未形成完善标準体系这一技术空白。本书内容由笔者多年的研究工作整理而成!在成书的过程中得到华中科技大学出版社王红梅编辑的大力支持,在此表示诚挚的感谢。本书在编写过程中广泛参考了许多专家、学者的文章、着作以及相关技术文献。笔者在此一併表示衷心感谢。由于水平有限,书中存在缺点、错误在所难免。恳请广大读者批评指正。

目录信息
1大数据背景(8)
1.1大数据时代的到来(8)
1.2大数据定义及特徵(4)
1.3大数据价值(6)
1.4大数据备受关注(7)
1.5大数据带来的挑战(8)
2大数据基础(10)
2.1云计算(10)
2.1.1云计算概述(10)
2.1.2云计算与大数据的联繫(12)
2.2物联网(13)
2.2.1物联网概述(13)
2.2.2物联网与大数据(14)
2.3数据中心(14)
2.3.1数据中心概述(14)
2.3.2数据中心与大数据(15)
3大数据的生成和採集(19)
3.1大数据生成(19)
3.1.1企业内部数据(19)
3.1.2物联网数据(20)
3.1.3网际网路数据(21)
3.1.4生物医疗数据(21)
3.1.5其他科学数据(22)
3.2大数据採集(22)
3.2.1数据收集(23)
3.2.2数据传输(25)
3.2.3数据预处理(26)
4大数据存储(28)
4.1海量存储系统(28)
4.2分散式存储系统(29)
4.3大数据存储机制(31)
4.3.1资料库技术(32)
4.3.2资料库编程模型(36)
5大数据分析(39)
5.1传统数据分析方法(39)
5.2大数据分析方法(40)
5.3大数据分析架构(42)
5.4大数据挖掘和分析软体(43)
大数据浪潮——大数据整体解决方案及关键技术探索目录6大数据整体解决方案(47)
6.1大数据解决方案方法论(47)
6.1.1大数据解决方案参考模型(48)
6.1.2大数据解决方案分类(49)
6.2大数据硬体平台(50)
6.2.1可扩展性设计(51)
6.2.2可定製性设计(52)
6.3大数据软体系统(55)
6.3.1大数据处理系统核心模组(55)
6.3.2发行版增强功能、企业套用最佳化和增值服务(56)
6.3.3基于记忆体计算的大数据处理系统(60)
6.4大数据典型处理流程(63)
6.5大数据一体化解决方案比较(67)
7分散式档案系统HDFS(72)
7.1Hadoop I/O操作(72)
7.1.1I/O操作中的数据检查(73)
7.1.2数据的压缩(76)
7.1.3数据的I/O中序列化操作(78)
7.2Hadoop档案系统(87)
7.3HDFS体系结构(89)
7.3.1HDFS的特点和局限(89)
7.3.2HDFS相关概念(90)
7.3.3HDFS架构(91)
7.4 HDFS档案结构(94)
7.4.1NameNode的档案结构(94)
7.4.2编辑日誌(edit log)及档案系统映像(filesystem image)(95)
7.4.3Secondary NameNode的目录结构(96)
7.4.4DataNode的目录结构(97)
7.5HDFS读/写数据流(98)
7.5.1档案的读取(98)
7.5.2档案的写入(99)
7.5.3一致性模型(101)
7.6HDFS命令详解(102)
7.6.1通过distcp进行并行複製(102)
7.6.2HDFS平衡(103)
7.6.3其他命令(103)
8并行编程模型MapReduce(108)
8.1MapReduce体系结构(108)
8.1.1MapReduce基本模型(108)
8.1.2MapReduce作业执行流程(108)
8.2MapReduce关键流程详解(110)
8.2.1partiton过程(110)
8.2.2combine过程(111)
8.2.3shuffle过程(112)
8.3MapReduce高级套用(114)
8.3.1二次排序(114)
8.3.2全排序(119)
8.3.3分散式快取(121)
8.3.4MapReduce 小档案处理与档案压缩(123)
8.3.5MapReduce负载均衡(125)
9NoSQL资料库HBase(128)
9.1HBase体系结构(128)
9.2RowKey的设计与数据访问(132)
9.3过滤器(135)
9.3.1比较过滤器(137)
9.3.2专用过滤器(137)
9.3.3附加过滤器(139)
9.3.4FilterList(139)
9.3.5自定义过滤器(140)
9.4HBase多维数据访问(142)
9.4.1通过Filter实现(142)
9.4.2通过设计RowKey实现(143)
9.5协处理器Coprocessor(143)
9.5.1Coprocessor类(144)
9.5.2协处理器的载入(144)
9.5.3观察者(146)
9.5.4终端(150)
9.6二级索引(154)
9.6.1全局索引(global index)(154)
9.6.2本地索引(local index)(155)
10互动式查询语言Hive(157)
10.1Hive体系结构(157)
10.1.1Hive客户端(159)
10.1.2Metastore(159)
10.2Hive数据类型(160)
10.2.1基本类型(161)
10.2.2複杂类型(161)
10.3Hive存储方式和压缩类型(162)
10.3.1託管表和外部表(162)
10.3.2存储方式(163)
10.4Hive关键技术(164)
10.4.1HiveQL简介(164)
10.4.2Hive表的创建(165)
10.4.3Hive表的数据载入(166)
10.4.4Hive表的查询(167)
10.4.5Hive表的更改(170)
10.4.6Hive表的删除(171)
10.4.7Hive表的分区(171)
10.4.8Hive表的分桶(173)
10.4.9用户定义函式(174)
10.5Hive最佳化技术(175)
10.5.1Join最佳化(175)
10.5.2数据倾斜最佳化(176)
10.5.3Map和Reduce个数控制(177)
11资源管理和调度框架——YARN(180)
11.1MRv1架构面临的问题(180)
11.2YARN架构(181)
11.2.1YARN整体架构(181)
11.2.2RM组件的作用(183)
11.2.3AM组件的作用(184)
11.2.4NM组件的作用(185)
11.2.5运行在YARN上的计算框架(186)
11.2.6在YARN上定製计算框架(187)
11.3YARN管理后台简介(188)
11.4YARN资源调度(192)
12记忆体计算引擎Spark(197)
12.1Spark简介(197)
12.2Spark整体架构(198)
12.3Spark核心概念(199)
12.3.1弹性分散式数据集(199)
12.3.2RDD模型的优点(200)
12.3.3Spark DAG(201)
12.4Spark编程模型(202)
12.4.1Spark初始化(203)
12.4.2RDDs(203)
12.4.3Shared Variables(205)
12.5Spark相关组件(207)
12.6Spark套用实例(208)
12.6.1InMemory Analytics(208)
12.6.2Traffic Modeling(209)
12.6.3Twitter Spam Classification (209)
13大数据套用(213)
13.1大数据套用演化(213)
13.2大数据分析的关键领域(214)
13.2.1结构化数据分析(214)
13.2.2文本分析(215)
13.2.3Web分析(216)
13.2.4多媒体分析(217)
13.2.5网路分析(218)
13.2.6移动分析(219)
14大数据案例分析(221)
14.1物联网大数据(221)
14.1.1物联网大数据的表示(222)
14.1.2物联网大数据的预处理(223)
14.1.3物联网大数据的快速处理(224)
14.1.4物联网大数据的并行分析(226)
14.1.5物联网大数据处理平台的搭建(227)
14.2其他大数据的典型套用(231)
14.2.1企业级套用(231)
14.2.2社交网路大数据(232)
14.2.3医疗健康(234)
14.2.4群智感知(235)
14.2.5智慧型电网(235)
15总结(237)
15.1大数据的研究热点及研究方向(237)
15.1.1基础理论研究(237)
15.1.2关键技术研究(238)
15.1.3套用实践研究(238)
15.1.4数据安全研究(239)
15.2展望(240)
参考文献(243)
1.1大数据时代的到来(8)
1.2大数据定义及特徵(4)
1.3大数据价值(6)
1.4大数据备受关注(7)
1.5大数据带来的挑战(8)
2大数据基础(10)
2.1云计算(10)
2.1.1云计算概述(10)
2.1.2云计算与大数据的联繫(12)
2.2物联网(13)
2.2.1物联网概述(13)
2.2.2物联网与大数据(14)
2.3数据中心(14)
2.3.1数据中心概述(14)
2.3.2数据中心与大数据(15)
3大数据的生成和採集(19)
3.1大数据生成(19)
3.1.1企业内部数据(19)
3.1.2物联网数据(20)
3.1.3网际网路数据(21)
3.1.4生物医疗数据(21)
3.1.5其他科学数据(22)
3.2大数据採集(22)
3.2.1数据收集(23)
3.2.2数据传输(25)
3.2.3数据预处理(26)
4大数据存储(28)
4.1海量存储系统(28)
4.2分散式存储系统(29)
4.3大数据存储机制(31)
4.3.1资料库技术(32)
4.3.2资料库编程模型(36)
5大数据分析(39)
5.1传统数据分析方法(39)
5.2大数据分析方法(40)
5.3大数据分析架构(42)
5.4大数据挖掘和分析软体(43)
大数据浪潮——大数据整体解决方案及关键技术探索目录6大数据整体解决方案(47)
6.1大数据解决方案方法论(47)
6.1.1大数据解决方案参考模型(48)
6.1.2大数据解决方案分类(49)
6.2大数据硬体平台(50)
6.2.1可扩展性设计(51)
6.2.2可定製性设计(52)
6.3大数据软体系统(55)
6.3.1大数据处理系统核心模组(55)
6.3.2发行版增强功能、企业套用最佳化和增值服务(56)
6.3.3基于记忆体计算的大数据处理系统(60)
6.4大数据典型处理流程(63)
6.5大数据一体化解决方案比较(67)
7分散式档案系统HDFS(72)
7.1Hadoop I/O操作(72)
7.1.1I/O操作中的数据检查(73)
7.1.2数据的压缩(76)
7.1.3数据的I/O中序列化操作(78)
7.2Hadoop档案系统(87)
7.3HDFS体系结构(89)
7.3.1HDFS的特点和局限(89)
7.3.2HDFS相关概念(90)
7.3.3HDFS架构(91)
7.4 HDFS档案结构(94)
7.4.1NameNode的档案结构(94)
7.4.2编辑日誌(edit log)及档案系统映像(filesystem image)(95)
7.4.3Secondary NameNode的目录结构(96)
7.4.4DataNode的目录结构(97)
7.5HDFS读/写数据流(98)
7.5.1档案的读取(98)
7.5.2档案的写入(99)
7.5.3一致性模型(101)
7.6HDFS命令详解(102)
7.6.1通过distcp进行并行複製(102)
7.6.2HDFS平衡(103)
7.6.3其他命令(103)
8并行编程模型MapReduce(108)
8.1MapReduce体系结构(108)
8.1.1MapReduce基本模型(108)
8.1.2MapReduce作业执行流程(108)
8.2MapReduce关键流程详解(110)
8.2.1partiton过程(110)
8.2.2combine过程(111)
8.2.3shuffle过程(112)
8.3MapReduce高级套用(114)
8.3.1二次排序(114)
8.3.2全排序(119)
8.3.3分散式快取(121)
8.3.4MapReduce 小档案处理与档案压缩(123)
8.3.5MapReduce负载均衡(125)
9NoSQL资料库HBase(128)
9.1HBase体系结构(128)
9.2RowKey的设计与数据访问(132)
9.3过滤器(135)
9.3.1比较过滤器(137)
9.3.2专用过滤器(137)
9.3.3附加过滤器(139)
9.3.4FilterList(139)
9.3.5自定义过滤器(140)
9.4HBase多维数据访问(142)
9.4.1通过Filter实现(142)
9.4.2通过设计RowKey实现(143)
9.5协处理器Coprocessor(143)
9.5.1Coprocessor类(144)
9.5.2协处理器的载入(144)
9.5.3观察者(146)
9.5.4终端(150)
9.6二级索引(154)
9.6.1全局索引(global index)(154)
9.6.2本地索引(local index)(155)
10互动式查询语言Hive(157)
10.1Hive体系结构(157)
10.1.1Hive客户端(159)
10.1.2Metastore(159)
10.2Hive数据类型(160)
10.2.1基本类型(161)
10.2.2複杂类型(161)
10.3Hive存储方式和压缩类型(162)
10.3.1託管表和外部表(162)
10.3.2存储方式(163)
10.4Hive关键技术(164)
10.4.1HiveQL简介(164)
10.4.2Hive表的创建(165)
10.4.3Hive表的数据载入(166)
10.4.4Hive表的查询(167)
10.4.5Hive表的更改(170)
10.4.6Hive表的删除(171)
10.4.7Hive表的分区(171)
10.4.8Hive表的分桶(173)
10.4.9用户定义函式(174)
10.5Hive最佳化技术(175)
10.5.1Join最佳化(175)
10.5.2数据倾斜最佳化(176)
10.5.3Map和Reduce个数控制(177)
11资源管理和调度框架——YARN(180)
11.1MRv1架构面临的问题(180)
11.2YARN架构(181)
11.2.1YARN整体架构(181)
11.2.2RM组件的作用(183)
11.2.3AM组件的作用(184)
11.2.4NM组件的作用(185)
11.2.5运行在YARN上的计算框架(186)
11.2.6在YARN上定製计算框架(187)
11.3YARN管理后台简介(188)
11.4YARN资源调度(192)
12记忆体计算引擎Spark(197)
12.1Spark简介(197)
12.2Spark整体架构(198)
12.3Spark核心概念(199)
12.3.1弹性分散式数据集(199)
12.3.2RDD模型的优点(200)
12.3.3Spark DAG(201)
12.4Spark编程模型(202)
12.4.1Spark初始化(203)
12.4.2RDDs(203)
12.4.3Shared Variables(205)
12.5Spark相关组件(207)
12.6Spark套用实例(208)
12.6.1InMemory Analytics(208)
12.6.2Traffic Modeling(209)
12.6.3Twitter Spam Classification (209)
13大数据套用(213)
13.1大数据套用演化(213)
13.2大数据分析的关键领域(214)
13.2.1结构化数据分析(214)
13.2.2文本分析(215)
13.2.3Web分析(216)
13.2.4多媒体分析(217)
13.2.5网路分析(218)
13.2.6移动分析(219)
14大数据案例分析(221)
14.1物联网大数据(221)
14.1.1物联网大数据的表示(222)
14.1.2物联网大数据的预处理(223)
14.1.3物联网大数据的快速处理(224)
14.1.4物联网大数据的并行分析(226)
14.1.5物联网大数据处理平台的搭建(227)
14.2其他大数据的典型套用(231)
14.2.1企业级套用(231)
14.2.2社交网路大数据(232)
14.2.3医疗健康(234)
14.2.4群智感知(235)
14.2.5智慧型电网(235)
15总结(237)
15.1大数据的研究热点及研究方向(237)
15.1.1基础理论研究(237)
15.1.2关键技术研究(238)
15.1.3套用实践研究(238)
15.1.4数据安全研究(239)
15.2展望(240)
参考文献(243)