大数据分析:方法与应用

《大数据分析:方法与应用》是2013年9月清华大学出版社出版的图书,作者是王星。
本书介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具。
- 书名 大数据分析:方法与应用
- 作者 王星
- 出版社 清华大学出版社
- 出版时间 2013年9月11日
- 定价 39 元
内容简介
理论学习的目标是使学生掌握复杂数据的分析与建模;方法学习的目标是使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,工具学习的目标是使学生熟练掌握一种数据分析的语言。本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。
本书可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。
图书目录
第 1章 大数据分析概述 ....................................................................................................................1
1.1 大数据概述 ...........................................................................................................................1
1.1.1 什么是大数据 ..........................................................................................................1
1.1.2 数据、信息与认知 ..................................................................................................2
1.1.3 数据管理与数据库 ..................................................................................................5
1.1.4 数据仓库 ..................................................................................................................7
1.1.5 数据挖掘的内涵和基本特征 ..................................................................................9
1.2 数据挖掘的产生与功能 .....................................................................................................10
1.2.1 数据挖掘的历史 ....................................................................................................10
1.2.2 数据挖掘的功能 ....................................................................................................12
1.3 数据挖掘与相关领域之间的关系 .....................................................................................13
1.3.1 数据挖掘与机器学习 ............................................................................................14
1.3.2 数据挖掘与数据仓库 ............................................................................................14
1.3.3 数据挖掘与统计学 ................................................................................................15
1.3.4 数据挖掘与智能决策 ............................................................................................16
1.3.5 数据挖掘与云计算 ................................................................................................17
1.4 大数据研究方法 .................................................................................................................18
1.5 讨论题目 .............................................................................................................................19
1.6 推荐阅读 .............................................................................................................................20
第 2章 数据挖掘流程 ......................................................................................................................22
2.1 数据挖掘流程概述 .............................................................................................................22
2.1.1 问题识别 ................................................................................................................23
2.1.2 数据理解 ................................................................................................................25
2.1.3 数据准备 ................................................................................................................26
2.1.4 建立模型 ................................................................................................................27
2.1.5 模型评价 ................................................................................................................27
2.1.6 部署应用 ................................................................................................................30
2.2 离群点发现 .........................................................................................................................30
2.2.1 基于统计的离群点检测 ........................................................................................31
2.2.2 基于距离的离群点检测 ........................................................................................32
2.2.3 局部离群点算法 ....................................................................................................34
2.3 不平衡数据级联算法 .........................................................................................................36
2.4 讨论题目 .............................................................................................................................41
2.5 推荐阅读 .............................................................................................................................43
第 3章 有指导的学习 ......................................................................................................................45
3.1 有指导的学习概述 .............................................................................................................45
3.2 k-近邻..................................................................................................................................49
3.3 决策树 .................................................................................................................................51
3.3.1 决策树的基本概念 ................................................................................................51
3.3.2 分类回归树 ............................................................................................................53
3.3.3 决策树的剪枝 ........................................................................................................54
3.4 提升方法 .............................................................................................................................58
3.5 随机森林树 .........................................................................................................................63
3.5.1 随机森林树算法的定义 ........................................................................................64
3.5.2 如何确定随机森林树算法中树的节点分裂变量 ................................................64
3.5.3 随机森林树的回归算法 ........................................................................................65
3.6 人工神经网络 .....................................................................................................................68
3.6.1 人工神经网络基本概念 ........................................................................................68
3.6.2感知器算法 ............................................................................................................69
3.6.3 LMS算法...............................................................................................................72
3.6.4 反向传播算法 ........................................................................................................74
3.6.5 神经网络相关问题讨论 ........................................................................................79
3.7 支持向量机 .........................................................................................................................83
3.7.1 最大边距分类 ........................................................................................................84
3.7.2 支持向量机问题的求解 ........................................................................................85
3.7.3 支持向量机的核方法 ............................................................................................87
3.8 多元自适应回归样条 .........................................................................................................91
3.9 讨论题目 .............................................................................................................................93
3.10推荐阅读 ...........................................................................................................................95
第 4章 无指导的学习 ......................................................................................................................97
4.1关联规则 .............................................................................................................................97
4.1.1静态关联规则算法 Apriori算法 ..........................................................................98
4.1.2动态关联规则算法 Carma算法..........................................................................102
4.1.3 序列规则挖掘算法 ..............................................................................................104
4.2聚类分析 ...........................................................................................................................106
4.2.1 聚类分析的含义及作用 ......................................................................................106
4.2.2 距离的定义 ..........................................................................................................106
4.2.3 系统层次聚类法 ..................................................................................................108
4.2.4 k-均值算法 ...........................................................................................................108
4.2.5 BIRCH算法......................................................................................................... 110
4.2.6 基于密度的聚类算法 .......................................................................................... 111
4.3基于预测强度的聚类方法 ............................................................................................... 113
4.3.1 预测强度 .............................................................................................................. 115
4.3.2 预测强度方法的应用 .......................................................................................... 115
4.3.3 案例分析 .............................................................................................................. 115
4.4 聚类问题的变量选择 .......................................................................................................122
4.4.1 高斯成对罚模型聚类 ..........................................................................................122
4.4.2 各类异方差成对罚模型聚类 ..............................................................................123
4.4.3 几种聚类变量选择的比较 ..................................................................................127
4.5 讨论题目 ...........................................................................................................................128
4.6 推荐阅读 ...........................................................................................................................129
第 5章 贝叶斯分类和因果学习 ....................................................................................................130
5.1 贝叶斯分类 .......................................................................................................................130
5.2 决策论与统计决策论 .......................................................................................................132
5.2.1 决策与风险 ..........................................................................................................132
5.2.2 统计决策 ..............................................................................................................136
5.3 线性判别函数和二次判别函数 .......................................................................................138
5.4 朴素贝叶斯分类 ...............................................................................................................143
5.5 贝叶斯网络 .......................................................................................................................145
5.5.1 基本概念 ..............................................................................................................145
5.5.2 贝叶斯网络的应用 ..............................................................................................146
5.5.3 贝叶斯网络的构建 ..............................................................................................148
5.6 案例:贝叶斯网络模型在信用卡违约概率建模中的应用 ............................................155
5.7 讨论题目 ...........................................................................................................................157
5.8 推荐阅读 ...........................................................................................................................160
第 6章 高维回归及变量选择 ........................................................................................................161
6.1 线性回归模型 ...................................................................................................................161
6.2 模型选择 ...........................................................................................................................173
6.2.1 模型选择概述 ......................................................................................................174
6.2.2 偏差-方差分解.....................................................................................................179
6.2.3 模型选择准则 ......................................................................................................180
6.2.4 回归变量选择 ......................................................................................................184
6.3 广义线性模型 ...................................................................................................................188
6.3.1 二点分布回归 ......................................................................................................188
6.3.2 指数族概率分布 ..................................................................................................190
6.3.3 广义线性模型 ......................................................................................................192
6.3.4 模型估计 ..............................................................................................................193
6.3.5 模型检验与诊断 ..................................................................................................194
6.4 高维回归系数压缩 ...........................................................................................................202
6.4.1 岭回归 ..................................................................................................................203
6.4.2 LASSO.................................................................................................................204
6.4.3 Shooting算法.......................................................................................................205
6.4.4 路径算法 ..............................................................................................................207
6.4.5 其他惩罚项及 Oracle性质 ................................................................................. 211
6.4.6 软件实现 ..............................................................................................................213
6.5 总结................................................................214
6.6 讨论题目 ...........................................................................................................................214
6.7 推荐阅读 ...........................................................................................................................216
第 7章 图模型 ................................................................................................................................217
7.1 图模型基本概念和性质 ...................................................................................................218
7.1.1 图矩阵 ..................................................................................................................220
7.1.2 概率图模型概念和性质 ......................................................................................220
7.2 协方差选择 .......................................................................................................................222
7.2.1 用回归估计图模型 ..............................................................................................222
7.2.2 基于最大似然框架的方法 ..................................................................................225
7.3 指数族图模型 ...................................................................................................................229
7.3.1 基本定义 ..............................................................................................................229
7.3.2 参数估计及假设检验 ..........................................................................................231
7.4 谱聚类 ...............................................................................................................................234
7.4.1 聚类和图划分 ......................................................................................................234
7.4.2 谱聚类 ..................................................................................................................235
7.5 总结....................................................242
7.6 讨论题目 ...........................................................................................................................242
7.7 推荐阅读 ...........................................................................................................................243
第 8章 客户关系管理 ....................................................................................................................245
8.1 协同推荐模型 ...................................................................................................................245
8.1.1 基于邻域的算法 ..................................................................................................246
8.1.2 矩阵分解模型 ......................................................................................................249
8.2 客户价值随机模型 ...........................................................................................................252
8.2.1 客户价值的定义 ..................................................................................................252
8.2.2 客户价值分析模型 ..............................................................................................253
8.2.3 客户购买状态转移矩阵 ......................................................................................254
8.2.4 利润矩阵 ..............................................................................................................257
8.2.5 客户价值的计算 ..................................................................................................259
8.3 案例:银行卡消费客户价值模型 ...................................................................................259
8.4 推荐阅读 ...........................................................................................................................265
第 9章 社会网络分析 ....................................................................................................................266
9.1 社会网络概述 ...................................................................................................................266
9.1.1 社会网络概念与发展 ..........................................................................................266
9.1.2 社会网络的基本特征 ..........................................................................................269
9.1.3 社群挖掘算法 ......................................................................................................271
9.1.4 模型的评价 ..........................................................................................................272
9.2 案例:社会网络在学术机构合作关系上的研究 ...........................................................273
9.3讨论题目 ...........................................................................................................................278
9.4推荐阅读 ...........................................................................................................................278
附录 A 本章 R程序 ...............................................................................................................279
第 10章 自然语言模型和文本挖掘 ..............................................................................................281
10.1向量空间模型 .................................................................................................................282
10.1.1向量空间模型基本概念 ..................................................................................282
10.1.2特征选择准则 ..................................................................................................283
10.2统计语言模型 .................................................................................................................284
10.2.1 n-gram模型 .....................................................................................................284
10.2.2 主题 n-元模型..................................................................................................286
10.3 LDA模型........................................................................................................................287
10.4 案例: LDA模型的热点新闻发现 ................................................................................290
10.5推荐阅读 ....................................................................................................................293