当前位置首页 > 百科资料> 正文

大数据分析:方法与应用

2022-07-14 00:19:33 百科资料

《大数据分析:方法与应用》是2013年9月清华大学出版社出版的图书,作者是王星。

本书介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具。

  • 书名 大数据分析:方法与应用
  • 作者 王星
  • 出版社 清华大学出版社
  • 出版时间 2013年9月11日
  • 定价 39 元

内容简介

  理论学习的目标是使学生掌握复杂数据的分析与建模;方法学习的目标是使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,工具学习的目标是使学生熟练掌握一种数据分析的语言。本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。

  本书可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。

图书目录

  第 1章 大数据分析概述 ....................................................................................................................1

  1.1 大数据概述 ...........................................................................................................................1

  1.1.1 什么是大数据 ..........................................................................................................1

  1.1.2 数据、信息与认知 ..................................................................................................2

  1.1.3 数据管理与数据库 ..................................................................................................5

  1.1.4 数据仓库 ..................................................................................................................7

  1.1.5 数据挖掘的内涵和基本特征 ..................................................................................9

  1.2 数据挖掘的产生与功能 .....................................................................................................10

  1.2.1 数据挖掘的历史 ....................................................................................................10

  1.2.2 数据挖掘的功能 ....................................................................................................12

  1.3 数据挖掘与相关领域之间的关系 .....................................................................................13

  1.3.1 数据挖掘与机器学习 ............................................................................................14

  1.3.2 数据挖掘与数据仓库 ............................................................................................14

  1.3.3 数据挖掘与统计学 ................................................................................................15

  1.3.4 数据挖掘与智能决策 ............................................................................................16

  1.3.5 数据挖掘与云计算 ................................................................................................17

  1.4 大数据研究方法 .................................................................................................................18

  1.5 讨论题目 .............................................................................................................................19

  1.6 推荐阅读 .............................................................................................................................20

  第 2章 数据挖掘流程 ......................................................................................................................22

  2.1 数据挖掘流程概述 .............................................................................................................22

  2.1.1 问题识别 ................................................................................................................23

  2.1.2 数据理解 ................................................................................................................25

  2.1.3 数据准备 ................................................................................................................26

  2.1.4 建立模型 ................................................................................................................27

  2.1.5 模型评价 ................................................................................................................27

  2.1.6 部署应用 ................................................................................................................30

  2.2 离群点发现 .........................................................................................................................30

  2.2.1 基于统计的离群点检测 ........................................................................................31

  2.2.2 基于距离的离群点检测 ........................................................................................32

  2.2.3 局部离群点算法 ....................................................................................................34

  2.3 不平衡数据级联算法 .........................................................................................................36

  2.4 讨论题目 .............................................................................................................................41

  2.5 推荐阅读 .............................................................................................................................43

  第 3章 有指导的学习 ......................................................................................................................45

  3.1 有指导的学习概述 .............................................................................................................45

  3.2 k-近邻..................................................................................................................................49

  3.3 决策树 .................................................................................................................................51

  3.3.1 决策树的基本概念 ................................................................................................51

  3.3.2 分类回归树 ............................................................................................................53

  3.3.3 决策树的剪枝 ........................................................................................................54

  3.4 提升方法 .............................................................................................................................58

  3.5 随机森林树 .........................................................................................................................63

  3.5.1 随机森林树算法的定义 ........................................................................................64

  3.5.2 如何确定随机森林树算法中树的节点分裂变量 ................................................64

  3.5.3 随机森林树的回归算法 ........................................................................................65

  3.6 人工神经网络 .....................................................................................................................68

  3.6.1 人工神经网络基本概念 ........................................................................................68

  3.6.2感知器算法 ............................................................................................................69

  3.6.3 LMS算法...............................................................................................................72

  3.6.4 反向传播算法 ........................................................................................................74

  3.6.5 神经网络相关问题讨论 ........................................................................................79

  3.7 支持向量机 .........................................................................................................................83

  3.7.1 最大边距分类 ........................................................................................................84

  3.7.2 支持向量机问题的求解 ........................................................................................85

  3.7.3 支持向量机的核方法 ............................................................................................87

  3.8 多元自适应回归样条 .........................................................................................................91

  3.9 讨论题目 .............................................................................................................................93

  3.10推荐阅读 ...........................................................................................................................95

  第 4章 无指导的学习 ......................................................................................................................97

  4.1关联规则 .............................................................................................................................97

  4.1.1静态关联规则算法 Apriori算法 ..........................................................................98

  4.1.2动态关联规则算法 Carma算法..........................................................................102

  4.1.3 序列规则挖掘算法 ..............................................................................................104

  4.2聚类分析 ...........................................................................................................................106

  4.2.1 聚类分析的含义及作用 ......................................................................................106

  4.2.2 距离的定义 ..........................................................................................................106

  4.2.3 系统层次聚类法 ..................................................................................................108

  4.2.4 k-均值算法 ...........................................................................................................108

  4.2.5 BIRCH算法......................................................................................................... 110

  4.2.6 基于密度的聚类算法 .......................................................................................... 111

  4.3基于预测强度的聚类方法 ............................................................................................... 113

  4.3.1 预测强度 .............................................................................................................. 115

  4.3.2 预测强度方法的应用 .......................................................................................... 115

  4.3.3 案例分析 .............................................................................................................. 115

  4.4 聚类问题的变量选择 .......................................................................................................122

  4.4.1 高斯成对罚模型聚类 ..........................................................................................122

  4.4.2 各类异方差成对罚模型聚类 ..............................................................................123

  4.4.3 几种聚类变量选择的比较 ..................................................................................127

  4.5 讨论题目 ...........................................................................................................................128

  4.6 推荐阅读 ...........................................................................................................................129

  第 5章 贝叶斯分类和因果学习 ....................................................................................................130

  5.1 贝叶斯分类 .......................................................................................................................130

  5.2 决策论与统计决策论 .......................................................................................................132

  5.2.1 决策与风险 ..........................................................................................................132

  5.2.2 统计决策 ..............................................................................................................136

  5.3 线性判别函数和二次判别函数 .......................................................................................138

  5.4 朴素贝叶斯分类 ...............................................................................................................143

  5.5 贝叶斯网络 .......................................................................................................................145

  5.5.1 基本概念 ..............................................................................................................145

  5.5.2 贝叶斯网络的应用 ..............................................................................................146

  5.5.3 贝叶斯网络的构建 ..............................................................................................148

  5.6 案例:贝叶斯网络模型在信用卡违约概率建模中的应用 ............................................155

  5.7 讨论题目 ...........................................................................................................................157

  5.8 推荐阅读 ...........................................................................................................................160

  第 6章 高维回归及变量选择 ........................................................................................................161

  6.1 线性回归模型 ...................................................................................................................161

  6.2 模型选择 ...........................................................................................................................173

  6.2.1 模型选择概述 ......................................................................................................174

  6.2.2 偏差-方差分解.....................................................................................................179

  6.2.3 模型选择准则 ......................................................................................................180

  6.2.4 回归变量选择 ......................................................................................................184

  6.3 广义线性模型 ...................................................................................................................188

  6.3.1 二点分布回归 ......................................................................................................188

  6.3.2 指数族概率分布 ..................................................................................................190

  6.3.3 广义线性模型 ......................................................................................................192

  6.3.4 模型估计 ..............................................................................................................193

  6.3.5 模型检验与诊断 ..................................................................................................194

  6.4 高维回归系数压缩 ...........................................................................................................202

  6.4.1 岭回归 ..................................................................................................................203

  6.4.2 LASSO.................................................................................................................204

  6.4.3 Shooting算法.......................................................................................................205

  6.4.4 路径算法 ..............................................................................................................207

  6.4.5 其他惩罚项及 Oracle性质 ................................................................................. 211

  6.4.6 软件实现 ..............................................................................................................213

  6.5 总结................................................................214

  6.6 讨论题目 ...........................................................................................................................214

  6.7 推荐阅读 ...........................................................................................................................216

  第 7章 图模型 ................................................................................................................................217

  7.1 图模型基本概念和性质 ...................................................................................................218

  7.1.1 图矩阵 ..................................................................................................................220

  7.1.2 概率图模型概念和性质 ......................................................................................220

  7.2 协方差选择 .......................................................................................................................222

  7.2.1 用回归估计图模型 ..............................................................................................222

  7.2.2 基于最大似然框架的方法 ..................................................................................225

  7.3 指数族图模型 ...................................................................................................................229

  7.3.1 基本定义 ..............................................................................................................229

  7.3.2 参数估计及假设检验 ..........................................................................................231

  7.4 谱聚类 ...............................................................................................................................234

  7.4.1 聚类和图划分 ......................................................................................................234

  7.4.2 谱聚类 ..................................................................................................................235

  7.5 总结....................................................242

  7.6 讨论题目 ...........................................................................................................................242

  7.7 推荐阅读 ...........................................................................................................................243

  第 8章 客户关系管理 ....................................................................................................................245

  8.1 协同推荐模型 ...................................................................................................................245

  8.1.1 基于邻域的算法 ..................................................................................................246

  8.1.2 矩阵分解模型 ......................................................................................................249

  8.2 客户价值随机模型 ...........................................................................................................252

  8.2.1 客户价值的定义 ..................................................................................................252

  8.2.2 客户价值分析模型 ..............................................................................................253

  8.2.3 客户购买状态转移矩阵 ......................................................................................254

  8.2.4 利润矩阵 ..............................................................................................................257

  8.2.5 客户价值的计算 ..................................................................................................259

  8.3 案例:银行卡消费客户价值模型 ...................................................................................259

  8.4 推荐阅读 ...........................................................................................................................265

  第 9章 社会网络分析 ....................................................................................................................266

  9.1 社会网络概述 ...................................................................................................................266

  9.1.1 社会网络概念与发展 ..........................................................................................266

  9.1.2 社会网络的基本特征 ..........................................................................................269

  9.1.3 社群挖掘算法 ......................................................................................................271

  9.1.4 模型的评价 ..........................................................................................................272

  9.2 案例:社会网络在学术机构合作关系上的研究 ...........................................................273

  9.3讨论题目 ...........................................................................................................................278

  9.4推荐阅读 ...........................................................................................................................278

  附录 A 本章 R程序 ...............................................................................................................279

  第 10章 自然语言模型和文本挖掘 ..............................................................................................281

  10.1向量空间模型 .................................................................................................................282

  10.1.1向量空间模型基本概念 ..................................................................................282

  10.1.2特征选择准则 ..................................................................................................283

  10.2统计语言模型 .................................................................................................................284

  10.2.1 n-gram模型 .....................................................................................................284

  10.2.2 主题 n-元模型..................................................................................................286

  10.3 LDA模型........................................................................................................................287

  10.4 案例: LDA模型的热点新闻发现 ................................................................................290

  10.5推荐阅读 ....................................................................................................................293

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net