百道网
 您现在的位置:Fun书 > 预测分析:R语言实现
预测分析:R语言实现


预测分析:R语言实现

作  者:(英)鲁伊·米格尔·福特(Rui Miguel Forte)

译  者:吴今朝

出 版 社:机械工业出版社

丛 书:数据科学与工程技术丛书

出版时间:2017年01月

定  价:59.00

I S B N :9787111553540

所属分类: 专业科技  >  计算机/网络  >  程序设计    

标  签:程序设计  计算机/网络  其他  

[查看微博评论]

分享到:

TOP内容简介

R提供了一个免费、开源的环境,这对于学习预测建模以及在真实环境下部署解决方案是很理想的。随着不断增长的社区和大量扩展包的出现,R提供了一个应对一系列问题的切实解决方案。本书可以作为学习预测建模基础知识的指南和参考读物。本书的开篇是关于模型术语和预测建模过程的一个专门章节。后续的每个章节会讲解具体的一类模型(例如神经网络),并把重点放在三个重要问题上:模型如何工作,如何利用R语言训练模型,以及如何利用实际环境下的数据集来衡量和评估模型的性能。通过阅读本书,读者将利用实际环境下的数据集探讨和测试流行的建模技术,并掌握多种预测分析领域的技术。

TOP作者简介

作者:(希)鲁伊·米格尔·福特 译者:吴今朝

鲁伊·米格尔·福特(Rui Miguel Forte)是Workable公司的首席数据科学家。他是土生土长的希腊人,后留学于英国。他是一位经验丰富的数据科学家,有超过10年的工作经验,覆盖了移动市场、健康信息学、教育科技和人力资源技术等多种行业。他负责的项目包括移动市场营销中的用户行为预测建模,智能教学系统中对发言者意图的识别,用于工作申请简历的信息提取技术,以及针对工作诈骗的欺诈检测等。目前,他在雅典经济与商业大学为商业分析硕士班的研究生讲授R语言、MongoDB和其他数据科学方面的技术。


TOP目录

译者序

前 言

第1章 准备预测建模1

1.1 模型1

1.1.1 从数据中学习2

1.1.2 模型的核心组成部分5

1.1.3 我们的第一个模型:k近邻5

1.2 模型的类型7

1.2.1 有监督、无监督、半监督和强化学习模型7

1.2.2 参数化和非参数化模型8

1.2.3 回归和分类模型8

1.2.4 实时和批处理机器学习模型9

1.3 预测建模的过程9

1.3.1 定义模型的目标9

1.3.2 收集数据10

1.3.3 选取模型11

1.3.4 数据的预处理12

1.3.5 特征工程和降维19

1.3.6 训练和评估模型22

1.3.7 重复尝试不同模型及模型的最终选择25

1.3.8 部署模型25

1.4 性能衡量指标25

1.4.1 评估回归模型26

1.4.2 评估分类模型26

1.5 小结30

第2章 线性回归31

2.1 线性回归入门31

2.2 简单线性回归33

2.3 多元线性回归36

2.3.1 预测CPU性能37

2.3.2 预测二手汽车的价格38

2.4 评估线性回归模型40

2.4.1 残差分析42

2.4.2 线性回归的显著性检验45

2.4.3 线性回归的性能衡量指标47

2.4.4 比较不同的回归模型49

2.4.5 在测试集上的性能50

2.5 线性回归的问题51

2.5.1 多重共线性51

2.5.2 离群值52

2.6 特征选择53

2.7 正则化55

2.7.1 岭回归55

2.7.2 最小绝对值收缩和选择算子56

2.7.3 在R语言里实现正则化57

2.8 小结59

第3章 逻辑回归61

3.1 利用线性回归进行分类61

3.2 逻辑回归入门63

3.2.1 广义线性模型63

3.2.2 解释逻辑回归中的系数64

3.2.3 逻辑回归的假设65

3.2.4 最大似然估计65

3.3 预测心脏病66

3.4 评估逻辑回归模型69

3.4.1 模型的偏差70

3.4.2 测试集的性能73

3.5 利用lasso进行正则化73

3.6 分类指标74

3.7 二元逻辑分类器的扩展76

3.7.1 多元逻辑回归76

3.7.2 有序逻辑回归80

3.8 小结83

第4章 神经网络84

4.1 生物神经元84

4.2 人工神经元85

4.3 随机梯度下降86

4.3.1 梯度下降和局部极小值88

4.3.2 感知器算法88

4.3.3 线性分离91

4.3.4 逻辑神经元92

4.4 多层感知器网络92

4.5 预测建筑物的能源效率95

4.6 重新进行玻璃类型预测99

4.7 预测手写数字102

4.8 小结106

第5章 支持向量机108

5.1 最大边缘分类108

5.2 支持向量分类111

5.3 核和支持向量机113

5.4 预测化学品的生物降解115

5.5 交叉验证118

5.6 预测信用评分120

5.7 用支持向量机进行多类别分类123

5.8 小结123

第6章 树形方法124

6.1 树形模型的直观印象124

6.2 训练决策树的算法126

6.2.1 分类和回归树126

6.2.2 回归模型树131

6.2.3 CART分类树131

6.2.4 C5.0133

6.3 在合成的二维数据上预测类别归属关系134

6.4 预测纸币的真实性136

6.5 预测复杂的技能学习138

6.5.1 在CART树里对模型参数进行调优140

6.5.2 树模型中的变量重要性141

6.5.3 回归模型树实用示例142

6.6 小结143

第7章 集成方法144

7.1 装袋144

7.1.1 边缘和袋外观测数据145

7.1.2 用装袋预测复杂技能学习146

7.1.3 用装袋预测心脏病146

7.1.4 装袋的局限性150

7.2 增强151

7.3 预测大气中伽马射线的辐射152

7.4 利用增强算法预测复杂技能学习156

7.5 随机森林157

7.6 小结159

第8章 概率图模型161

8.1 图论入门161

8.2 贝叶斯定理163

8.3 条件性独立163

8.4 贝叶斯网络164

8.5 朴素贝叶斯分类器165

8.6 隐马尔可夫模型172

8.7 预测启动子基因序列174

8.8 预测英语单词里的字母特征179

8.9 小结182

第9章 时间序列分析184

9.1 时间序列的基本概念184

9.2 一些基本的时间序列185

9.2.1 白噪声185

9.2.2 随机漫步187

9.3 平稳性188

9.4 平稳时间序列模型189

9.4.1 移动平均模型189

9.4.2 自回归模型192

9.4.3 自回归移动平均模型193

9.5 非平稳时间序列模型194

9.5.1 整合自回归移动平均模型194

9.5.2 自回归条件异方差模型195

9.5.3 广义自回归条件异方差模型195

9.6 预测强烈地震196

9.7 预测猞猁的诱捕199

9.8 预测外汇汇率200

9.9 其他时间序列模型202

9.10 小结203

第10章 主题建模204

10.1 主题建模概况204

10.2 隐含狄式分布205

10.2.1 狄式分布205

10.2.2 生成过程208

10.2.3 拟合LDA模型209

10.3 对在线新闻报道的主题进行建模210

10.3.1 模型稳定性215

10.3.2 找出主题数量216

10.3.3 主题分布217

10.3.4 单词分布219

10.3.5 LDA扩展模型220

10.4 小结220

第11章 推荐系统222

11.1 评分矩阵222

11.2 协同过滤225

11.2.1 基于用户的协同过滤225

11.2.2 基于商品的协同过滤228

11.3 奇异值分解228

11.4 R语言和大数据231

11.5 预测电影和笑话的推荐232

11.6 加载和预处理数据233

11.7 对数据进行探索234

11.7.1 评估二元的top-N推荐236

11.7.2 评估非二元的top -N推荐239

11.7.3 评估每种预测方法241

11.8 推荐系统的其他方法242

11.9 小结243

TOP书摘

TOP 其它信息

装  帧:平装-胶订

页  数:243

开  本:16开

纸  张:胶版纸

加载页面用时:144.0264