百道网
 您现在的位置:Fun书 > Python商业数据挖掘(第6版)
Python商业数据挖掘(第6版)


Python商业数据挖掘(第6版)

作  者:[美]盖丽特·徐茉莉(Galit Shmueli) 等 著

译  者:吴文国 金柏琪 译

出 版 社:清华大学出版社

出版时间:2021年11月

定  价:118.00

I S B N :9787302590248

所属分类: 专业科技  >  计算机/网络  >  程序设计    

标  签:

[查看微博评论]

分享到:

TOP内容简介

  本书前5版好评如潮,作为第6版,本书首次使用了Python语言。本书除了介绍用于统计和机器学习等领域的预测、分类、可视化、降维、推荐系统、聚类、文本挖掘、网络分析等方法之外,内容还包括:

● 新加入的合著者Peter Gedeck拥有使用Python讲解商业分析课程的丰富经验以及将机器学习应用于新药发现过程的专业技能。在本书中,他十分乐于将这些经验和技能与读者分享。

● 讨论数据挖掘中的伦理问题。

● 根据教师和学生的反馈意见对内容做了更新。

● 通过多个案例展示数据挖掘技术的实际应用。

● 每章后面的习题有助于读者评估和加深对该章内容的理解。

● 在线支持网站提供了数据集、教学资料、习题答案、PPT教案和案例解决方案。

 

TOP作者简介

Galit Shmueli博士自2004年以来,一直在美国马里兰大学、statistics.com统计网站、印度商学院设计并指导数据挖掘课程。Shmueli的研究领域包括信息系统的统计方法和数据挖掘,她以研究和擅长讲授商业分析而闻名,并发表了100多篇文章。

  

Peter C. Bruce是statistics.com统计网站的统计教育研究院的主席和创办人,他发表了多篇学术论文,还开发了Resampling Stats软件。

  

Peter Gedeck博士是Collabrative Drug Discovery公司的高级数据科学家,他为这家公司开发了一款基于云的软件来管理新药发现过程中用到的海量数据,他还在statistics.com统计网站上教授数据挖掘课程。

  

Nitin R. Patel博士是位于马萨诸塞州剑桥市的Cytel公司的共同创始人和董事,是美国统计协会会员,同时还是麻省理工学院和哈佛大学的客座教授。

 

 

TOP目录

第I 部分 预备知识

第1 章 引言............................................................3

1.1 商业分析简介...........................................3

1.2 什么是数据挖掘......................................4

1.3 数据挖掘及相关术语..............................4

1.4 大数据........................................................5

1.5 数据科学...................................................6

1.6 为什么有这么多不同的方法.................6

1.7 术语与符号...............................................7

1.8 本书的线路图...........................................8

第2 章 数据挖掘过程概述................................11

2.1 引言..........................................................11

2.2 数据挖掘的核心思想............................11

2.2.1 分类.................................................11

2.2.2 预测.................................................12

2.2.3 关联规则与推荐系统........................12

2.2.4 预测分析..........................................12

2.2.5 数据规约与降维技术........................12

2.2.6 数据探索和可视化...........................12

2.2.7 监督学习与无监督学习....................13

2.3 数据挖掘步骤.........................................13

2.4 前期步骤.................................................15

2.4.1 数据集的组织...................................15

2.4.2 预测West Roxbury 小区的房价........15

2.4.3 在Python 程序中载入并浏览数据....16

2.4.4 Python 包的导入...............................18

2.4.5 从数据库获得采样数据....................18

2.4.6 在分类任务中对小概率事件的

过采样.............................................19

2.4.7 数据预处理和数据清理....................19

2.5 预测力和过拟合.................................... 24

2.5.1 过拟合............................................. 24

2.5.2 数据分区的创建和使用.................... 26

2.6 建立预测模型........................................ 28

2.7 在本地计算机上用Python 实现

数据挖掘................................................. 32

2.8 自动化数据挖掘解决方案................... 33

2.9 数据挖掘中的伦理规范....................... 33

2.10 习题........................................................ 37

第Ⅱ部分 数据探索与降维技术

第3 章 数据可视化.............................................43

3.1 引言.......................................................... 43

3.2 数据实例................................................. 45

3.3 基本图形:条形图、折线图和

散点图..................................................... 46

3.3.1 分布图:箱线图和直方图................ 48

3.3.2 热图:可视化相关性和缺失值......... 51

3.4 多维数据的可视化................................ 53

3.4.1 添加变量:颜色、大小、形状、

多面板和动画.................................. 53

3.4.2 数据操作:重定标、聚合与层次

结构、缩放与过滤........................... 56

3.4.3 趋势线和标签.................................. 59

3.4.4 扩展到大型数据集........................... 60

3.4.5 多变量图:平行坐标图.................... 62

3.4.6 交互式可视化.................................. 63

3.5 专用的可视化技术................................ 65

3.5.1 网络数据可视化............................... 65

3.5.2 层次数据可视化:树状结构图......... 66

3.5.3 地理数据可视化:地图.................... 68

3.6 小结..........................................................71

3.7 习题..........................................................71

 

第11 章 神经网络............................................221

11.1 引言......................................................221

11.2 神经网络的概念和结构...................222

11.3 在数据上拟合神经网络...................222

11.3.1 计算节点的输出结果..................223

11.3.2 训练模型....................................225

11.3.3 对事故的严重程度进行分类.......229

11.3.4 避免过拟合................................231

11.3.5 把神经网络的输出结果用于

预测和分类................................231

11.4 要求用户输入.....................................231

11.5 探索预测变量与因变量的关系......232

11.6 深度学习.............................................232

11.6.1 卷积神经网络............................233

11.6.2 局部特征图................................234

11.6.3 层次特征....................................234

11.6.4 学习过程....................................235

11.6.5 无监督学习................................235

11.6.6 结论...........................................236

11.7 神经网络的优缺点............................236

11.8 习题......................................................237

第12 章 判别分析............................................ 239

12.1 引言......................................................239

12.2 记录与类别的距离...........................241

12.3 Fisher 线性分类函数........................242

12.4 判别分析的分类性能.......................245

12.5 先验概率.............................................245

12.6 误分类成本不均等...........................246

12.7 多类别情形下的分类.......................246

12.8 判别分析的优缺点...........................249

12.9 习题......................................................250

第13 章 组合方法:集成学习和增益

模型.................................................... 253

13.1 集成学习.............................................253

13.1.1 为什么集成学习可以改进

预测能力...................................254

13.1.2 集成学习的优缺点.....................257

13.2 增益(说服)模型.................................257

13.2.1 建立一个简单的预测模型..........260

13.2.2 建立增益模型............................260

13.2.3 使用Python 程序计算增益.........261

13.2.4 应用增益模型的结果.................262

13.3 小结......................................................262

13.4 习题......................................................263

第Ⅴ部分 挖掘记录之间的关系

第14 章 关联规则和协同过滤...................... 267

 

第15 章 聚类分析............................................289

第Ⅵ部分 时间序列预测

第16 章 时间序列分析...................................313

 

第17 章 基于回归的预测...............................325

 

第18 章 平滑法................................................349

 

第Ⅶ部分 数据分析

 

21.7 直邮捐赠.............................................416

21.7.1 背景..........................................416

21.7.2 数据..........................................416

21.7.3 任务..........................................417

21.8 产品目录交叉销售...........................417

21.8.1 背景分析...................................417

21.8.2 任务..........................................418

21.9 预测公共交通需求...........................418

21.9.1 背景分析...................................418

21.9.2 问题描述...................................418

21.9.3 数据..........................................418

21.9.4 目标..........................................419

21.9.5 任务..........................................419

21.9.6 提示和步骤................................419

附录 Python 工具函数.................................... 421

 

TOP书摘

TOP 其它信息

开  本:16开

正文语种:中文

加载页面用时:55.1682