《用商业案例学R语言数据挖掘》内容简介|作者

内容简介

商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。

本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。

本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材。

作者简介:

常国珍,北京大学会计学博士,中国大数据产业生态联盟专家委员会专家委员。主要从事金融、电信行业客户画像,信用与操作风险识别与防范,客户终生价值预测与价值提升等工作。

曾珂,华中师范大学管理科学工程硕士,现为第一车贷金融产品部产品经理,精通Python与R语言数据挖掘。曾经就职于华为、国家电网等企业。以金融信用与欺诈风险建模、文本分析、数据可视化等为主要研究方向。

朱江,挪威科技大学工学硕士,现为CDA数据分析研究院课程开发副总监,CDA数据挖掘竞赛的评委。精通R与SAS语言数据挖掘,从事电商与互联网数据分析的教学工作。研究方向为电商推荐系统开发、数据可视化、客户特征提取和客户行为模式发现。

目 录:

第1章商业数据分析基础

1.1 商业数据分析的本质

1.2 商业数据分析中心的建设

第 2 章 数据分析的武器库

2.1 数据挖掘简介

2.2 R 语言简介

2.3 R 与 RStudio 的下载和安装

2.4 在 RStudio 中安装包

2.5 练习题

第 3 章 R 语言编程

3.1 R 的基本数据类型

3.2 R 的基本数据结构

3.3 R 的程序控制

3.4 R 的函数

3.5 R 的日期与时间数据类型

3.6 在 R 中读写数据

3.7 练习题

第 4 章 R 描述性统计分析与绘图

4.1 描述性统计分析

4.2 制图的步骤

4.3 R 基础绘图包

4.4 ggplot2 绘图

4.5 练习题

第 5 章 数据整合和数据清洗

5.1 数据整合

5.2 R 中的高级数据整合

5.3 R 中的抽样

5.4 R 的数据清洗 .

5.5 数据整合

第 6 章 统计推断基础

6.1 基本的统计学概念

6.3 双样本 t 检验

6.4 方差分析(分类变量和连续变量关系检验)

6.5 相关分析(两连续变量关系检验)

6.6 卡方检验(两分类变量关系检验)

6.7 练习题.

第 7 章 客户价值预测:线性回归模型与诊断

7.1 相关性分析

7.2 线性回归

7.3 线性回归诊断

7.4 正则化方法

7.5 练习题

第 8 章 Logistic 回归构建初始信用评级

8.1 Logistic 回归的相关关系分析

8.2 Logistic 回归模型及实现

8.3 最大熵模型与极大似然法估计

8.4 模型评估

8.5 练习题

第 9 章 使用决策树进行信用评级

9.1 决策树建模思路

9.2 决策树算法

9.3 在 R 中实现决策树

9.4 组合算法(Ensemble Learning)

9.5 练习题

第 10 章 神经网络

10.1 神经元模型

10.2 人工神经网络模型

10.3 单层感知器

10.4 BP 神经网络

10.5 RBF 神经网络

10.6 神经网络设计与 R 代码实现

10.7 练习题

第 11 章 分类器入门:最近邻域与贝叶斯网络.

11.1 分类器的概念

11.2 KNN 算法

11.3 朴素贝叶斯

11.4 贝叶斯网络

11.5 练习题

第 12 章 高级分类器:支持向量机

12.1 线性可分与线性不可分

12.2 线性可分支持向量机

12.3 线性支持向量机

12.4 非线性支持向量机

12.5 R 中的支持向量机

12.6 练习题

第 13 章 连续变量的维度归约

13.1 维度归约方法概述

13.2 主成分分析

13.3 因子分析

13.4 奇异值分解

13.5 对应分析和多维尺度分析

13.6 练习题

第 14 章 聚类

14.1 聚类分析概述

14.2 聚类算法逻辑.

14.3 层次聚类.

14.4 k-means 聚类

14.5 基于密度的聚类.

14.6 聚类模型的评估

14.7 高斯混合模型(Gaussian Mixture Model)

14.8 客户分群

14.9 练习题

第 15 章 关联规则与推荐算法

15.1 长尾理论

15.2 关联规则

15.3 序贯模型

15.4 推荐算法与推荐系统.

15.5 练习题.

第 16 章 时间序列建模

16.1 认识时间序列

16.2 简单时间序列分析.

16.3 平稳时间序列分析 ARMA 模型

16.4 非平稳时间序列分析 ARIMA 模型

第 17 章 特征工程( Feature Engineering)(博文视点官方网站下载)

17.1 特征工程概述.

17.2 数据预处理(Data Preprocessing)

17.3 特征构造(Feature Construction)

17.4 特征抽取(Feature Extraction)

17.5 特征选择(Feature Selection)

第 18 章 R 文本挖掘(博文视点官方网站下载)

18.1 文本挖掘

18.2 文本清洗

18.3 中文分词与文档模型.

18.4 文本的特征选择及相关性度量

18.5 文本分类

18.6 主题模型

18.7 综合案例.

附录 A 数据说明(博文视点官方网站下载)

为您推荐

《谢米尔的小潜水艇》内容简介|作者

内容简介 好的幻想小说都是成长小说,它长久不衰的魅力,在于它能帮孩子处理成长过程中必须面对的内心冲突。它是一面镜子,能照出孩子的自我;是孩子们演练内心冲突的一个舞台;是一次孩子们的自我发现之旅。 日本大幻想文学..

《高考英语高分作文字帖》内容简介|作者

内容简介书籍特色 这是一套对英文字母、单词、短语、句子、文章书法练习的字帖,根据习字者的书法水平和英语程度,由浅入深,由易到难,通过循序渐进的练习,帮助习字者快速提高书..

《魏晋唐小楷-中国历代名碑名帖精选》内容简介|作者

内容简介书籍特色 为传承和发扬传统文化,江西美术出版社北京分社推出《中国历代名碑名帖精选》系列图书,让我们从这里抵达华夏文明的深处。  书法艺术是中华文化瑰宝,古人..

《王福庵印谱-全3册》内容简介|作者

《硬笔楷书入门字帖》内容简介|作者

内容简介书籍特色 广大学生和书法爱好者书写汉字,力求规范、端正、整洁,能用钢笔熟练地书写正楷字,逐步提高书写速度,规范书写习惯。随着国家对传统文化越来越重视,写一手好的..

《李文采临王羲之圣教序碑》内容简介|作者

内容简介本书由僧人怀仁集王羲之书而成。怀仁从唐内府所藏王羲之书迹及民间王字遗墨中集《圣教序》, 历时二十四年。前人评价此碑: “天衣无缝, 胜于自运”, “逸少真迹, 咸萃其中”。由于王羲之真迹不存, 此碑是后人..

《李文采临李邕李思训碑》内容简介|作者

内容简介本书精选历代著名碑帖 (自殷商至近代) 影印出版, 纵贯中国书法史, 更加精当合理, 底本注重艺术性与版本价值相结合, 是广大读者学习书法艺术的首选法帖。碑高一丈一尺三寸六分, 宽四尺八寸五分。字共三十行,..