内容简介
本书主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。对于每一个算法又分别从应用原理、数学原理、代码实现,以及对当前方法的思考四个方面进行讲解。本书面向的读者为有志于从事自然语言处理相关工作的在校学生、企事业单位工作人员等人群。本书的结构是由浅入深地进行相关内容的介绍,以满足不同层次读者的学习需求。作者简介:
兰红云,湖北襄阳人。曾任职于猎豹移动,现为阿里影业数据挖掘专家,拥有多年的算法和数据挖掘的工作经验,申请过多项算法专利。研究方向包括自然语言处理和机器学习。目 录:
第1篇语义模型详解第1章关键词抽取模型 3
1.1 TF-IDF算法实现关键词抽取 4
1.2 TextRank算法实现关键词抽取 11
1.3 基于语义的统计语言模型实现关键词抽取 16
第2章短语抽取模型 22
2.1 基于互信息和左右信息熵实现短语抽取 23
2.2 TextRank算法实现短语抽取 28
2.3 LDA算法实现短语抽取 31
第3章自动摘要抽取模型 38
3.1 决策树算法实现自动摘要 39
3.2 基于逻辑回归算法实现自动摘要 44
3.3 贝叶斯算法实现自动摘要 50
第4章深度学习 计算任意词距离模型 55
4.1 FP-Growth算法实现词距离计算 56
4.2 N-Gram算法实现词距离计算 61
4.3 BP算法实现词距离计算 65
第5章拼音汉字混合识别模型 70
5.1 贝叶斯模型实现拼音汉字混合识别 71
5.2 HMM模型实现拼音汉字混合识别 75
5.3 RNN神经网络模型实现拼音汉字混合识别 80
第6章文本自动生成模型 87
6.1 基于关键词的文本自动生成模型 88
6.2 RNN模型实现文本自动生成 93
第2篇自然语言处理系统基础算法
第7章Dijkstra算法 101
7.1 算法应用原理介绍 102
7.2 算法数学原理介绍 102
7.3 算法源码说明 106
7.4 算法应用扩展 107
第8章AC-DoubleArrayTrie算法 108
8.1 算法应用原理介绍 109
8.2 算法数学原理介绍 111
8.3 算法应用扩展 116
第9章最大熵算法 117
9.1 算法应用原理介绍 118
9.2 算法数学原理介绍 119
9.3 算法源码说明 124
9.4 算法应用扩展 125
第10章CRF算法 126
10.1 算法应用原理介绍 127
10.2 算法数学原理介绍 130
10.3 算法源码说明 135
10.4 算法应用扩展 136
第11章马尔可夫逻辑网算法 137
11.1 算法应用原理介绍 138
11.2 算法数学原理介绍 142
11.3 算法源码说明 144
11.4 算法应用扩展 145
第12章DIPRE算法 147
12.1 算法应用原理介绍 148
12.2 算法数学原理介绍 151
12.3 算法源码说明 152
12.4 算法应用扩展 153
第13章LSTM算法 155
13.1 算法应用原理介绍 156
13.2 算法数学原理介绍 158
13.3 算法源码说明 163
13.4 算法应用扩展 165
第14章TransE算法 166
14.1 算法应用原理介绍 167
14.2 算法数学原理介绍 170
14.3 算法源码说明 172
14.4 算法应用扩展 174
第3篇系统案例实战
第15章搭建舆情分析与挖掘的系统 177
15.1 系统功能设计简述 178
15.2 系统模块实现详解 181
15.3 系统实现源码说明 186