百道网
 您现在的位置:Fun书 > NLP汉语自然语言处理原理与实践
NLP汉语自然语言处理原理与实践


NLP汉语自然语言处理原理与实践

作  者:郑捷

出 版 社:电子工业出版社

出版时间:2017年01月

定  价:98.00

I S B N :9787121307652

所属分类: 人文社科  >  社会科学  >  语言文字学    

标  签:社会科学  语言文字  语言文字学  

[查看微博评论]

分享到:

TOP内容简介

本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。 本书包括NLP的语言理论部分、算法部分、案例部分,涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是,本书是迄今为止*本系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。 本书适用于所有想学习NLP的技术人员,包括各大人工智能实验室、软件学院等专业机构。

TOP作者简介

郑捷:www.threedweb.cn网站的负责人,研究方向是机器学习与自然语言处理。当前负责的核心产品是高精度自然语言认知系统的设计与研发,研发目标是高精度(识别率为85%~95%)的统一架构的NLP认知系统,已经出版专著《机器学习算法原理与编程实践》,希望能与在NLP这方面有兴趣的读者一起学习交流。

TOP目录

目 录
第1章 中文语言的机器处理1
1.1 历史回顾2
1.1.1 从科幻到现实2
1.1.2 早期的探索3
1.1.3 规则派还是统计派3
1.1.4 从机器学习到认知
计算5
1.2 现代自然语言系统简介6
1.2.1 NLP流程与开源框架6
1.2.2 哈工大NLP平台及其
演示环境9
1.2.3 Stanford NLP团队及其
演示环境11
1.2.4 NLTK开发环境13
1.3 整合中文分词模块16
1.3.1 安装Ltp Python组件17
1.3.2 使用Ltp 3.3进行中文
分词18
1.3.3 使用结巴分词模块20
1.4 整合词性标注模块22
1.4.1 Ltp 3.3词性标注23
1.4.2 安装StanfordNLP并
编写Python接口类24
1.4.3 执行Stanford词性
标注28
1.5 整合命名实体识别模块29
1.5.1 Ltp 3.3命名实体识别29
1.5.2 Stanford命名实体
识别30
1.6 整合句法解析模块32
1.6.1 Ltp 3.3句法依存树33
1.6.2 Stanford Parser类35
1.6.3 Stanford短语结构树36
1.6.4 Stanford依存句法树37
1.7 整合语义角色标注模块38
1.8 结语40
第2章 汉语语言学研究回顾42
2.1 文字符号的起源42
2.1.1 从记事谈起43
2.1.2 古文字的形成47
2.2 六书及其他48
2.2.1 象形48
2.2.2 指事50
2.2.3 会意51
2.2.4 形声53
2.2.5 转注54
2.2.6 假借55
2.3 字形的流变56
2.3.1 笔与墨的形成与变革56
2.3.2 隶变的方式58
2.3.3 汉字的符号化与结构61
2.4 汉语的发展67
2.4.1 完整语义的基本
形式——句子68
2.4.2 语言的初始形态与
文言文71
2.4.3 白话文与复音词73
2.4.4 白话文与句法研究78
2.5 三个平面中的语义研究80
2.5.1 词汇与本体论81
2.5.2 格语法及其框架84
2.6 结语86
第3章 词汇与分词技术88
3.1 中文分词89
3.1.1 什么是词与分词规范90
3.1.2 两种分词标准93
3.1.3 歧义、机械分词、语言
模型94
3.1.4 词汇的构成与未登录
词97
3.2 系统总体流程与词典结构98
3.2.1 概述98
3.2.2 中文分词流程99
3.2.3 分词词典结构103
3.2.4 命名实体的词典
结构105
3.2.5 词典的存储结构108
3.3 算法部分源码解析111
3.3.1 系统配置112
3.3.2 Main方法与例句113
3.3.3 句子切分113
3.3.4 分词流程117
3.3.5 一元词网118
3.3.6 二元词图125
3.3.7 NShort算法原理130
3.3.8 后处理规则集136
3.3.9 命名实体识别137
3.3.10 细分阶段与最短
路径140
3.4 结语142
第4章 NLP中的概率图模型143
4.1 概率论回顾143
4.1.1 多元概率论的几个
基本概念144
4.1.2 贝叶斯与朴素贝叶斯
算法146
4.1.3 文本分类148
4.1.4 文本分类的实现151
4.2 信息熵154
4.2.1 信息量与信息熵154
4.2.2 互信息、联合熵、
条件熵156
4.2.3 交叉熵和KL散度158
4.2.4 信息熵的NLP的
意义159
4.3 NLP与概率图模型160
4.3.1 概率图模型的几个
基本问题161
4.3.2 产生式模型和判别式
模型162
4.3.3 统计语言模型与NLP
算法设计164
4.3.4 极大似然估计167
4.4 隐马尔科夫模型简介169
4.4.1 马尔科夫链169
4.4.2 隐马尔科夫模型170
4.4.3 HMMs的一个实例171
4.4.4 Viterbi算法的实现176
4.5 最大熵模型179
4.5.1 从词性标注谈起179
4.5.2 特征和约束181
4.5.3 最大熵原理183
4.5.4 公式推导185
4.5.5 对偶问题的极大似然
估计186
4.5.6 GIS实现188
4.6 条件随机场模型193
4.6.1 随机场193
4.6.2 无向图的团(Clique)
与因子分解194
4.6.3 线性链条件随机场195
4.6.4 CRF的概率计算198
4.6.5 CRF的参数学习199
4.6.6 CRF预测标签200
4.7 结语201
第5章 词性、语块与命名实体
识别202
5.1 汉语词性标注203
5.1.1 汉语的词性203
5.1.2 宾州树库的词性标注
规范205
5.1.3 stanfordNLP标注
词性210
5.1.4 训练模型文件213
5.2 语义组块标注219
5.2.1 语义组块的种类220
5.2.2 细说NP221
5.2.3 细说VP223
5.2.4 其他语义块227
5.2.5 语义块的抽取229
5.2.6 CRF的使用232
5.3 命名实体识别240
5.3.1 命名实体241
5.3.2 分词架构与专名
词典243
5.3.3 算法的策略——词典
与统计相结合245
5.3.4 算法的策略——层叠
式架构252
5.4 结语259
第6章 句法理论与自动分析260
6.1 转换生成语法261
6.1.1 乔姆斯基的语言观261
6.1.2 短语结构文法263
6.1.3 汉语句类269
6.1.4 谓词论元与空范畴274
6.1.5 轻动词分析理论279
6.1.6 NLTK操作句法树280
6.2 依存句法理论283
6.2.1 配价理论283
6.2.2 配价词典285
6.2.3 依存理论概述287
6.2.4 Ltp依存分析介绍290
6.2.5 Stanford依存转换、
解析293
6.3 PCFG短语结构句法分析298
6.3.1 PCFG短语结构298
6.3.2 内向算法和外向
算法301
6.3.3 Viterbi算法303
6.3.4 参数估计304
6.3.5 Stanford 的PCFG算法
训练305
6.4 结语310
第7章 建设语言资源库311
7.1 语料库概述311
7.1.1 语料库的简史312
7.1.2 语言资源库的分类314
7.1.3 语料库的设计实例:
国家语委语料库315
7.1.4 语料库的层次加工321
7.2 语法语料库323
7.2.1 中文分词语料库323
7.2.2 中文分词的测评326
7.2.3 宾州大学CTB简介327
7.3 语义知识库333
7.3.1 知识库与HowNet
简介333
7.3.2 发掘义原334
7.3.3 语义角色336
7.3.4 分类原则与事件
分类344
7.3.5 实体分类347
7.3.6 属性与分类352
7.3.7 相似度计算与实例353
7.4 语义网与百科知识库360
7.4.1 语义网理论介绍360
7.4.2 维基百科知识库364
7.4.3 DBpedia抽取原理365
7.5 结语368
第8章 语义与认知370
8.1 回顾现代语义学371
8.1.1 语义三角论371
8.1.2 语义场论373
8.1.3 基于逻辑的语义学376
8.2 认知语言学概述377
8.2.1 象似性原理379
8.2.2 顺序象似性380
8.2.3 距离象似性380
8.2.4 重叠象似性381
8.3 意象图式的构成383
8.3.1 主观性与焦点383
8.3.2 范畴化:概念的
认知385
8.3.3 主体与背景390
8.3.4 意象图式392
8.3.5 社交中的图式396
8.3.6 完形:压缩与省略398
8.4 隐喻与转喻401
8.4.1 隐喻的结构402
8.4.2 隐喻的认知本质403
8.4.3 隐喻计算的系统
架构405
8.4.4 隐喻计算的实现408
8.5 构式语法412
8.5.1 构式的概念413
8.5.2 句法与构式415
8.5.3 构式知识库417
8.6 结语420
第9章 NLP中的深度学习422
9.1 神经网络回顾422
9.1.1 神经网络框架423
9.1.2 梯度下降法推导425
9.1.3 梯度下降法的实现427
9.1.4 BP神经网络介绍和
推导430
9.2 Word2Vec简介433
9.2.1 词向量及其表达434
9.2.2 Word2Vec的算法
原理436
9.2.3 训练词向量439
9.2.4 大规模上下位关系的
自动识别443
9.3 NLP与RNN 448
9.3.1 Simple-RNN449
9.3.2 LSTM原理454
9.3.3 LSTM的Python
实现460
9.4 深度学习框架与应用467
9.4.1 Keras框架介绍467
9.4.2 Keras序列标注471
9.4.3 依存句法的算法
原理478
9.4.4 Stanford依存解析的
训练过程483
9.5 结语488
第10章 语义计算的架构490
10.1 句子的语义和语法预处理490
10.1.1 长句切分和融合491
10.1.2 共指消解496
10.2 语义角色502
10.2.1 谓词论元与语义
角色502
10.2.2 PropBank简介505
10.2.3 CPB中的特殊
句式506
10.2.4 名词性谓词的语义
角色509
10.2.5 PropBank展开512
10.3 句子的语义解析517
10.3.1 语义依存517
10.3.2 完整架构524
10.3.3 实体关系抽取527
10.4 结语531

TOP书摘

TOP 其它信息

装  帧:平塑勒

页  数:544

加载页面用时:78.127