Python自然语言处理实战:核心技术与算法,由机械工业出版社在2018-06-01月出版发行,本书编译以及作者信息为: 涂铭,刘祥,刘树春 著,这是第1次发行, 国际标准书号为:9787111597674,品牌为机工出版, 这本书采用平装开本为16开,纸张采为胶版纸,全书共有281页,字数万字,值得推荐。
此书内容摘要
自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。
本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是阿里巴巴、前明略数据和七牛云的资深专家。同时,本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。
全书一共11章,在逻辑上分为2个部分:
第一部分(第1、2、11章)
主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。
第二部分(第5-10章)
第3~5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。
第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。
第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。
第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。
第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。
第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。
关于此书作者
涂铭:
阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。曾就职于北京明略数据,是大数据方面的高级咨询顾问。
在工业领域参与了设备故障诊断项目,在零售行业参与了精准营销项目。在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。
刘祥:
百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产品的研发与设计。
曾在明略数据担当数据技术合伙人兼数据科学家,负责工业、金融等业务领域的数据挖掘工作,在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。
酷爱新技术,活跃于开源社区,是Spark MLlib和Zeppelin的Contributor。
刘树春:
七牛云高级算法专家,七牛AI实验室NLP&OCR方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间,参与大量NLP相关项目,例如知识图谱、问答系统、文本摘要、语音相关系统等;同时重点关注NLP与CV的交叉研究领域,主要有视觉问答(VQA),图像标注(Image Caption)等前沿问题。
曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发,项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室,在校期间主攻机器学习,机器视觉,图像处理,并在相关国际会议发表多篇SCI/EI论文。
编辑们的推荐
(1)三位作者资历深厚,分别是阿里巴巴的数据架构师和NLP专家、百炼智能的NLP专家(前明略数据的技术合伙人和科学家)、七牛云AI实验室NLP&OCR方向负责人
阿里巴巴、前明略数据和七牛云的资深NLP专家撰写
(2)以实战为导向,绕开各种复杂数学公式与证明,确保读者零基础入门,详细讲解自然语言处理 的各种核心技术、方法论和经典算法
(3)阿里巴巴达摩院高级算法专家、百炼智能CEO、七牛云AI LAB负责人、天善智能创始人联袂推荐
Python自然语言处理实战:核心技术与算法图书的目录
目录序一
序二
前言
第1章NLP基础 1
1.1什么是NLP 1
1.1.1NLP的概念 1
1.1.2NLP的研究任务 3
1.2NLP的发展历程 5
1.3NLP相关知识的构成 7
1.3.1基本术语 7
1.3.2知识结构 9
1.4语料库 10
1.5探讨NLP的几个层面 11
1.6NLP与人工智能 13
1.7本章小结 15
第2章NLP前置技术解析 16
2.1搭建Python开发环境 16
2.1.1Python的科学计算发行版——Anaconda 17
2.1.2Anaconda的下载与安装 19
2.2正则表达式在NLP的基本应用 21
2.2.1匹配字符串 22
2.2.2使用转义符 26
2.2.3抽取文本中的数字 26
2.3Numpy使用详解 27
2.3.1创建数组 28
2.3.2获取Numpy中数组的维度 30
2.3.3获取本地数据 31
2.3.4正确读取数据 32
2.3.5Numpy数组索引 32
2.3.6切片 33
2.3.7数组比较 33
2.3.8替代值 34
2.3.9数据类型转换 36
2.3.10Numpy的统计计算方法 36
2.4本章小结 37
第3章中文分词技术 38
3.1中文分词简介 38
3.2规则分词 39
3.2.1正向最大匹配法 39
3.2.2逆向最大匹配法 40
3.2.3双向最大匹配法 41
3.3统计分词 42
3.3.1语言模型 43
3.3.2HMM模型 44
3.3.3其他统计分词算法 52
3.4混合分词 52
3.5中文分词工具——Jieba 53
3.5.1Jieba的三种分词模式 54
3.5.2实战之高频词提取 55
3.6本章小结 58
第4章词性标注与命名实体识别 59
4.1词性标注 59
4.1.1词性标注简介 59
4.1.2词性标注规范 60
4.1.3Jieba分词中的词性标注 61
4.2命名实体识别 63
4.2.1命名实体识别简介 63
4.2.2基于条件随机场的命名实体识别 65
4.2.3实战一:日期识别 69
4.2.4实战二:地名识别 75
4.3总结 84
第5章关键词提取算法 85
5.1关键词提取技术概述 85
5.2关键词提取算法TF/IDF算法 86
5.3TextRank算法 88
5.4LSA/LSI/LDA算法 91
5.4.1LSA/LSI算法 93
5.4.2LDA算法 94
5.5实战提取文本关键词 95
5.6本章小结 105
第6章句法分析 106
6.1句法分析概述 106
6.2句法分析的数据集与评测方法 107
6.2.1句法分析的数据集 108
6.2.2句法分析的评测方法 109
6.3句法分析的常用方法 109
6.3.1基于PCFG的句法分析 110
6.3.2基于最大间隔马尔可夫网络的句法分析 112
6.3.3基于CRF的句法分析 113
6.3.4基于移进–归约的句法分析模型 113
6.4使用Stanford Parser的PCFG算法进行句法分析 115
6.4.1Stanford Parser 115
6.4.2基于PCFG的中文句法分析实战 116
6.5本章小结 119
第7章文本向量化 120
7.1文本向量化概述 120
7.2向量化算法word2vec 121
7.2.1神经网络语言模型 122
7.2.2C&W模型 124
7.2.3CBOW模型和Skip-gram模型 125
7.3向量化算法doc2vec/str2vec 127
7.4案例:将网页文本向量化 129
7.4.1词向量的训练 129
7.4.2段落向量的训练 133
7.4.3利用word2vec和doc2vec计算网页相似度 134
7.5本章小结 139
第8章情感分析技术 140
8.1情感分析的应用 141
8.2情感分析的基本方法 142
8.2.1词法分析 143
8.2.2机器学习方法 144
8.2.3混合分析 144
8.3实战电影评论情感分析 145
8.3.1卷积神经网络 146
8.3.2循环神经网络 147
8.3.3长短时记忆网络 148
8.3.4载入数据 150
8.3.5辅助函数 154
8.3.6模型设置 155
8.3.7调参配置 158
8.3.8训练过程 159
8.4本章小结 159
第9章NLP中用到的机器学习算法 160
9.1简介 160
9.1.1机器学习训练的要素 161
9.1.2机器学习的组成部分 162
9.2几种常用的机器学习方法 166
9.2.1文本分类 166
9.2.2特征提取 168
9.2.3标注 169
9.2.4搜索与排序 170
9.2.5推荐系统 170
9.2.6序列学习 172
9.3分类器方法 173
9.3.1朴素贝叶斯Naive Bayesian 173
9.3.2逻辑回归 174
9.3.3支持向量机 175
9.4无监督学习的文本聚类 177
9.5文本分类实战:中文垃圾邮件分类 180
9.5.1实现代码 180
9.5.2评价指标 187
9.6文本聚类实战:用K-means对豆瓣读书数据聚类 190
9.7本章小结 194
第10章基于深度学习的NLP算法 195
10.1深度学习概述 195
10.1.1神经元模型 196
10.1.2激活函数 197
10.1.3感知机与多层网络 198
10.2神经网络模型 201
10.3多输出层模型 203
10.4反向传播算法 204
10.5最优化算法 208
10.5.1梯度下降 208
10.5.2随机梯度下降 209
10.5.3批量梯度下降 210
10.6丢弃法 211
10.7激活函数 211
10.7.1tanh函数 212
10.7.2ReLU函数 212
10.8实现BP算法 213
10.9词嵌入算法 216
10.9.1词向量 217
10.9.2word2vec简介 217
10.9.3词向量模型 220
10.9.4CBOW和Skip-gram模型 222
10.1
部分内容试读
PREFACE前言为什么要写这本书这是一本关于中文自然语言处理(简称NLP)的书,NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。本书偏重实战,不仅系统介绍了NLP涉及的知识点,同时也教会读者如何实际应用与开发。围绕这个主题,本书从章节规划到具体的讲述方式,具有以下两个特点:第一个特点是本书的主要目标读者定位为高校相关专业的大学生(统计学、计算机技术)、NLP爱好者,以及不具备专业数学知识的人群。NLP是一系列学科的集合体,其中包含了语言学、机器学习、统计学、大数据以及人工智能等方面,尤其依赖数学知识才能深入理解其原理。因此本书对专业知识的讲述过程必须绕过复杂的数学证明,从问题的前因后果、创造者思考的过程、概率或几何解释代替数学解释等一系列迂回的路径去深入模型的本源,这可能多少会牺牲一些严谨性,但是却能换来对大多数人更为友好的阅读体验。
第二个特点是本书是一本介绍中文自然语言处理的书,中文分词相对于英文分词来说更为复杂,读者将通过例子来学习,体会到能够通过实践验证自己想法的价值,我们提供了丰富的来自NLP领域的案例。在本书的内容编制上,从知识点背景介绍到原理剖析,辅以实战案例,所有的代码会在书中详细列出或者上传Github方便读者下载与调试,帮助读者快速上手掌握知识点,同时可以应用到后续实际的开发项目中。在实际项目章节中,选取目前在NLP领域中比较热门的项目,将之前的知识点进行汇总,帮助读者巩固与提升。本书难度适中属于入门和扩展级读物。
读者将学到什么如何用NLP 与语言学的关键概念来描述和分析语言NLP 中的数据结构和算法是怎样的自然语言处理目前主流的技术与方法论信息检索技术与大数据应用读者对象1)统计学或相关IT专业学生本书的初衷是面向相关专业的学生——大量基于理论知识的认知却缺乏实战经验的人员,让其在理论的基础上深入了解。通过本书,学生可以跟随本书的教程一起操作学习,达到对自己使用的人工智能工具、算法和技术知其然亦知其所以然的目的。
2)信息科学和计算机科学爱好者本书是一部近代科技的历史书,也是一部科普书,还可以作为一部人工智能思想和技术的教科书去阅读。通过本书可以了解到行业先驱们在探索人工智能道路上所做出的努力和思考,理解他们不同的观点和思路,有助于开拓自己的思维和视野。
3)人工智能相关专业的研究人员本书具体介绍了NLP相关知识。通过本书可以了解理论知识,了解哪些才是项目所需的内容以及如何在项目中实现,能够快速上手。
如何阅读本书本书内容针对NLP从以下几个方面进行阐述:
第一部分的内容包括第1、2、11章,主要介绍了NLP所需要了解的Python科学包、正则表达式以及Solr检索。
第二部分的内容包括第5~10章的内容,主要是介绍NLP相关的各个知识点。分别是:
第3~5章主要介绍了词法分析层面的一些技术,这一部分是NLP技术的基础,需要读者熟练掌握。
第6章介绍了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨,读者了解即可。
第7章介绍了常用的向量化方法。这些方法常用于各种NLP任务的输入,读者需重点掌握。
第8章介绍了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用,所以需要读者熟练掌握。
第9章介绍了机器学习的一些基本概念,重点突出NLP常用的分类算法、聚类算法,同时还介绍了几个案例,这章是NLP的基础内容,需要重点掌握。
第10章介绍了NLP中常用的深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。
除了以上内容外,以下信息是在本书中涉及特定内容的解释和说明:
内容延伸。本书每个章节都有一定的内容延伸章节,其内容是对于有兴趣深入研究的读者推荐的资料或进一步了解的知识点,由于每个主题都涵盖很多内容,因此本书仅在内容延伸中抛砖引玉,有兴趣的读者可以加以了解和学习。
相关知识点。本书很多章节中都有“相关知识点”的内容介绍,其对特定工具、知识、算法、库等方面做了较为详细的介绍,它们是本书的知识堡垒。
本章小结。每章的结尾都有“本章小结”,在小结中包含4部分内容。
内容小结。内容小结是有关本章内容的总结。
重点知识。重点知识是本章重点需要读者掌握的知识和内容。
外部参考。外部参考是本章提到过但是无法详细介绍的内容,都在外部参考中列出,有兴趣的读者可以基于比构建自己的知识图谱。
应用实践。基于本章内容推荐读者在实践中落地的建议。
提示。对于知识点的重要提示和应用技巧,相对“相关知识点”而言,每条提示信息的内容量较少,一般都是经验类的总结。
注意。特定需要引起注意的知识,这些注意点是应用过程中需要避免的“大坑”。
关于附件的使用方法除了第1章外,本书的每一章都有对应源数据和完整代码,该内容可在本书中直接找到,有些代码需要从Github下载,地址是https://github.com/nlpinaction/learning-nlp。需要注意的是,为了让读者更好地了解每行代码的含义,笔者在注释信息中使用了中文标注,且每个程序文件的编码格式都是UTF-8。
勘误和支持由于笔者水平有限,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可通过以下途径联系并反馈建议或意见:
即时通讯。添加个人微信(kennymingtu)反馈问题。
电子邮件。发送E-mail到kenny_tm@hotmail.com。
致谢在本书的撰写过程中,得到了来自多方的指导、帮助和支持。
首先要感谢的是机械工业出版社华章公司的杨福川编辑,他在本书出版过程中给予我极大的支持和鼓励,并为此书的撰写提供了方向和思路指导。
其次要感谢黄英和周剑老师在自然语言处理项目和工作中提供的宝贵经验和支持。
再次要感谢全程参与审核、校验等工作的张锡鹏、孙海亮编辑以及其他背后默默支持的出版工作者,是他们的辛勤付出才让本书得以顺利面世。
最后感谢我的父母、家人和朋友,使得我有精力完成本书的编写。
谨以此书献给热爱数据工作并为之奋斗的朋友们,愿大家身体健康、生活美满、事业有成!
涂铭2018年1月于上海书籍初成,感慨良多。
在接受邀请撰写本书时,从未想到过程如此艰辛。
感谢我的女友和家人的理解与支持,陪伴我度过写书的漫长岁月。
感谢我的合著者——涂铭和刘树春,与他们合作轻松愉快,给予我很多的理解和包容。
感谢参与审阅、校验等工作的孙海亮老师等出版社工作人员,是他们在幕后的辛勤付出保证了本书的出版成功。
再次感谢一路陪伴的所有人!
刘祥2018年1月于北京首先要感谢我的两位合作者——涂铭和刘祥,能够相聚在一起写书是缘分。当初聊到出版NLP入门书籍的想法时我们一拍即合,然而真正开始执笔才发现困难重重,业余时间常常被工作挤占,进度一拖再拖,在伙伴们的支持下,克服了拖延症,顺利完成本书。
特别感谢我的爱人和家人的悉心照料和支持。
感谢孙海亮老师、张锡鹏老师等出版社工作人员,没有他们的辛劳付出就没有本书保质保量的完成。
最后感谢帮我校稿的林博、谢雨飞、陈敏,谢谢他们在生活和工作上给我的支持与帮助。
最后,祝大家学习快乐。
刘树春2018年1月于上海
关于此书评价
本书从各个方面着手,帮助读者理解NLP的过程,提供了各种实战场景,结合现实项目背景,帮助读者理解NLP中的数据结构和算法以及目前主流的NLP技术与方法论,结合信息检索技术与大数据应用等流行技术,完成对NLP的学习和掌握。——黄英 阿里巴巴达摩院高级算法专家
目前市面上的NLP书籍,要么是针对研究人员的偏理论性的教科书,要么是针对资深工程师进一步深入了解NLP技术的高级读物。为了填补这一空白,三位来自工业界的资深NLP专家,结合真实的项目,让读者能够以很快的速度掌握NLP技术的精髓。同时,穿插大量练习,可以帮助读者反复练习课本中的知识点。所有这些内容,都是为了让读者能够解决工作中遇到的实际问题,而不仅是纸上谈兵。本书通俗易懂、操作性强。
——冯是聪博士 百炼智能创始人兼CEO/人工智能与信息检索专家
本书作者通过对现有的NLP技术以及新兴的深度学习方法进行梳理和总结,形成了自己的NLP知识体系。本书在内容上平衡了理论和技术,在每章的理论之后都配备了实践课,便于读者通过动手加深理解,避免成为只会夸夸其谈的NLP理论“专家”。本书可以帮助研究者,特别是初学者,加强对NLP的理论与技术的学习,授人以鱼的同时授人以渔,帮助读者灵活解决实际工作当中遇到的各种NLP问题。
——林亦宁 七牛云AI实验室Leader/10余年人工智能和深度学习研究
技术的发展和普及,离不开教育的推动,从商业智能到大数据,再到如今的人工智能,莫不是如此。华章是IT技术图书出版领域的领军者,天善智能是IT技术在线教育领域的佼佼者,我们都在为推动IT技术在中国甚至是世界范围内的发展贡献力量。华章与天善智能结成了非常重要的战略合作伙伴关系,本书是双方合作的一本书,后续还会有更多的作品出版,希望能对大家有所帮助。
——周剑 天善智能联合创始人&咨询总监
书摘内容
暂无.Python自然语言处理实战:核心技术与算法最新最全的试读、书评、目录、简介信息由个人博客整理提供。
本文地址:https://my.lmcjl.com/book/422
版权声明:个人博客原创文章,转载请注明出处和网址。
,欢迎加入。
本文链接:https://my.lmcjl.com/post/5969.html
4 评论