Python网络数据爬取及分析从入门到精通(分析篇)

这本Python网络数据爬取及分析从入门到精通(分析篇)图书,是2018-06-01月由北京航空航天大学出版社所出版的,著作者信息: 杨秀璋,颜娜 著,本版是第1次印刷, ISBN:9787512427136,品牌:北京航空航天大学出版社, 这本书的包装是小全开平装,所用纸张为胶版纸,全书页数未知,字数有万字, 是本值得推荐的Python软件开发图书。

此书内容摘要

Python网络数据爬取及分析从入门到精通(分析篇)

本书采用通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python语言进行网络数据分析的知识,主要内容包括Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘分析、数据预处理及文本聚类、词云热点与主题分布分析、复杂网络与基于数据库技术的分析等。

书中所有知识点都结合了具体的实例进行介绍,涉及的实例都给出了详细分析流程,程序代码都给出了具体的注释,采用图文结合的形式讲解,让读者能更加轻松地领会Python网络数据分析的精髓,快速提高自己的开发能力。

本书既可作为Python开发入门者的自学用书,也可作为高等院校数据分析、数据挖掘、机器学习、大数据等相关专业的教学参考书或实验指导书,还可供Python数据分析人员查阅、参考。

关于此书作者

杨秀璋,毕业于北京理工大学软件学院,长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院,主讲“数据挖掘与分析”“大数据技术及应用”课程,并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发;有多年的Python编程、数据分析及知识图谱研究经验,实战经验较为丰富。

此外,他还积极分享编程知识和开源代码编写经验,先后在CSDN、博客园、阿里云栖社区撰写博客,仅在CSDN就分享了300多篇原创文章,开设了11个专栏,累计阅读量超过250万人次。

编辑们的推荐

Python网络数据爬取及分析从入门到精通(分析篇)

这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。

本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。

看完此书,真正让你做到从入门到精通。

Python网络数据爬取及分析从入门到精通(分析篇)图书的目录

第1章 网络数据分析概述…………………………………………………………… 1

1.1 数据分析 ……………………………………………………………………… 1

1.2 相关技术 ……………………………………………………………………… 3

1.3 Anaconda开发环境…………………………………………………………… 5

1.4 常用数据集 …………………………………………………………………… 9

1.4.1 Sklearn数据集…………………………………………………………… 9

1.4.2 UCI数据集 …………………………………………………………… 10

1.4.3 自定义爬虫数据集……………………………………………………… 11

1.4.4 其他数据集……………………………………………………………… 12

1.5 本章小结……………………………………………………………………… 13

参考文献 …………………………………………………………………………… 14

第2章 Python数据分析常用库 …………………………………………………… 15

2.1 常用库………………………………………………………………………… 15

2.2 NumPy ……………………………………………………………………… 17

2.2.1 Array用法 ……………………………………………………………… 17

2.2.2 二维数组操作…………………………………………………………… 19

2.3 Pandas ……………………………………………………………………… 21

2.3.1 读/写文件 ……………………………………………………………… 22

2.3.2 Series…………………………………………………………………… 24

2.3.3 DataFrame……………………………………………………………… 26

2.4 Matplotlib …………………………………………………………………… 26

2.4.1 基础用法………………………………………………………………… 27

2.4.2 绘图简单示例…………………………………………………………… 28

2.5 Sklearn ……………………………………………………………………… 31

2.6 本章小结……………………………………………………………………… 32

参考文献 …………………………………………………………………………… 32

第3章 Python可视化分析 ………………………………………………………… 33

3.1 Matplotlib可视化分析 ……………………………………………………… 33

3.1.1 绘制曲线图……………………………………………………………… 33

3.1.2 绘制散点图……………………………………………………………… 37

3.1.3 绘制柱状图……………………………………………………………… 40

3.1.4 绘制饼状图……………………………………………………………… 42

3.1.5 绘制3D图形 …………………………………………………………… 43

3.2 Pandas读取文件可视化分析 ……………………………………………… 45

3.2.1 绘制折线对比图………………………………………………………… 45

3.2.2 绘制柱状图和直方图…………………………………………………… 48

3.2.3 绘制箱图………………………………………………………………… 51

3.3 ECharts可视化技术初识 …………………………………………………… 53

3.4 本章小结……………………………………………………………………… 57

参考文献 …………………………………………………………………………… 57

第4章 Python回归分析 …………………………………………………………… 58

4.1 回 归………………………………………………………………………… 58

4.1.1 什么是回归……………………………………………………………… 58

4.1.2 线性回归………………………………………………………………… 59

4.2 线性回归分析………………………………………………………………… 60

4.2.1 LinearRegression ……………………………………………………… 61

4.2.2 线性回归预测糖尿病…………………………………………………… 63

4.3 多项式回归分析……………………………………………………………… 68

4.3.1 基础概念………………………………………………………………… 68

4.3.2 PolynomialFeatures …………………………………………………… 69

4.3.3 多项式回归预测成本和利润…………………………………………… 70

4.4 逻辑回归分析………………………………………………………………… 73

4.4.1 LogisticRegression …………………………………………………… 75

4.4.2 鸢尾花数据集回归分析实例…………………………………………… 75

4.5 本章小结……………………………………………………………………… 83

参考文献 …………………………………………………………………………… 83

第5章 Python聚类分析 …………………………………………………………… 85

5.1 聚 类………………………………………………………………………… 85

5.1.1 算法模型………………………………………………………………… 85

5.1.2 常见聚类算法…………………………………………………………… 86

5.1.3 性能评估………………………………………………………………… 88

5.2 K-Means …………………………………………………………………… 90

5.2.1 算法描述………………………………………………………………… 90

5.2.2 用K-Means分析篮球数据 …………………………………………… 96

5.2.3 K-Means聚类优化 …………………………………………………… 99

5.2.4 设置类簇中心 ………………………………………………………… 103

5.3 BIRCH ……………………………………………………………………… 105

5.3.1 算法描述 ……………………………………………………………… 105

5.3.2 用BIRCH 分析氧化物数据 ………………………………………… 106

5.4 降维处理 …………………………………………………………………… 110

5.4.1 PCA降维 ……………………………………………………………… 111

5.4.2 Sklearn PCA降维 …………………………………………………… 111

5.4.3 PCA降维实例 ………………………………………………………… 113

5.5 本章小结 …………………………………………………………………… 117

参考文献…………………………………………………………………………… 118

第6章 Python分类分析 ………………………………………………………… 119

6.1 分 类 ……………………………………………………………………… 119

6.1.1 分类模型 ……………………………………………………………… 119

6.1.2 常见分类算法 ………………………………………………………… 120

6.1.3 回归、聚类和分类的区别……………………………………………… 122

6.1.4 性能评估 ……………………………………………………………… 123

6.2 决策树 ……………………………………………………………………… 123

6.2.1 算法实例描述 ………………………………………………………… 123

6.2.2 DTC算法 ……………………………………………………………… 125

6.2.3 用决策树分析鸢尾花 ………………………………………………… 126

6.2.4 数据集划分及分类评估 ……………………………………………… 128

6.2.5 区域划分对比 ………………………………………………………… 132

6.3 KNN分类算法 …………………………………………………………… 136

6.3.1 算法实例描述 ………………………………………………………… 136

6.3.2 KNeighborsClassifier………………………………………………… 138

6.3.3 用KNN分类算法分析红酒类型 …………………………………… 139

6.4 SVM 分类算法……………………………………………………………… 147

6.4.1 SVM 分类算法的基础知识…………………………………………… 147

6.4.2 用SVM 分类算法分析红酒数据 …………………………………… 148

6.4.3 用优化SVM 分类算法分析红酒数据集 …………………………… 151

6.5 本章小结 …………………………………………………………………… 154

参考文献…………………………………………………………………………… 154

第7章 Python关联规则挖掘分析 ……………………………………………… 156

7.1 基本概念 …………………………………………………………………… 156

7.1.1 关联规则 ……………………………………………………………… 156

7.1.2 置信度与支持度 ……………………………………………………… 157

7.1.3 频繁项集 ……………………………………………………………… 158

7.2 Apriori算法………………………………………………………………… 159

7.3 Apriori算法的实现………………………………………………………… 163

7.4 本章小结 …………………………………………………………………… 167

参考文献…………………………………………………………………………… 167

第8章 Python数据预处理及文本聚类 ………………………………………… 168

8.1 数据预处理概述 …………………………………………………………… 168

8.2 中文分词 …………………………………………………………………… 170

8.2.1 中文分词技术 ………………………………………………………… 170

8.2.2 Jieba中文分词工具…………………………………………………… 171

8.3 数据清洗 …………………………………………………………………… 175

8.3.1 概 述 ………………………………………………………………… 175

8.3.2 中文语料清洗 ………………………………………………………… 176

8.4 特征提取及向量空间模型 ………………………………………………… 179

8.4.1 特征规约 ……………………………………………………………… 179

8.4.2 向量空间模型 ………………………………………………………… 181

8.4.3 余弦相似度计算 ……………………………………………………… 182

8.5 权重计算 …………………………………………………………………… 184

8.5.1 常用权重计算方法 …………………………………………………… 184

8.5.2 TF-IDF ……………………………………………………………… 185

8.5.3 用Sklearn计算TF-IDF …………………………………………… 186

8.6 文本聚类 …………………………………………………………………… 188

8.7 本章小结 …………………………………………………………………… 192

参考文献…………………………………………………………………………… 192

第9章 Python词云热点与主题分布分析 ……………………………………… 193

9.1 词 云 ……………………………………………………………………… 193

9.2 WordCloud的安装及基本用法 …………………………………………… 194

9.2.1 WordCloud的安装 …………………………………………………… 194

9.2.2 WordCloud的基本用法 ……………………………………………… 195

9.3 LDA ………………………………………………………………………… 203

9.3.1 LDA的安装过程……………………………………………………… 203

9.3.2 LDA的基本用法及实例……………………………………………… 204

9.4 本章小结 …………………………………………………………………… 214

参考文献…………………………………………………………………………… 214

第10章 复杂网络与基于数据库技术的分析 …………………………………… 215

10.1 复杂网络…………………………………………………………………… 215

10.1.1 复杂网络和知识图谱………………………………………………… 215

10.1.2 NetworkX …………………………………………………………… 217

10.1.3 用复杂网络分析学生关系网………………………………………… 219

10.2 基于数据库技术的数据分析……………………………………………… 224

10.2.1 数据准备……………………………………………………………… 224

10.2.2 基于数据库技术的可视化分析……………………………………… 225

10.2.3 基于数据库技术的可视化对比……………………………………… 232

10.3 基于数据库技术的博客行为分析………………………………………… 234

10.3.1 幂率分布……………………………………………………………… 234

10.3.2 用幂率分布分析博客数据集………………………………………… 235

10.4 本章小结…………………………………………………………………… 245

参考文献…………………………………………………………………………… 245

本套后记……………………………………………………………………………… 246

致 谢………………………………………………………………………………… 248

部分内容试读

随着数据分析和人工智能风暴的来临,Python也变得越来越火热。它就像一把利剑,使我们能随心所欲地做着各种分析与研究。在研究机器学习、深度学习与人工智能之前,我们有必要静下心来学习一下Python基础知识、基于Python的网络数据爬取及分析,这些知识点都将为我们后续的开发和研究打下扎实的基础。同时,由于世面上缺少以实例为驱动,全面详细介绍Python网络爬虫及数据分析的书,本套书很好地填补了这一空白,它通过Python语言来教读者编写网络爬虫并教大家针对不同的数据集做算法分析。本套书既可以作为Python数据爬取及分析的入门教材,也可以作为实战指南,包括多个经典案例。下面作者将简单介绍本套书。

它究竟是一套什么样的书呢? 对您学习网络数据抓取及分析是否有帮助呢?

本套书是以实例为主、使用Python语言讲解网络数据爬虫及分析的书和实战指南。本套书结合图表、代码、示例,采用通俗易懂的语言介绍了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例详细讲解。本套书适合计算机科学、软件工程、信息技术、统计数学、数据科学、数据挖掘、大数据等专业的学生学习,也适合对网络数据爬取、数据分析、文本挖掘、统计分析等领域感兴趣的读者阅读,同时也作为数据挖掘、数据分析、数据爬取、机器学习、大数据等技术相关课程的教材或实验指南。

本套书分为两篇本:数据爬取篇和数据分析篇。其中,爬取篇详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储相关的爬虫知识,并通过实例让读者真正学会如何分析网站、爬取自己所需的数据;分析篇详细讲解了Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘、文本预处理、词云分析及主题模型、复杂网络和基于数据库的分析。“数据爬取篇”突出爬取,“数据分析篇”侧重分析,为了更好地掌握相关知识,建议读者将两本书结合起来学习。

为什么本套书会选择Python作为数据爬取和数据分析的编程语言呢?

随着大数据、数据分析、深度学习、人工智能的迅速发展,网络数据爬取和网络数据分析也变得越来越热门。由于Python具有语法清晰、代码友好、易读易学等特点,同时拥有强大的第三方库支持,包括网络爬取、信息传输、数据分析、绘图可视化、机器学习等库函数,所以本套书选择Python作为数据爬取和数据分析的编程语言。

首先,Python既是一种解释性编程语言,又是一种面向对象的语言,其操作性和可移植性较高,因而被广泛应用于数据挖掘、文本抓取、人工智能等领域。就作者看来,Python最大的优势在于效率。有时程序员或科研工作者的工作效率比机器的效率更为重要,对于很多复杂的功能,使用较清晰的语言能给程序员减轻更多的负担,从而大大提高代码质量,提高工作效率。虽然Python底层运行速度要比C语言慢,但Python清晰的结构能节省程序员的时间,简单易学的特点也降低了编程爱好者的门槛,所以说“人生苦短,我学Python”。

其次,Python可以应用在网络爬虫、数据分析、人工智能、机器学习、Web开发、金融预测、自动化测试等多个领域,并且都有非常优秀的表现,从来没有一种编程语言可以像Python这样同时扎根在这么多领域。另外,Python还支持跨平台操作,支持开源,拥有丰富的第三方库。尤其随着人工智能的持续火热,Python在IEEE 发布的2017年最热门语言中排名第一,同时许多程序爱好者、科技工作者也都开始认识Python,使用Python。

接下来作者将Python和其他常用编程语言,突出其优势。相比于C#,Python是跨平台的、支持开源的,是一种解释型语言进行简单对比,可以运行在Windows、Linux等平台上;而C#则相反,其平台受限,不支持开源,并且需要编译。相比于Java,Python更简洁,学习难度也相对低很多,而Java则过于庞大复杂。相比于C和C++,Python的语法简单易懂,代码清晰,是一种脚本语言,使用起来更为灵活;而C和C++通常要和底层硬件打交道,语法也比较晦涩难懂。

目前,Python 3.x版本已经发布并正在普及,本套书却选择了Python2.7版本,并贯穿整套书的所有代码,这又是为什么呢?

在Python发布的版本中,Python 2.7是比较经典的一个版本,其兼容性较高,各方面的资料和文章也比较完善。该版本适用于多种信息抓取库,如Selenium、BeautifulSoup等,也适用于各种数据分析库,如Sklearn、Matplotlib等,所以本套书选择Python 2.7版本;同时结合官方的Python解释器和Anaconda集成软件进行详细介绍,也希望读者喜欢。Python 3.x版本已经发布,具有一些更便捷的地方,但大部分功能和语法都与Python 2.7是一致的,作者推荐大家结合Python 3.x进行学习,并可以尝试将本套书中的代码修改为Python 3.x版本,加深印象。

同时,作者针对不同类型的读者给出一些关于如何阅读和使用本套书的建议。

如果您是一名没有任何编程基础或数据分析经验的读者,建议您在阅读本套书时,先了解对应章节的相关基础知识,并手动敲写每章节对应的代码进行学习;虽然本套书是循序渐进深入讲解的,但是为了您更好地学习数据抓取和数据分析知识,独立编写代码是非常必要的。

如果您是一名具有良好的计算机基础、Python开发经验或数据挖掘、数据分析背景的读者,则建议您独立完成本套书中相应章节的实例,同时抓取自己感兴趣的数据集并深入分析,从而提升您的编程和数据分析能力。

如果您是一名数据挖掘或自然语言处理相关行业的研究者,建议您从本套书找到自己感兴趣的章节进行学习,同时也可以将本套书作为数据爬取或数据分析的小字典,希望给您带来一些应用价值。

如果您是一名老师,则推荐您使用本套书作为网络数据抓取或网络数据分析相关课程的教材,您可以按照本套书中的内容进行授课,也可以将本套书中相关章节布置为学生的课后习题。个人建议老师在讲解完基础知识之后,把相应章节的任务和数据集描述布置给学生,让他们实现对应的爬取或分析实验。但切记,一定要让学生自己独立实现书中的代码,以扩展他们的分析思维,从而培育更多数据抓取和数据分析领域的人才。

如果您只是一名对数据爬取或数据分析感兴趣的读者,则建议您简单了解本书的结构、每章节的内容,掌握数据抓取和数据分析的基本流程,作为您普及Web数据挖掘和大数据分析的参考书。

无论如何,作者都希望本套书能给您普及一些网络数据抓取相关的知识,更希望您能爬取自己所需的语料,结合本套书中的案例分析自己研究的内容,给您的研究课题或论文提供一些微不足道的思路。如果本套书让您学会了Python抓取网络数据的方法,作者就更加欣慰了。

最后,完成本套书肯定少不了很多人的帮助和支持,在此送上我最诚挚的谢意。

本套书确实花费了作者很多心思,包括多年来从事Web数据挖掘、自然语言处理、网络爬虫等领域的研究,汇集了作者5年来博客知识的总结。本套书在编写期间得到了许多Python数据爬取和数据分析爱好者,作者的老师、同学、同事、学生,以及互联网一些“大牛”的帮助,包括张老师(北京理工大学)、籍文(大疆创新科技公司)、徐溥(SAP公司)、俊林(阿里巴巴公司)、容神、峰子(华为公司)、田一(南京理工大学)、王金(重庆邮电大学)、罗炜(北京邮电大学)、胡子(中央民族大学)、任行(中国传媒大学)、青哥(老师)、兰姐(电子科技大学)、小何幸(贵州财经大学)、小民(老师)、任瑶(老师)等,在此表示最诚挚的谢意。同时感谢北京理工大学和贵州财经大学对作者多年的教育与培养,感谢CSDN 网站、博客园网站、阿里云栖社区等多年来对作者博客和专栏的支持。

由于本套书是结合作者关于Python实际抓取网络数据和分析数据的研究,以及多年撰写博客经历而编写的,所以书中难免会有不足或讲得不够透彻的地方,敬请广大读者谅解。

最后,以作者离开北京选择回贵州财经大学信息学院任教的一首诗结尾吧!

贵州纵美路迢迢,未付劳心此一遭。

收得破书三四本,也堪将去教尔曹。

但行好事,莫问前程。

待随满天桃李,再追学友趣事。

作 者

2018年2月24日

关于此书评价

暂无.

书摘内容

推荐序 一

作为与秀璋同窗同寝的10年老友,此书可以说是他实践的总结。秀璋是深受朋友信任的好兄弟,亦是深受学生爱戴的好老师,似乎有着用不完的热情,这种热情,带给我们这个社会一丝丝的温暖,在人与人之间传递着。当初在博客上不断写文章,并耐心解答网友们的各种问题,还帮助许多网友学习编程,指导他们的作业甚至毕业论文,所以,当教师这颗种子早已埋下。毕业后的秀璋,拿着同学们羡慕的北京IT行业某网络公司的录取通知书,却毅然决然踏上返乡的路,这一走,走进了大山里的贵州,成了一名受人尊敬的人民教师。生活平淡而辛苦,而乐观的秀璋却收获了爱情,此也命也。

拒绝了无数聚会的邀请,见证了无数贵阳凌晨的灯火,秀璋和颜娜孜孜不倦写下这本书,作为朋友,着实替他们高兴。作为见证这本书从下笔到问世的读者,作为一个Python爱好者及有一定数据分析功底的学生,读这本书真是如晤老友———有大量的网络数据爬取实例,从Python 基础知识到正则表达式爬虫,再到BeautifulSoup、Selenium、Scrapy爬取技术,并结合数据存储、海量图集分析、自动登录等实例进行讲解。本书配以专业但不晦涩的语言,将原本枯燥的学术知识娓娓道来,此时的秀璋不是老师,而是一个熟悉的老友,用大家听得懂的话,解释着您需要了解的一切。同时,当您学习完Python网络数据爬取之后,还推荐您继续学习本套书中的另一本书———《Python网络数据爬取及分析从入门到精通(数据分析篇)》,进而更好地掌握与Python相关的知识。

总之,再多赞美的语言,都比不上滴滴汗水凝结的成功带来的满足与喜悦。愿您

合上书时,亦能感受到文中的真诚。

大疆公司 宋籍文

2017年11月1日于深圳

推荐序 二

当我被秀璋邀请为这套书写序时,我首先感到的是惊讶和荣幸。秀璋是我最好的朋友之一,在本科和硕士学习期间,我们一起在北京理工大学度过了六年的美好时光。秀璋是一个真诚而严谨的人,在学习、工作,甚至游戏中,他都力争完美,很开心看到他完成了这本著作。

在大学期间,每个人都知道他当老师的梦想,之后他也确实回到了家乡贵州,做着他喜欢的事情。我希望他能在教育领域保持着那份激情和初心,即使这是一个漫长而艰难的过程,但我相信他会用他的热情和爱意克服一切困难,教书育人。这本书就像他的一个“孩子”,他花了很多时间和精力撰写而成。它是一本关于Python技术的网络爬虫书籍,包括很多有用的实例,比如爬取在线百科、爬取技术博客或新浪微博数据、挖掘招聘网站或豆瓣网电影信息等。现在我们都知道一些与计算机科学相关的热门术语,如机器学习、大数据、人工智能等,而许多像SAP这样的公司也在关注这些新兴的技术,关注从海量信息中挖掘出有价值的信息,以便将来为客户提供更好的软件解决方案和服务,为公司决策提供支撑。

但我们从哪里开始学习这些新知识呢? 我想您可以从读这本书开始。在本书中,秀璋介绍了一种可用于数据挖掘等应用的基本技能———网络爬虫技术。一个网络爬虫通常是从互联网上提取有用的信息,它可以用来爬取结构化/非结构化文本、图片或各类数据。借助这些数据,我们可以构建自己的应用,例如Google知识图谱、舆情分析系统、智能家具应用等。本书既可以看作是Python数据爬取的入门教程,也可以当作指导手册或科普书。对于初学者来说,学习本书中的内容并不难,它就是一步步的教程,包括基本的Python语法、BeautifulSoup技术、Selenium 技术、Scrapy框架等。书中有许多生动而有趣的案例,以及详细的图形指南和代码注释,绝不会让您感到无聊。

本书是学习Python数据爬取的不二选择。同时推荐您继续学习本套书中的另一本书———《Python网络数据爬取及分析从入门到精通(分析篇)》,进而更好地掌握与Python相关的知识。

如果您真的是Python、网络爬虫、数据分析或大数据的忠实粉丝,请不要犹豫,学习Python就从本书开始吧!

SAP工程师 数字商务服务 徐溥

2017年11月23日于美国

Python网络数据爬取及分析从入门到精通(分析篇)最新最全的试读、书评、目录、简介信息由个人博客整理提供。

本文地址:https://my.lmcjl.com/book/307

版权声明:个人博客原创文章,转载请注明出处和网址。

,欢迎加入。

本文链接:https://my.lmcjl.com/post/2889.html

展开阅读全文

4 评论

留下您的评论.