三国演义人名爬取与处理

对三国演义比较感兴趣，加上正在学习爬虫，准备对三国演义人物名称进行抓取。用到的Python包如下：

bs4,用来对网页内容进行解析和相关标签内容提取
requests，请求网络
pandas，对网页表格读取和保存

首先，访问网页并对其内容进行解析。在这步中，可能由于网络不能正常访问相应网站出现相应错误，所以需要提前规避。

name_url = "https://zh.wikipedia.org/zh-cn/三国演义角色列表"
try:url_get = requests.get(name_url).textbsobj = BeautifulSoup(url_get， “html.parser”)
except (ConnectionError, Timeout):print("please ensure your browser can visit wikipedia website successfully")

其次，提取出网页中所有的table标签内容。需要注意的是bs4对象不能直接传递到pandas的read_html中，即在传递前，需要利用str()方法将其先转换成字符串对象。另外，表格的数量大于1，所以对相应表格数据读取后，需要利用pandas.concat()方法对他们进行拼接。

tables = bsobj.find_all("table")
table1 = pd.read_html(str(tables[0]))[0]
for i in tables[1:]:_table1 = pd.read_html(str(i))[0]table1 = pd.concat([table1.copy(), _table1.copy()])

最终抓取效果如下图所示：

从图片中可以看出，人物角色（含方外人物和无名角色）共有1202人。并且读取的数据包含人物姓名、字、籍贯、列传等信息。

为了方便以后对该数据的使用，对上述结果进行保存。

table1.to_csv("sgyy_names.csv", encoding="utf-8", index=False)

三国演义人名爬取与处理相关推荐

python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知项目目标:三国人物名称及出现次数-----数据统计分析提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
Python爬取《三国演义》并且制作词云
前提废话之前关注了一个python的公众号,每天都会推送文章,每次看都会看到他有使用wordcloud这个库来生成好看的词云,于是乎,我就学习了jieba分词和wordcloud词云. 这里给win ...
python爬取三国演义文本，统计三国演义中出场次数前30的人物，并生成词云、图表
目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知项目目标:三国人物名称及出现次数-----数据统计分析提出问题: ...
Python爬虫实战（02）—— 爬取诗词名句三国演义
目录前言一.准备工作二.爬取步骤 1. 引入库 2. 发送请求拿到页面 3.定位到章节URL 4.拼接URL拿到章节内容 5.存储各章节内容完整代码前言这次爬虫任务是从诗词名句上爬取< ...
使用python爬取三国演义
此篇使用的是python进行数据爬虫爬取工具使用的是:bs4,requests 爬取的网站:https://www.shicimingju.com/book/sanguoyanyi.html 爬取的 ...
python诗词名句网爬取《三国演义》
import requests import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe ...
爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说第一步我们还是导入要导入的库: import requests ...
python爬取《三国演义》小说统计词频生成词云图
python爬取<三国演义>小说&统计词频&生成词云图注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...
Python 爬虫：搜狗百科，爬取多个人名的属性表信息 pycharm selenium
任务名称: 在搜狗百科上爬取一些人名的属性表信息任务来源: 初学爬虫,牛刀小试开发工具: PyCharm 开发团队: 213 开发人员: 小鞋带.小泽.阿烨开发时间: 2019-12-15 20 ...
python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍
python爬虫-爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...

三国演义人名爬取与处理

三国演义人名爬取与处理相关推荐

最新文章

热门文章