对三国演义比较感兴趣,加上正在学习爬虫,准备对三国演义人物名称进行抓取。用到的Python包如下:

  • bs4,用来对网页内容进行解析和相关标签内容提取

  • requests,请求网络

  • pandas,对网页表格读取和保存

首先,访问网页并对其内容进行解析。在这步中,可能由于网络不能正常访问相应网站出现相应错误,所以需要提前规避。

name_url = "https://zh.wikipedia.org/zh-cn/三国演义角色列表"
try:url_get = requests.get(name_url).textbsobj = BeautifulSoup(url_get, “html.parser”)
except (ConnectionError, Timeout):print("please ensure your browser can visit wikipedia website successfully")

其次,提取出网页中所有的table标签内容。需要注意的是bs4对象不能直接传递到pandas的read_html中,即在传递前,需要利用str()方法将其先转换成字符串对象。另外,表格的数量大于1,所以对相应表格数据读取后,需要利用pandas.concat()方法对他们进行拼接。

tables = bsobj.find_all("table")
table1 = pd.read_html(str(tables[0]))[0]
for i in tables[1:]:_table1 = pd.read_html(str(i))[0]table1 = pd.concat([table1.copy(), _table1.copy()])

最终抓取效果如下图所示:

从图片中可以看出,人物角色(含方外人物和无名角色)共有1202人。并且读取的数据包含人物姓名、字、籍贯、列传等信息。

为了方便以后对该数据的使用,对上述结果进行保存。

table1.to_csv("sgyy_names.csv", encoding="utf-8", index=False)

三国演义人名爬取与处理相关推荐

  1. python三国演义人物出场统计_python爬取三国演义文本

    1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...

  2. Python爬取《三国演义》并且制作词云

    前提废话 之前关注了一个python的公众号,每天都会推送文章,每次看都会看到他有使用wordcloud这个库来生成好看的词云,于是乎,我就学习了jieba分词和wordcloud词云. 这里给win ...

  3. python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云、图表

    目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题: ...

  4. Python爬虫实战(02)—— 爬取诗词名句三国演义

    目录 前言 一.准备工作 二.爬取步骤 1. 引入库 2. 发送请求拿到页面 3.定位到章节URL 4.拼接URL拿到章节内容 5.存储各章节内容 完整代码 前言 这次爬虫任务是从诗词名句上爬取< ...

  5. 使用python爬取三国演义

    此篇使用的是python进行数据爬虫 爬取工具使用的是:bs4,requests 爬取的网站:https://www.shicimingju.com/book/sanguoyanyi.html 爬取的 ...

  6. python诗词名句网爬取《三国演义》

    import requests import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe ...

  7. 爬取诗词名句网的三国演义小说

    爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...

  8. python爬取《三国演义》小说统计词频生成词云图

    python爬取<三国演义>小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...

  9. Python 爬虫 :搜狗百科,爬取多个人名的属性表信息 pycharm selenium

    任务名称: 在搜狗百科上爬取一些人名的属性表信息 任务来源: 初学爬虫,牛刀小试 开发工具: PyCharm 开发团队: 213 开发人员: 小鞋带.小泽.阿烨 开发时间: 2019-12-15 20 ...

  10. python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍

    python爬虫-爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...

最新文章

  1. 研究生招生多次被“放鸽子”:给学生几点诚信方面的建议
  2. 网站内容重复了怎么?更好的解决办法是什么?
  3. 1月26日学习内容整理:reverse函数补充,modelform对象补充,form表单参数补充
  4. JAVAAPI之STRING类和STRINGBUFER类
  5. ftp如何预览图片 解决方案
  6. Dubbo调用时报错Invalid token Forbid invoke remote service interface
  7. 那些年,我们一起追过的足球
  8. mysql单实例和多实例,MySQL单实例、多实例安装_MySQL
  9. kubernetes视频教程笔记 (8)-资源类型
  10. 1*1的卷积核与Inception
  11. 概率论---全概率公式和贝叶斯公式
  12. CDN的原理技术及使用方法
  13. C语言数据结构理解语句L = (LNode * )malloc(sizeof(LNode));
  14. 预充电电路工作原理_电动汽车电控系统预充电原理
  15. CRichEditDoc下保存文档出现\rtf1\ansi\ansicpg936\deff0的解决方法
  16. im开源java框架_开源的im即时通讯系统
  17. 动环监控系统中B接口的实现
  18. mysql semi join详解_MySQL中的semi-join
  19. 笔记本电脑wlan+开启移动热点+手机转圈圈【已解决】
  20. APS应用案例|纽威阀门实现高效排产

热门文章

  1. 知识管理在企业竞争发展中的作用
  2. FPGA信号处理系列文章——定点数据截位处理
  3. 世界上第一次网络瘫痪 | 历史上的今天
  4. 智能家居研究:深耕用户体验实现核心业务17.3%增长
  5. 数显之家快讯:【SHIO世硕心语】中国武侠背后的传奇家族-海宁查氏,如何兴盛600年?
  6. 给技术人提升自己的几点建议
  7. 分享一个插件-水珠自动下落效果
  8. 武汉大学计算机 韩立,文澜学术系列讲座 第135期 武汉大学经济与管理学院韩立宁老师:“Financial Network and Industry Connectedness”...
  9. script脚本阻塞的探究、异步属性async和defer的区别
  10. 怎么查看计算机簇大小,分区格式与簇的大小讲解