目录

  • 开发工具
  • 爬虫分析
  • 爬虫代码
  • 运行效果
  • 总结

开发工具

  • python版本: python-3.8.1-amd64

  • python开发工具: JetBrains PyCharm 2018.3.6 x64

  • 安装BeautifulSoup库(指定阿里镜像安装会很快)
    pip install beautifulsoup4 -i http://mirrors.aliyun.com/pypi/simple/

  • 战争与和平小说网页地址http://www.pythonscraping.com/pages/warandpeace.html

爬虫分析

  • 打开网页源代码,人名都是有span标签并且class的属性值都是green
 <span class="green">Prince Vasili Kuragin</span>

爬虫代码

from urllib.request import urlopen
from bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html, 'html.parser')
namelist = bsObj.findAll('span',{'class':'green'}) # 获取页面中所有指定的标签
for name in namelist:print(name.get_text())

运行效果

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince

总结

这里主要使用到了findAll函数来实现获取所有指定属性的标签,还有利用了get_text函数清除所有标签只保含文字信息

python爬虫-实现小说<战争与和平>中人物出场顺序显示所有人名相关推荐

  1. python爬虫之小说网站--下载小说(正则表达式)

    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

  2. python爬虫17K小说网资料

    python爬虫17K小说网资料 爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...

  3. python爬虫练习--爬取站长素材中免费简历模板

    python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...

  4. Python 爬虫中国知网论文过程中遇到的坑及解决办法

    假期,老师给布置了 Python 爬虫中国知网论文的任务,目前实现了登录和搜索功能,先写一下遇到的坑和解决办法吧. Python 爬虫中国知网论文过程中遇到的坑及解决办法 一. selenium 模块 ...

  5. 苦逼的Python爬虫抓小说实战

    人生苦短,我用python.原来以为用Python抓本小说是小case,但做下来却发现不是所想的那样. 故事从某个人喜欢一本小说开始,头条新闻的大热,居然夹杂了许多小说,某人(真的是亲人!)喜欢某本小 ...

  6. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  7. python爬虫下载小说_python 爬取小说并下载的示例

    代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...

  8. Python爬虫-爬取手机应用市场中APP下载量

    一.首先是爬取360手机助手应用市场信息,用来爬取360应用市场,App软件信息,现阶段代码只能爬取下载量,如需爬取别的信息,请自行添加代码. 使用方法: 1.在D盘根目录新建.tet文件,命名为Ap ...

  9. Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)

    1.简介介绍 -网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

最新文章

  1. linux下性能分析命令[总结]
  2. 18.6 负载均衡集群介绍 18.7 LVS介绍 18.8 LVS调度算法 18.9/18.10 LVS NAT模式搭建
  3. QQ窗口的控制,同步异步打开360网盘,控制360网盘窗口的移动
  4. usb连接不上 艾德克斯电源_艾德克斯双范围可编程直流电源IT6800A/B系列
  5. Linux下SVN安装配置全程实录(转)
  6. L3-004. 肿瘤诊断-PAT团体程序设计天梯赛GPLT(广度优先搜索)
  7. 继承extends(Java)
  8. 【Spring-tx】spring事务和mybatis的联系
  9. java项目如何运行
  10. DIY强大的虚拟化环境-组装于测试部分-2.L5420主机
  11. 设置双击打开.ipynb文件
  12. 打印机扫描显示服务器没有响应,打印机扫描一体机能够打印却不能扫描,提示缺少WIA的驱动程序...
  13. 华为系统和计算机,电脑手机合二为一 华为多屏协同让电脑与手机亲密互动
  14. 台式计算机连接无线,台式电脑怎么连WiFi无线网络
  15. 谷歌浏览器请求头格式化输出成 python dict字典
  16. JavaScript阻塞与非阻塞
  17. 半自动化批量下载专利全文pdf傻瓜攻略
  18. 教你如何搭建编译服务器安装加密系统
  19. CMake安装或CMake Error at CMakeLists
  20. 新代Remote API学习

热门文章

  1. android平板生产力工具,小扎测评 | 华为MatePad Pro:安卓平板终于能谈生产力了
  2. ZuulFilter设置不路由
  3. flac格式无损音乐如何转mp3格式
  4. Backblaze根据他们手中的历史数据,对不同品牌、容量的机械硬盘进行了一番对比
  5. linux mysql初始密码或者密码忘记 + mysql5.7.28忘记密码
  6. echarts鼠标悬停轴线是虚线,改成实线
  7. ios计算个税方法以及ui界面设计代码详解
  8. 经典分类算法——感知机算法
  9. Linux命令su和sudo的区别在哪?各有什么用途?
  10. 美通社母公司Cision发布《2023全球媒体调查报告》