python爬虫-实现小说<战争与和平>中人物出场顺序显示所有人名
目录
- 开发工具
- 爬虫分析
- 爬虫代码
- 运行效果
- 总结
开发工具
python版本: python-3.8.1-amd64
python开发工具: JetBrains PyCharm 2018.3.6 x64
安装BeautifulSoup库(指定阿里镜像安装会很快)
pip install beautifulsoup4 -i http://mirrors.aliyun.com/pypi/simple/战争与和平小说网页地址http://www.pythonscraping.com/pages/warandpeace.html
爬虫分析
- 打开网页源代码,人名都是有span标签并且class的属性值都是green
<span class="green">Prince Vasili Kuragin</span>
爬虫代码
from urllib.request import urlopen
from bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html, 'html.parser')
namelist = bsObj.findAll('span',{'class':'green'}) # 获取页面中所有指定的标签
for name in namelist:print(name.get_text())
运行效果
Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
总结
这里主要使用到了findAll函数来实现获取所有指定属性的标签,还有利用了get_text函数清除所有标签只保含文字信息
python爬虫-实现小说<战争与和平>中人物出场顺序显示所有人名相关推荐
- python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
- python爬虫17K小说网资料
python爬虫17K小说网资料 爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...
- python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...
- Python 爬虫中国知网论文过程中遇到的坑及解决办法
假期,老师给布置了 Python 爬虫中国知网论文的任务,目前实现了登录和搜索功能,先写一下遇到的坑和解决办法吧. Python 爬虫中国知网论文过程中遇到的坑及解决办法 一. selenium 模块 ...
- 苦逼的Python爬虫抓小说实战
人生苦短,我用python.原来以为用Python抓本小说是小case,但做下来却发现不是所想的那样. 故事从某个人喜欢一本小说开始,头条新闻的大热,居然夹杂了许多小说,某人(真的是亲人!)喜欢某本小 ...
- python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
- python爬虫下载小说_python 爬取小说并下载的示例
代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...
- Python爬虫-爬取手机应用市场中APP下载量
一.首先是爬取360手机助手应用市场信息,用来爬取360应用市场,App软件信息,现阶段代码只能爬取下载量,如需爬取别的信息,请自行添加代码. 使用方法: 1.在D盘根目录新建.tet文件,命名为Ap ...
- Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)
1.简介介绍 -网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
最新文章
- linux下性能分析命令[总结]
- 18.6 负载均衡集群介绍 18.7 LVS介绍 18.8 LVS调度算法 18.9/18.10 LVS NAT模式搭建
- QQ窗口的控制,同步异步打开360网盘,控制360网盘窗口的移动
- usb连接不上 艾德克斯电源_艾德克斯双范围可编程直流电源IT6800A/B系列
- Linux下SVN安装配置全程实录(转)
- L3-004. 肿瘤诊断-PAT团体程序设计天梯赛GPLT(广度优先搜索)
- 继承extends(Java)
- 【Spring-tx】spring事务和mybatis的联系
- java项目如何运行
- DIY强大的虚拟化环境-组装于测试部分-2.L5420主机
- 设置双击打开.ipynb文件
- 打印机扫描显示服务器没有响应,打印机扫描一体机能够打印却不能扫描,提示缺少WIA的驱动程序...
- 华为系统和计算机,电脑手机合二为一 华为多屏协同让电脑与手机亲密互动
- 台式计算机连接无线,台式电脑怎么连WiFi无线网络
- 谷歌浏览器请求头格式化输出成 python dict字典
- JavaScript阻塞与非阻塞
- 半自动化批量下载专利全文pdf傻瓜攻略
- 教你如何搭建编译服务器安装加密系统
- CMake安装或CMake Error at CMakeLists
- 新代Remote API学习
热门文章
- android平板生产力工具,小扎测评 | 华为MatePad Pro:安卓平板终于能谈生产力了
- ZuulFilter设置不路由
- flac格式无损音乐如何转mp3格式
- Backblaze根据他们手中的历史数据,对不同品牌、容量的机械硬盘进行了一番对比
- linux mysql初始密码或者密码忘记 + mysql5.7.28忘记密码
- echarts鼠标悬停轴线是虚线,改成实线
- ios计算个税方法以及ui界面设计代码详解
- 经典分类算法——感知机算法
- Linux命令su和sudo的区别在哪?各有什么用途?
- 美通社母公司Cision发布《2023全球媒体调查报告》