python xpath 爬虫小试牛刀
案例: 使用request + lxml 爬取糗事百科每页的标题数据
代码如下图:
import requests
from lxml import etreefor i in range(0, 3):# 设置user-agentua = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36" }# 生成URLurl = "https://www.qiushibaike.com/8hr/page/" + str(i+1) + "/"print(url)# 获取网页数据response = requests.get(url=url, headers=ua).text# 将html转换成tree对象tree = etree.HTML(response)# 通过xpath表达式,获取标题文本信息title_lst = tree.xpath('//a[@class="recmd-content"]/text()')print('--------------------', len(title_lst))# 打印具体的标题数据for title in title_lst:print(title)
输出结果:打印出页面上的标题数、具体的标题文本信息
python xpath 爬虫小试牛刀相关推荐
- python xpath爬虫_Python爬虫(2):XPath语法
OK,上次我们说到了网页爬虫的一个思路:首先说一下网页爬虫的整个思路方法:先爬取整个网页,也就是将网页的源代码给获取下来 爬取下来的网页再通过文本解析提取,找到我们需要的信息,可以是图片或者文字 然后 ...
- python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
- python xpath介绍和新闻内容爬虫
二十.python xpath介绍和新闻内容爬虫 Xpath介绍 用xpath提取感兴趣的内容 一个网页文档是一个半结构化的数据,其实html文档就是一个树形结构.根节点是html 用正则表达式也可以 ...
- python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要
作业描述 基于requests爬虫模块库, 把所有学术期刊的简介信息爬取下来 导航页网址: https://navi.cnki.net/knavi/Journal.html 要求: 爬取所有学术期刊的 ...
- python网络爬虫程序技术,Python网络爬虫程序技术
spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...
- Python中爬虫框架或模块的区别
Python中爬虫框架或模块的区别,我们在Python的学习过程中,需要不断的总结知识点,这样我们才能进步的更快一些. (1)爬虫框架或模块 Python自带爬虫模块:urllib.urllib2; ...
- Python Scrapy爬虫框架实战应用
通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...
- python爬虫能干什么-爬虫可以做的事情非常多,Python的爬虫你又了解多少?
原标题:爬虫可以做的事情非常多,Python的爬虫你又了解多少? 现在爬虫可以做的事情非常多,数据.信息.电影.资料等,你技术过关了,爱咋爬咋爬,仔细观察,加上你如果认真观察,就会发现学习爬虫的人越来 ...
- python多线程爬虫实例-Python实现多线程爬虫
编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...
最新文章
- CNN网络中的 1 x 1 卷积是什么?
- 报名 | DeeCamp2019:实战AI 铸造定雨神针
- 团队项目博客---移山小分队---3
- array_map常用技巧
- jquery.validate.js的使用小结
- linux中rev命令详解,详解Linux中输出文件内容的rev与tac命令使用
- Kettle使用_2变量替换之设置标量
- Redis实现微博后台业务逻辑系列(六)
- 对象属性之间的相互赋值
- (转载)Linux编程获取本机IP地址的三种方法
- cacti 监控安装失败
- 用java设计节拍器_具有高速的Java节拍器
- php怎么抓取手机号码,PHP提取字符串中的手机号
- Android音频压缩方法
- 变限积分求导公式总结_变限积分求导公式是什么?
- scrapy 出现400 Bad Request 问题
- wintogo取消屏蔽本地磁盘
- 使用Yomail的时候出现的错误解决方案
- Android10.0 展讯平台解锁
- python pdf编辑开发_20行Python代码实现一款永久免费PDF编辑工具的实现
热门文章
- 如何制作自己的数据集
- 嵌入式 Linux 内核驱动开发【The first day: 36093万字】
- java 交通绘图_Java模拟交通路况
- 实时道路路况计算的认识
- 如何制作SWD接口接线,并使用keil4_Jlink烧录芯片
- [lua] cannot use ‘...‘
- Python爬虫:网络爬虫实现豆瓣电影采集,想看啥自己挑选
- Matlab最小二乘法:线性最小二乘、加权线性最小二乘、稳健最小二乘、非线性最小二乘与剔除异常值效果比较
- ORB-SLAM源码中的相机参数设置
- H5 通过jquery动态的设置video src的值无法播放视频?