案例: 使用request + lxml 爬取糗事百科每页的标题数据

代码如下图:

import requests
from lxml import etreefor i in range(0, 3):# 设置user-agentua = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36" }# 生成URLurl = "https://www.qiushibaike.com/8hr/page/" + str(i+1) + "/"print(url)# 获取网页数据response = requests.get(url=url, headers=ua).text# 将html转换成tree对象tree = etree.HTML(response)# 通过xpath表达式,获取标题文本信息title_lst = tree.xpath('//a[@class="recmd-content"]/text()')print('--------------------', len(title_lst))# 打印具体的标题数据for title in title_lst:print(title)

输出结果:打印出页面上的标题数、具体的标题文本信息

python xpath 爬虫小试牛刀相关推荐

  1. python xpath爬虫_Python爬虫(2):XPath语法

    OK,上次我们说到了网页爬虫的一个思路:首先说一下网页爬虫的整个思路方法:先爬取整个网页,也就是将网页的源代码给获取下来 爬取下来的网页再通过文本解析提取,找到我们需要的信息,可以是图片或者文字 然后 ...

  2. python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...

  3. python xpath介绍和新闻内容爬虫

    二十.python xpath介绍和新闻内容爬虫 Xpath介绍 用xpath提取感兴趣的内容 一个网页文档是一个半结构化的数据,其实html文档就是一个树形结构.根节点是html 用正则表达式也可以 ...

  4. python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要

    作业描述 基于requests爬虫模块库, 把所有学术期刊的简介信息爬取下来 导航页网址: https://navi.cnki.net/knavi/Journal.html 要求: 爬取所有学术期刊的 ...

  5. python网络爬虫程序技术,Python网络爬虫程序技术

    spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...

  6. Python中爬虫框架或模块的区别

    Python中爬虫框架或模块的区别,我们在Python的学习过程中,需要不断的总结知识点,这样我们才能进步的更快一些. (1)爬虫框架或模块 Python自带爬虫模块:urllib.urllib2; ...

  7. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  8. python爬虫能干什么-爬虫可以做的事情非常多,Python的爬虫你又了解多少?

    原标题:爬虫可以做的事情非常多,Python的爬虫你又了解多少? 现在爬虫可以做的事情非常多,数据.信息.电影.资料等,你技术过关了,爱咋爬咋爬,仔细观察,加上你如果认真观察,就会发现学习爬虫的人越来 ...

  9. python多线程爬虫实例-Python实现多线程爬虫

    编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...

最新文章

  1. CNN网络中的 1 x 1 卷积是什么?
  2. 报名 | DeeCamp2019:实战AI 铸造定雨神针
  3. 团队项目博客---移山小分队---3
  4. array_map常用技巧
  5. jquery.validate.js的使用小结
  6. linux中rev命令详解,详解Linux中输出文件内容的rev与tac命令使用
  7. Kettle使用_2变量替换之设置标量
  8. Redis实现微博后台业务逻辑系列(六)
  9. 对象属性之间的相互赋值
  10. (转载)Linux编程获取本机IP地址的三种方法
  11. cacti 监控安装失败
  12. 用java设计节拍器_具有高速的Java节拍器
  13. php怎么抓取手机号码,PHP提取字符串中的手机号
  14. Android音频压缩方法
  15. 变限积分求导公式总结_变限积分求导公式是什么?
  16. scrapy 出现400 Bad Request 问题
  17. wintogo取消屏蔽本地磁盘
  18. 使用Yomail的时候出现的错误解决方案
  19. Android10.0 展讯平台解锁
  20. python pdf编辑开发_20行Python代码实现一款永久免费PDF编辑工具的实现

热门文章

  1. 如何制作自己的数据集
  2. 嵌入式 Linux 内核驱动开发【The first day: 36093万字】
  3. java 交通绘图_Java模拟交通路况
  4. 实时道路路况计算的认识
  5. 如何制作SWD接口接线,并使用keil4_Jlink烧录芯片
  6. [lua] cannot use ‘...‘
  7. Python爬虫:网络爬虫实现豆瓣电影采集,想看啥自己挑选
  8. Matlab最小二乘法:线性最小二乘、加权线性最小二乘、稳健最小二乘、非线性最小二乘与剔除异常值效果比较
  9. ORB-SLAM源码中的相机参数设置
  10. H5 通过jquery动态的设置video src的值无法播放视频?