@Author: Runsen

每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息。

如果你用惯了xpath和bs4,学习Pyquery是一个不错的选择。

pyquery 是 Python 的第三方库,我们可以借助于 pip3 来安装,安装命令如下:

pip install pyquery

下面,我以CSDN首页为例。

import requests
from pyquery import PyQuery as pq
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
}
res = requests.get("https://www.csdn.net/",headers = headers)
res.encoding = 'utf-8'
doc = pq(res.text)
print(doc("title"))
print(doc("title").text())

输出如下


<title>CSDN-专业IT技术社区</title>CSDN-专业IT技术社区

下面,我需要拿到文章分类的标签。

八、爬虫解析利器 PyQuery 的使用相关推荐

  1. 爬虫解析利器PyQuery详解及使用实践

    作者:叶庭云 整理:Lemon 爬虫解析利器 PyQuery详解及使用实践 之前跟大家分享了 selenium.Scrapy.Pyppeteer 等工具的使用. 今天来分享另一个好用的爬虫解析工具 P ...

  2. 第09讲:爬虫解析利器 PyQuery 的使用

    上一课时我们学习了正则表达式的基本用法,然而一旦你的正则表达式写法有问题,我们就无法获取需要的信息. 你可能会思考:每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为 ...

  3. 爬虫解析利器 PyQuery 的使用

    文章目录 一.简介 二.pyquery基本使用 三.爬取B站视频热搜榜单数据 1. 发送请求 2. 解析提取数据和保存 3. 完整代码 原文链接:https://blog.csdn.net/fyfug ...

  4. Python爬虫辅助利器PyQuery模块的安装使用攻略

    这篇文章主要介绍了Python爬虫辅助利器PyQuery模块的安装使用攻略,PyQuery可以方便地用来解析HTML内容,使其成为众多爬虫程序开发者的大爱,需要的朋友可以参考下 Windows下的安装 ...

  5. beautifulsoup网页爬虫解析_Python爬虫神器:PyQuery,解析网页更简单,小白也能学会

    图/文:迷神 我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容.很多可能和我一样的人,都使用jquery的,那用的还是非常爽的.而pyquery库就是jQu ...

  6. beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析:PyQuery库

    (给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...

  7. 入坑爬虫之网页解析库pyquery的方法和使用

    最近使用爬虫时,有一段数据中混入了一些无用广告的信息,如下: html=''' <div class="list"> <ul> <li>< ...

  8. Python爬虫从入门到精通——解析库pyquery的使用

    分类目录:<Python爬虫从入门到精通>总目录 解析库使用篇: 解析库re的使用:正则表达式 解析库XPath的使用 解析库Beautiful Soup的使用 解析库pyquery的使用 ...

  9. pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

最新文章

  1. python 如何生成特定间隔数列?range()、numpy.arange()
  2. 基于windows平台的命令行软件安装工具Chocolatey的安装
  3. HTML5将终结浏览器与应用程序间的争论
  4. 爱尔兰都柏林圣三一大学计算机排名,2021年爱尔兰都柏林圣三一大学世界及专业排名 不愧是最古老的学府!...
  5. 如何理解np.sum tf.reduce_sum( tf.reduce_max tf.reduce_mean)等对tensor和高维矩阵的axis选择的操作
  6. linux awk 脚本格式,偷偷学习shell脚本之awk编辑器
  7. (转) Lua: 给 Redis 用户的入门指导
  8. Apache阶段二-
  9. Modelbuilder快速入门
  10. python 豆瓣评论分析方法_基于Python的豆瓣影评分析——数据预处理
  11. 无法打开包括文件: “type_traits”
  12. 机器学习(3)特征提取2 -- 文本特征提取(包括中文文本特征提取)
  13. 中兴新支点操作系统上的快捷键
  14. android app 经纬度,经纬度定位app
  15. 附合导线坐标计算例题_附合导线坐标计算
  16. 什么是负载均衡器 负载均衡器的功能
  17. photoshop笔记
  18. 2013搜狗校招研发类C/C++试题
  19. Linux ALSA声卡驱动之四:Codec 以及Codec_dai
  20. js中replace函数的使用

热门文章

  1. ESP32彩屏应用开源了https://github.com/wireless-tag-cn/lv_port_esp32
  2. 长春理工大学计算机学院分数线,2021长春理工大学录取分数线-长春理工大学分数线-2021长春理工大学录取查询网址...
  3. php myadmin utf,phpmyadmin在哪里设置utf_8
  4. java 反射应用_java反射(二)--反射应用案例
  5. 如何修改Series和DataFrame类型中的元素值_Redis的HSCAN命令中COUNT参数的失效场景
  6. 解方程 2014NOIP提高组 (数学)
  7. jquery中prop()方法和attr()方法的区别浅析
  8. 单个字段去重并保留其他字段值
  9. 经典KMP算法C++与Java实现代码
  10. 项目中常用的sql整理和详细01