python pyquery 解析html数据

1、Windows环境cmd安装扩展 pip install pyquery

2、扩展下载地址
        pyquery download https://pypi.python.org/pypi/pyquery/#downloads
3、pyquery 官方文档:
        https://pythonhosted.org/pyquery/
        https://pythonhosted.org/pyquery/api.html

4、代码

from pyquery import PyQuery as pqheaders = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
}d = pq(url="https://www.smzdm.com/fenlei/",encoding="utf-8", headers=headers)#print(d('div.title h2 a').text())  #获取所有一级分类
#print(d('#brand-a h3 a').text())   #获取所有二级分类items = d('div.title h2 a').items()     #获取结果集
index = 0
for item in items:print( "①" + item.text())twoAndThreeCategoryArr = d('div').find('.brand-waterfall').eq(index).items()   #二级和三级分类的divfor twoAndThreeCategory in twoAndThreeCategoryArr:twoCategoryArr = twoAndThreeCategory.find('div#brand-a').items()           #单个二级和三级for twoCategory in twoCategoryArr:twoCategoryVal = twoCategory.find('h3 a').text()print( "\t②" + twoCategoryVal)threeCategoryArr = twoCategory.find('div.con p a').items()for threeCategory in threeCategoryArr:threeCategoryVal = threeCategory.text()print( "\t\t③" + threeCategoryVal)index += 1

5、遇到的问题
    (1)、http:403 禁止访问
        解决方案:加上header头
        详细解释:使用pyquery是遇到的一个403的问题 https://www.cnblogs.com/feiyu127/p/7659987.html
    (2)、报错:AttributeError: 'set' object has no attribute 'items'
        原因:头写错了。
        √  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
        × 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'

执行效果

6、相关地址    
    python 解析html网页 https://www.cnblogs.com/iamjqy/p/6824444.html

Python中的jquery PyQuery库使用小结

python pyquery 解析html数据相关推荐

  1. perl python json_Perl解析JSON数据精解

    简介: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. 它基于JavaScript(Standard ECMA-262 3rd Edition - De ...

  2. Python深层解析json数据之JsonPath

    我们在做接口自动化时,一般接口响应的都是json数据体,对响应数据进行提取使用或断言,当数据量很大或层级很深时,就会变得很麻烦,于是就可以用到jsonpath模块,解决json路径深取值难的问题. 一 ...

  3. python html解析_Python HTML解析器

    python html解析 Python html.parser module provides us with the HTMLParser class, which can be sub-clas ...

  4. Python爬虫入门之爬虫解析提取数据的四种方法

    本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

  5. python遍历data、并输出结果_获取python运行输出的数据并解析存为dataFrame实例

    在学习xg的 时候,想画学习曲线,但无奈没有没有这个 evals_result_ AttributeError: 'Booster' object has no attribute 'evals_re ...

  6. python为什么closed_为什么Python无法解析此JSON数据? [关闭] - Why can't Python parse this JSON data? [closed]...

    问题: I have this JSON in a file: 我在文件中有此JSON: { "maps": [ { "id": "blabla&qu ...

  7. Python 解析构建数据大杂烩 -- csv、xml、json、excel

    Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记语言 Html ,但主要对文档和数据 ...

  8. python爬虫解析数据_Python爬虫入门知识:解析数据篇

    首先,让我们回顾一下入门Python爬虫的四个步骤吧: 而解析数据,其用途就是在爬虫过程中将服务器返回的HTML源代码转换为我们能读懂的格式.那么,接下来就正式进入到解析数据篇的内容啦. Part 1 ...

  9. python 报文解析_python解析DNS数据包实例代码

    例子,python解析DNS数据包. 代码示例: ###file QueryDNS.py## -*- coding: utf-8 -*- #Get DNS answer #详情见RFC 1035 im ...

  10. Python+Open3D 解析Velodyne VLP-16激光雷达数据

    Python+Open3D 解析Velodyne VLP-16激光雷达数据 参数简介 数据包介绍 实际数据介绍 坐标转换关系 补偿半径 运行结果 代码 最近在公司搞了搞激光雷达,把代码写一写. 参数简 ...

最新文章

  1. SAP RETAIL 特征参数文件(Characteristic Profile) I
  2. C#类、接口、虚方法和抽象方法-虚拟方法与抽象方法之区别
  3. JQuery Tab菜单的实现
  4. php函数文件,PHP文件函数大全
  5. OD使用教程3(中) - 调试篇03|解密系列
  6. 【渝粤教育】国家开放大学2018年秋季 1049t金融法规 参考试题
  7. Dubbo项目基本业务基础构建
  8. libsvm——数据格式的转换及使用
  9. 2021-09-30安装windows10+ubuntu双系统
  10. 系统默认声卡驱动没有均衡器的解决方法
  11. poi导出Excel,表格画斜线,并设置数据
  12. 前端程序员拿到新电脑第一天,该做些什么?
  13. c语言欧几里得算法求素数,jrs直播(无插件) -官网
  14. java中web错误返回码,关于在java程序里调用webservice报500返回码的有关问题
  15. Python实现b''开头二进制字符串转换为str的utf-8
  16. c++ sin\cos函数引用
  17. C++智能指针shared_ptr的使用方法
  18. 基于美团Leaf-Segment的双buffer方案实现序列号生成器
  19. 人机大战,历史的见证
  20. 2022 199管综真题及答案解析

热门文章

  1. Java 程序员都该懂的 volatile 关键字
  2. cpu核心分配给不同进程linux,Linux技巧:多核下绑定硬件/进程到不同CPU
  3. java确定同一用户登录_java保持同一时间同一账号只能在一处登录
  4. linux下已修改但尚未保存_linux下查看和修改文件时间
  5. python和c都是什么类型语言-常见的几种语言C,C#,JAVA,Python的运行原理
  6. linux grep查找指定文件或目录下文件的字符
  7. php PHP命令行脚本接收传入参数的三种方式
  8. 20190226杂七杂八
  9. 手把手教你由TensorFlow上手PyTorch(附代码)
  10. Atitit 表达式原理 语法分析 原理与实践 解析java的dsl  递归下降是现阶段主流的语法分析方法...