python pyquery 解析html数据
python pyquery 解析html数据
1、Windows环境cmd安装扩展 pip install pyquery
2、扩展下载地址
pyquery download https://pypi.python.org/pypi/pyquery/#downloads
3、pyquery 官方文档:
https://pythonhosted.org/pyquery/
https://pythonhosted.org/pyquery/api.html
4、代码
from pyquery import PyQuery as pqheaders = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
}d = pq(url="https://www.smzdm.com/fenlei/",encoding="utf-8", headers=headers)#print(d('div.title h2 a').text()) #获取所有一级分类
#print(d('#brand-a h3 a').text()) #获取所有二级分类items = d('div.title h2 a').items() #获取结果集
index = 0
for item in items:print( "①" + item.text())twoAndThreeCategoryArr = d('div').find('.brand-waterfall').eq(index).items() #二级和三级分类的divfor twoAndThreeCategory in twoAndThreeCategoryArr:twoCategoryArr = twoAndThreeCategory.find('div#brand-a').items() #单个二级和三级for twoCategory in twoCategoryArr:twoCategoryVal = twoCategory.find('h3 a').text()print( "\t②" + twoCategoryVal)threeCategoryArr = twoCategory.find('div.con p a').items()for threeCategory in threeCategoryArr:threeCategoryVal = threeCategory.text()print( "\t\t③" + threeCategoryVal)index += 1
5、遇到的问题
(1)、http:403 禁止访问
解决方案:加上header头
详细解释:使用pyquery是遇到的一个403的问题 https://www.cnblogs.com/feiyu127/p/7659987.html
(2)、报错:AttributeError: 'set' object has no attribute 'items'
原因:头写错了。
√ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
× 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
执行效果
6、相关地址
python 解析html网页 https://www.cnblogs.com/iamjqy/p/6824444.html
Python中的jquery PyQuery库使用小结
python pyquery 解析html数据相关推荐
- perl python json_Perl解析JSON数据精解
简介: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. 它基于JavaScript(Standard ECMA-262 3rd Edition - De ...
- Python深层解析json数据之JsonPath
我们在做接口自动化时,一般接口响应的都是json数据体,对响应数据进行提取使用或断言,当数据量很大或层级很深时,就会变得很麻烦,于是就可以用到jsonpath模块,解决json路径深取值难的问题. 一 ...
- python html解析_Python HTML解析器
python html解析 Python html.parser module provides us with the HTMLParser class, which can be sub-clas ...
- Python爬虫入门之爬虫解析提取数据的四种方法
本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...
- python遍历data、并输出结果_获取python运行输出的数据并解析存为dataFrame实例
在学习xg的 时候,想画学习曲线,但无奈没有没有这个 evals_result_ AttributeError: 'Booster' object has no attribute 'evals_re ...
- python为什么closed_为什么Python无法解析此JSON数据? [关闭] - Why can't Python parse this JSON data? [closed]...
问题: I have this JSON in a file: 我在文件中有此JSON: { "maps": [ { "id": "blabla&qu ...
- Python 解析构建数据大杂烩 -- csv、xml、json、excel
Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记语言 Html ,但主要对文档和数据 ...
- python爬虫解析数据_Python爬虫入门知识:解析数据篇
首先,让我们回顾一下入门Python爬虫的四个步骤吧: 而解析数据,其用途就是在爬虫过程中将服务器返回的HTML源代码转换为我们能读懂的格式.那么,接下来就正式进入到解析数据篇的内容啦. Part 1 ...
- python 报文解析_python解析DNS数据包实例代码
例子,python解析DNS数据包. 代码示例: ###file QueryDNS.py## -*- coding: utf-8 -*- #Get DNS answer #详情见RFC 1035 im ...
- Python+Open3D 解析Velodyne VLP-16激光雷达数据
Python+Open3D 解析Velodyne VLP-16激光雷达数据 参数简介 数据包介绍 实际数据介绍 坐标转换关系 补偿半径 运行结果 代码 最近在公司搞了搞激光雷达,把代码写一写. 参数简 ...
最新文章
- SAP RETAIL 特征参数文件(Characteristic Profile) I
- C#类、接口、虚方法和抽象方法-虚拟方法与抽象方法之区别
- JQuery Tab菜单的实现
- php函数文件,PHP文件函数大全
- OD使用教程3(中) - 调试篇03|解密系列
- 【渝粤教育】国家开放大学2018年秋季 1049t金融法规 参考试题
- Dubbo项目基本业务基础构建
- libsvm——数据格式的转换及使用
- 2021-09-30安装windows10+ubuntu双系统
- 系统默认声卡驱动没有均衡器的解决方法
- poi导出Excel,表格画斜线,并设置数据
- 前端程序员拿到新电脑第一天,该做些什么?
- c语言欧几里得算法求素数,jrs直播(无插件) -官网
- java中web错误返回码,关于在java程序里调用webservice报500返回码的有关问题
- Python实现b''开头二进制字符串转换为str的utf-8
- c++ sin\cos函数引用
- C++智能指针shared_ptr的使用方法
- 基于美团Leaf-Segment的双buffer方案实现序列号生成器
- 人机大战,历史的见证
- 2022 199管综真题及答案解析
热门文章
- Java 程序员都该懂的 volatile 关键字
- cpu核心分配给不同进程linux,Linux技巧:多核下绑定硬件/进程到不同CPU
- java确定同一用户登录_java保持同一时间同一账号只能在一处登录
- linux下已修改但尚未保存_linux下查看和修改文件时间
- python和c都是什么类型语言-常见的几种语言C,C#,JAVA,Python的运行原理
- linux grep查找指定文件或目录下文件的字符
- php PHP命令行脚本接收传入参数的三种方式
- 20190226杂七杂八
- 手把手教你由TensorFlow上手PyTorch(附代码)
- Atitit 表达式原理 语法分析 原理与实践 解析java的dsl 递归下降是现阶段主流的语法分析方法...