使用xpath解析网页的实例(完整代码)
本文以解析搜狗网页为例,使用xpath方法解析出来它的十个搜锁热词,代码简洁通俗易懂,非常适合初学者入门。完整代码如下:
#导入相关库
import requests
from lxml import etree#发送HTTP请求及响应
url='https://weixin.sogou.com/'
rqq=requests.get(url)#将rqq对象转换为DOM
html=etree.HTML(rqq.content,etree.HTMLParser(encoding='utf-8'))
#etree.tostring(html,encoding='utf-8').decode('utf-8')#方法一:通过网页查看热词位置,手写路径
print(html.xpath('/html/body/div/div/div/ol/li/a/text()'))
#方法二:压缩一下的路径,不需要一步一步写了,前面所有路径都可以是//*来代替
html.xpath('//*[@id="topwords"]/li/a/text()')
#方法三:使用谷歌开发者工具定位到其中之一的热词的相应位置复制xpath,粘贴过来,下标修改一下为i,利用循环打印
[html.xpath('//*[@id="topwords"]/li['+str(i)+']/a/text()') for i in range(1,11)]
#方法四:(最简单方法),和法三一样先复制粘贴过来,然后直接去掉那个具体的下标,就得到了方法二
html.xpath('//*[@id="topwords"]/li/a/text()')
以上就是完整代码,结果截图如下:
使用xpath解析网页的实例(完整代码)相关推荐
- 【神经网络】(12) MobileNetV2 代码复现,网络解析,附Tensorflow完整代码
各位同学好,今天和大家分享一下如何使用 Tensorflow 复现谷歌轻量化神经网络 MobileNetV2. 在上一篇中我介绍了MobileNetV1,探讨了深度可分离卷积,感兴趣的可以看一下:ht ...
- python通过xpath解析网页爬取高清大图和王者荣耀英雄海报
python通过xpath解析网页 xpath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但 ...
- php编网页版计算器,php 简单网页计算器的完整代码
这篇文章主要为大家详细介绍了php 简单网页计算器的完整代码,具有一定的参考价值,可以用来参考一下. 对php实现的一个简单的网页计算器代码感兴趣的小伙伴,下面一起跟随512笔记的小编两巴掌来看看吧! ...
- 【Golang实战】——XPath解析网页
引言 之前用Python写过一个解析网页的脚本,最近开始研究golang,所以准备用golang将其重构,但是这个脚本中使用了到了python中的xpath库,所以研究了下,golang也有对应的库, ...
- chrome动态ip python_用Python爬虫爬取动态网页,附带完整代码,有错误欢迎指出!...
系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...
- java css网页布局实例_java代码例子
JAVA 类名.方法名(这里面写的是什么)能不能写个代要是类名直接调用的方法,那这个方法就是静态的(static)方法,是不用new出新对象实例就可以直接调用的方法.看下面例子: class A{ p ...
- JavaScript实现网页计时器(有完整代码)
文章目录 一.如何实现倒计时的功能? 效果图 项目思路 二.完整代码 一.如何实现倒计时的功能? 效果图 项目思路 先搭建好如下的框架.其中<input type="text" ...
- 【神经网络】(19) ConvNeXt 代码复现,网络解析,附Tensorflow完整代码
各位同学好,今天和大家分享一下如何使用 Tensorflow 构建 ConvNeXt 卷积神经网络模型. 论文地址:https://arxiv.org/pdf/2201.03545.pdf 完整代码在 ...
- 【神经网络】(18) EfficientNetV2 代码复现,网络解析,附Tensorflow完整代码
各位同学好,今天和大家分享一下如何使用 Tensorflow 搭建 EfficientNetV2 卷积神经网络模型. EfficientNetV2 在 EfficientNetV1 的基础上进行了改进 ...
最新文章
- 告别低分辨率网络,微软提出高分辨率深度神经网络HRNet | CVPR 2019
- RichTextBox读写数据库
- i27岁转行java,JavaTM I/O 性能分析[转]
- 10的预览模式_谷歌相机2020年3月更新汇总,适配米10等五摄手机,30s手动曝光
- Knative Serving 健康检查机制分析
- C#黔驴技巧之实现统计结果排名
- 第十七节(is-a 、is-like-a 、has-a,包和 import )
- Python之UDP通讯简单例子
- [机器学习入门] 经典台大李宏毅机器学习课程从这里开始
- MySQL 根据身份证号查询个人信息
- mysql 中的 SCHEMATA 表
- [渝粤教育] 天水师范学院 地理信息系统原理与方法 参考 资料
- teablue数据分析_京东消费者数据分析
- Win10应用商店无法联网
- 数据通信与网络:CH5 Analog Transmission
- PMP(第六版)中的合同总结
- 华为云数据库跃进式发展
- 抖音小店在哪里登录?抖音店怎么运营?
- Pygame详解(十六):cursors 模块
- node.js map 的用法
热门文章
- 初级中学理化生实验室建设与配备标准
- 如何更改MySQL数据库密码(免密)
- SIM300拨号上网与GPRS连接
- 字节面试题-小于N的最大数字
- A later version of Node.js is already installed. Setup willnow exit.
- 薛定谔 | 小分子叠合
- webpack使用css-loader跟style-loader加载css报错
- 高新技术企业定义和好处
- 电子计算机的四个名称,文件夹,文件夹名称唯美四个
- Python解决:当文件夹存在时清空文件夹,文件夹不存在时新建文件夹