Python如何利用Xpath选择器爬取京东网商品信息

发布时间:2020-07-20 10:50:32

来源:亿速云

阅读:91

作者:小猪

这篇文章主要讲解了Python如何利用Xpath选择器爬取京东网商品信息,内容清晰明了,对此有兴趣的小伙伴可以学习一下,相信大家阅读完之后会有帮助。

HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

首先进入京东网,输入自己想要查询的商品,向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象,之后得到后面这一串网址:

https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8,其中参数的意思就是我们输入的keyword,在本例中该参数代表“狗粮”,具体详情可以参考Python大神用正则表达式教你搞定京东商品信息。所以,只要输入keyword这个参数之后,将其进行编码,就可以获取到目标URL。之后请求网页,得到响应,尔后利用bs4选择器进行下一步的数据采集。

商品信息在京东官网上的部分网页源码如下图所示:

狗粮信息在京东官网上的网页源码

仔细观察源码,可以发现我们所需的目标信息是存在

标签下的,那么接下来我们就像剥洋葱一样,一层一层的去获取我们想要的信息。

通常URL编码的方式是把需要编码的字符转化为%xx的形式,一般来说URL的编码是基于UTF-8的,当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法,可以实现对URL的字符串进行编码,从而可以进入到对应的网页中去。

在线复制Xpath表达式

很多小伙伴都觉得Xpath表达式很难写,其实掌握了基本的用法也就不难了。在线复制Xpath表达式如上图所示,可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用,而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

直接上代码,利用Xpath去提取目标信息,如商品的名字、链接、图片和价格,具体的代码如下图所示:

爬虫代码

在这里,小编告诉大家一个Xpath表达式匹配技巧。之前看过好几篇文章,大佬们都推荐Xpath表达式使用嵌套匹配的方式。在本例中,首先定义items,如下所示:

items = selector.xpath('//li[@class="gl-item"]')

之后通过range函数,逐个从网页中进行匹配目标信息,而不是直接通过复制Xpath表达式的方式一步到位。希望小伙伴们以后都可以少入这个坑~~

最后得到的效果图如下所示:

最终效果图

新鲜的狗粮再一次出炉咯~~~

小伙伴们,有没有发现利用Xpath来获取目标信息比正则表达式要简单一些呢?

看完上述内容,是不是对Python如何利用Xpath选择器爬取京东网商品信息有进一步的了解,如果还想学习更多内容,欢迎关注亿速云行业资讯频道。

python如何用xpath爬取指定内容_Python如何利用Xpath选择器爬取京东网商品信息相关推荐

  1. python如何用xpath爬取指定内容_Python利用Xpath选择器爬取京东网商品信息

    HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step ...

  2. python爬取京东商品信息代码_Python利用Xpath选择器爬取京东网商品信息

    HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step ...

  3. python京东商品采集_利用Python正则表达式抓取京东网商品信息

    京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%.如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且 ...

  4. python读文件一次读特定行_Python3实现从文件中读取指定行的方法 python读取文本内每行指定内容...

    如何用python读取文本中指定行的内容在这个世界上说不出口的话太多了,你能不能陪小编去,你能不能留下来,你能不能帮帮小编,你对小编很重要,所以你可不可以不要走,到最后哽咽出口的却是,没关系,小编可以 ...

  5. python txt提取特定数据_Python提取列表中的内容 用“python”怎么提取文件里的指定内容?...

    用"python"怎么提取文件里的指定内容? python读取文件内容的方法: 一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中: all_the_text = ...

  6. python删除文本中指定内容_Python实现删除文件中含“指定内容”的行示例

    本文实例讲述了Python实现删除文件中含指定内容的行.分享给大家供大家参考,具体如下: #!/bin/env python import shutil,sys,os darray = [ " ...

  7. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  8. Python爬虫——4.6使用requests和正则表达式、随机代理爬取淘宝网商品信息

    # coding:utf-8 ''' 使用requests模块,使用代理,进行淘宝网商品信息的爬取 ''' # 引入需要的模块 import requests import random import ...

  9. 爬虫项目实战十一:爬取当当网商品信息

    爬取当当网商品信息 目标 项目准备 网站分析 页码分析 反爬分析 代码实现 效果显示 目标 批量爬取当当网商品信息,保存为csv文件到本地. 项目准备 软件:Pycharm 第三方库:requests ...

  10. 利用CSS选择器爬取豆瓣上的图书

    利用CSS选择器爬取豆瓣上的图书 主要技术:熟练掌握requests.BeautifulSoup 爬取图书链接 "https://book.douban.com/latest?icn=ind ...

最新文章

  1. YOLOV4知识点分析(一)
  2. 第四章 Joomla!扩展开发:前端开发
  3. 世界未解之谜之----------Android Gradle
  4. 【Pthon入门学习】多级菜单小例子
  5. java保留小数_(转)Java保留小数位数的N中方法
  6. 睢县第三届芦笋文化节开幕 对话中国农民丰收节交易会
  7. c语言cobegin用法,用C语言实现P、V操作
  8. 05Prism WPF 入门实战 - Navigation
  9. 同时买票是怎么实现的_去巴黎玩怎么买地铁票最划算?| 巴黎最全交通攻略
  10. 解决ubuntu下pdf中文不显示或乱码问题
  11. 《深入浅出DPDK》读书笔记(七):PCIe与包处理I/O
  12. 基于JAVA+SpringMVC+Mybatis+MYSQL的OA办公系统
  13. 四、RabbitMQ消息消费时的权衡
  14. 使用Intersection Observer API创建无限加载组件
  15. js 判断是ie浏览器
  16. Git命令行和Puttygen生成公钥私钥的方法和区别
  17. 本科生毕业论文中期检查表
  18. [转]下载安装IDM Integration Module和其使用方法
  19. 【NOIP2014】生活大爆炸版石头剪刀布
  20. 编程之美-中国象棋将帅问题

热门文章

  1. python怎么算二元一次方程_利用Python求解二元一次方程
  2. python类使用异步_异步Python类
  3. 编织机上下料西门子S71200PLC和KTP700触摸屏程序博途V14
  4. 【ANSYS命令流】定义单元类型与实常数
  5. 简单论坛系统数据库的设计
  6. 分享6款国内、国外开源PHP轻论坛CMS程序
  7. pygame安装教程
  8. 深度学习视频数据集(动作识别):UCF-101
  9. 阿酷三合一版_3DMax阿酷插件终极版下载-阿酷插件 v3.2 2009-2020 开源无限制版-简易下载站...
  10. CGAN和InfoGAN理解