10月18日

使用PHP抓取函数,练习从京东商城获得商品列表和详情信息。

实例分析:

1、京东为开发者提供开放的接口平台(宙斯),获得授权的用户可以从平台接口中获得所有关心的数据,可参考这里:http://open.jd.com/home/home#/doc/common?listId=892

2、本例中没有使用授权,仅从单一的一个接口中获得商品列表和相关信息。小范围抓取数据。

3、抓取前准备:a、从京东页面中找到某类产品的分类接口,在本例中,我设定的产品是“手机自营”

b、建立数据表,本例中为省事,直接打印到屏幕了

c、将课堂所讲的公共函数、配置方法和数据库操作方法,整合到一个抓取类中,本例中是CurlSpider

e、编写代码开始抓取数据,代码如下:(抓取数据太多,只取第一页)实例

include 'spider.class.php';

//构造接口地址

$url = "https://search-x.jd.com/Search";

$params = array(

"callback" => 'jQuery6105339',

"area" => '5',

"enc" => 'utf-8',

"keyword" => '手机自营',

"adType" => '7',

"page" => '1',

"ad_ids" => '291:19',

"xtest" => 'new_search',

"_" => '1571621477591',

);

$paramstring = http_build_query($params);

//实例化爬虫类

$curlObj = new curlSpider();

//获取接口内容

$content = $curlObj->curl_data($url, $paramstring);

//截取需要的内容

$substr = substr($content, 21, -2);

$result = json_decode($substr, true);

$flag = ['sku_id', 'ad_title', 'sku_price', 'vender_id', 'comment_num'];

// $filer = "/]*>/i"; //正则过滤

$filer = "/(]*>)|(]*>)/i";

echo '编号' . "\t" . '商品名称' . "\t" . '商品价格' . "\t" . '供应商编号' . "\t" . '评论数' . "
";

foreach ($result as $values) {

foreach ($values as $key => $value) {

if (in_array($key, $flag)) {

$$key = preg_replace($filer, "", $value);

}

}

echo $sku_id ."\t". $ad_title ."\t". '¥'. $sku_price ."\t". $vender_id ."\t". $comment_num . "
";

}

?>

运行实例 »

点击 "运行实例" 按钮查看在线实例

抓取到到原始数据如图(展开其中一项):

经过简单加工,提取需要的几个信息后,输出如下图:

总结:

简单了解了PHP爬虫的编写过程,要想掌握,还需要学习很多知识;

初学主要关注的是前面接口分析、连接的设计和后期字符的处理。

京东返利PHP采集关键字,php-爬虫练习:抓取京东商品列表与详情-2019年10月18日...相关推荐

  1. python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例

    本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...

  2. java爬虫 京东_教您使用java爬虫gecco抓取JD全部商品信息(一)

    #教您使用java爬虫gecco抓取JD全部商品信息(一) ##gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取 ...

  3. scrapy爬虫之抓取京东机械键盘评论量并画图展示

    简介 最近想了解一下机械键盘,因此使用scrapy抓取了京东机械键盘 并使用python根据店铺名和评论量进行图片分析. 分析 在写爬虫前,我们需要先分析下京东机械键盘的是怎么访问的. 1.进入京东, ...

  4. 【爬虫】抓取京东商品列表具体商品的各种评论数量-2019年6月可用

    本来只是想简单地抓个好评数,在一开始的搜索结果页面上 然后发现抓不到,用lxml里面etree解析的是空的 问题就变烦了,问了一下前同事,告诉我说是异步渲染的 在这里找到了所有有关评论的请求: 请求得 ...

  5. python京东商品采集_利用Python正则表达式抓取京东网商品信息

    京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%.如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且 ...

  6. Python爬虫之抓取京东店铺信息及下载图片

    这个是抓取信息的 from bs4 import BeautifulSoup import requestsurl = 'https://list.tmall.com/search_product.h ...

  7. python爬虫(抓取百度新闻列表)

    一.python请求要抓取的url页面 要抓取的url http://news.baidu.com/ ,先python模拟请求该url #!/usr/bin/python # -*- coding:u ...

  8. XHR如何爬虫_Python爬虫实战之抓取京东苹果手机评价

    1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...

  9. python iphone 爬虫_Python爬虫实战之抓取京东苹果手机评价!

    1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...

  10. Python爬虫实战(二):抓取京东苹果手机评价

    目录 1. 网站分析 2. 示例代码 3. 注意事项 1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的 ...

最新文章

  1. lvm自动扩容到固定分区脚本
  2. 如何访问“我的网站”
  3. 《C++入门经典(第6版)》——1.5 问与答
  4. android lcd调试 高通平台lcd调试深入分析总结(mipi和rgb接口)
  5. Hibernate Validator用法
  6. 微信网页授权,获取微信code,获取access_tocken,获取用户信息
  7. ICS—CERT官网公示匡恩网络新发现四工控漏洞
  8. 使用Intellij中的Spring Initializr来快速构建Spring Boot/Cloud工程
  9. linux dns 内网ip,Ubuntu中ip地址、网关、网络号、DNS等解释
  10. Android:最全面的 Webview 详解
  11. Linux NTP时间服务器搭建
  12. Linux系统故障排查和修复技巧
  13. myeclipse服务器未能创建视图:抛出意外异常。
  14. 简单快捷的ArcGIS 10.7安装方法
  15. Java 和python多态区别_python面向对象之多态鸭子类型与Java的比较
  16. 美团实习| 周记(二)
  17. [BJOI2019]勘破神机(斯特林数+二项式定理+数学)
  18. 你认识5G物联网关键器件FBG吗
  19. 怎样将好多个字符串组装成一个数组
  20. MATLAB计算杨氏模量,基于MATLAB处理动态图像的杨氏模量测量方法.doc

热门文章

  1. 高端玩家的运营与维护
  2. 如何由网址查找IP地址
  3. 逃离一线!从上海举家回成都七年,现在怎么样了?
  4. kdj买卖指标公式源码_精品 玩转KDJ【精准买卖提示、源码、副图、说明】
  5. 【ftp上传文件失败】put: Access failed: 553 Could not create file. (passwd)(接详细配置1问题解决)
  6. 有趣的黑客网站 | 伪装成黑客高手,像电影黑客一样打字如飞
  7. 知道这4个隐藏资源网站的人非常少,难怪总是找不到资源
  8. 用中信证券示范大作手回忆录
  9. 假如我来架构12306网站---文章来自csdn(Jackxin Xu IT技术专栏)
  10. C51 汇编和C语言编写从1加到100