爬虫规则经常变化,19.8月份的规则如下,百度了一大推全是坑

商品链接:

https://item.taobao.com/item.htm?spm=a230r.1.14.370.8f70dd6eQ9F2hp&id=598006262861&ns=1&abbucket=7#detail

主要用的参数是id

下面分析详情页面的数据来源

找到数据源咯,接下来看数据是怎么拿出来的。

当然是查看源码啦

拿到两个地址啦啦啦啦

还是带个随即参数

$url = "https://item.taobao.com/item.htm?id=600321893997&tbpm=3&ra=".mt_rand(100000,999999);data = controller("common")->http_curl($url);
$data = mb_convert_encoding($data, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5');
preg_match("/dscnew.taobao.com.+?'/i", $data, $matches1);preg_match("/descnew.taobao.com.+?'/i", $data, $matches2);$matches1_ = substr($matches1[0],0,-1);$matches2_ = substr($matches2[0],0,-1);$data1 = controller("common")->http_curl($matches2_);$data1 = mb_convert_encoding($data1, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5');echo substr($data1,10,-3)."<br>";preg_match_all("/src=\"(.+?)\"/i", $data1, $matches3);/*** * @param type $url* @param type $type* @param type $arr* @return type*/public function http_curl($url, $type = 'get', $arr = '') {if($arr){$o = "";foreach ( $arr as $k => $v ) { $o.= "$k=" . urlencode( $v ). "&" ;}$arr = substr($o,0,-1);}$ch = curl_init();$headers = array("cache-control: no-cache");$user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36";curl_setopt($ch, CURLOPT_URL, $url); //设置访问的地址curl_setopt($ch, CURLOPT_USERAGENT,$user_agent);
//        curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);
//        curl_setopt($ch, CURLOPT_HEADER, 1 );curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //获取的信息返回curl_setopt ($ch, CURLOPT_REFERER, "www.baidu.com");  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
//        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
//        curl_setopt($ch,CURLOPT_COOKIE,$cookie);if ($type == 'post') {curl_setopt($ch, CURLOPT_POST, 1);curl_setopt($ch, CURLOPT_POSTFIELDS, $arr);}$output = curl_exec($ch); if (curl_error($ch)) {return curl_error($ch);}return $output;}

php 抓取淘宝商品详情相关推荐

  1. 采集淘宝API数据,抓取淘宝商品资料无需申请appkey

    为了进行淘宝的API开发,首先我们需要做下面几件事情. 1)开发者注册一个账号 2)然后为每个淘宝应用注册一个应用程序键(App Key) . 3)下载淘宝API的SDK并掌握基本的API基础知识和调 ...

  2. Python爬取淘宝商品详情页数据

      在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示: 当这个插件处于关闭状态时,待爬取 ...

  3. 京东上货助手批量抓取淘宝商品步骤

    京东上传商品的不是很复杂,不过如果想要批量抓取其他平台商品到京东,京东商家就需要时间和精力来批量抓取商品上传了.一般在京东开店的商家,在淘宝.阿里等平台都会有店铺的,这个是电商商家的常态,很多商家都会 ...

  4. 京东上货助手怎么批量抓取淘宝商品?

    京东开店的商家,是如何把其他平台的商品一键复制到京东的呢?京东是个什么样的平台呢?相信很多商家都知道吧,京东有自己的物流,是中国的综合网络零售商,是中国电子商务领域受消费者欢迎和具有影响力的电子商务网 ...

  5. 【爬虫】selenium+webdrive抓取淘宝商品评价

    [爬虫]selenium+webdrive抓取淘宝商品评价 爬虫小白入门 (声明:本人只是处于突如其来的兴趣学习一点点,水平实在不高,但在这个过程中也或多或少地解决了一些问题,所以对同为小白的朋友们或 ...

  6. python获取登录按钮_Python:Selenium模拟Chrome浏览器抓取淘宝商品信息

    对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

  7. 抓取淘宝商品信息并制作商品信息比价表(以口红为例)

    快速抓取淘宝上口红信息 import requests import re import os def getHtmlText(url): try: r=requests.get(url,timeou ...

  8. 3.使用Selenium模拟浏览器抓取淘宝商品美食信息

    # 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...

  9. 数据分析实战二:爬取淘宝商品详情页进行分析

    对淘宝商品信息进行数据分析 项目流程: 1.数据获取 2.数据清洗 3.数据分析与可视化 数据获取(爬虫) 淘宝数据是通过动态加载的方式显示的,所以采用selenium模拟浏览器操作爬取商品页详情信息 ...

最新文章

  1. Ubuntu下,Java中利用JNI调用codeblocks c++生成的动态库的使用步骤
  2. ASP连接Access2013
  3. 高压五防计算机软件安装,基于Android的新一代五防钥匙软件系统
  4. Learning to Learn:图神经网络上的元学习
  5. C# 动态添加SEO 信息,不和静态页面重复和叠加
  6. net 中web.config一个配置文件解决方法 (其他配置文件引入方式)
  7. Trident API 概览
  8. python 迭代器、生成器知识点总结
  9. 由浅入深学习Apache httpd原理与配置
  10. 《统计学习方法》—— 朴素贝叶斯方法、详细推导及其python3实现(二)
  11. 深度揭秘阿里云 Serverless Kubernetes
  12. 附合导线坐标计算例题_附合导线计算方法(实例)
  13. 用最优控制视角看微分几何下的测地线
  14. 【搜狗VR输入法无法显示键盘】
  15. MPEG-7描述子(0)——颜色空间
  16. impala常见错误
  17. Android软件测试外文文献,软件测试中英文对照外文翻译文献
  18. base64格式图片直接显示
  19. 激光测距仪全国产化电子元件推荐方案
  20. 系统调用中断(EINTR)与SIGCHLD信号的处理

热门文章

  1. 我的世界制作服务器地图,我的世界1.7地图制作必看心得 教你怎么做地图
  2. AtCoder Beginner Contest 242——1111gal password
  3. pip问题:Traceback (most recent call last):File “/home/coin/anaconda3/lib/python3.7/site-packages/pip/_
  4. 黑马程序员武汉中心——程序员面试套路集
  5. WPS表格excel实现下拉搜索(简单几步,轻松搞定)
  6. 网络安全知识之Cross-Site Request Forgery (CSRF) 简介
  7. 大剖析:中国数万亿家装市场,为何出不了一个30亿美金的Houzz?
  8. 改变世界前,先改变自己
  9. 学渣的刷题之旅 leetcode刷题 83.删除排序链表中的重复元素
  10. 巴西龟饲养日志----养龟第二年开始