php 抓取淘宝商品详情

爬虫规则经常变化，19.8月份的规则如下，百度了一大推全是坑

商品链接：

https://item.taobao.com/item.htm?spm=a230r.1.14.370.8f70dd6eQ9F2hp&id=598006262861&ns=1&abbucket=7#detail

主要用的参数是id

下面分析详情页面的数据来源

找到数据源咯，接下来看数据是怎么拿出来的。

当然是查看源码啦

拿到两个地址啦啦啦啦

还是带个随即参数

$url = "https://item.taobao.com/item.htm?id=600321893997&tbpm=3&ra=".mt_rand(100000,999999);data = controller("common")->http_curl($url);
$data = mb_convert_encoding($data, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5');
preg_match("/dscnew.taobao.com.+?'/i", $data, $matches1);preg_match("/descnew.taobao.com.+?'/i", $data, $matches2);$matches1_ = substr($matches1[0],0,-1);$matches2_ = substr($matches2[0],0,-1);$data1 = controller("common")->http_curl($matches2_);$data1 = mb_convert_encoding($data1, 'UTF-8', 'UTF-8,GBK,GB2312,BIG5');echo substr($data1,10,-3)."<br>";preg_match_all("/src=\"(.+?)\"/i", $data1, $matches3);/*** * @param type $url* @param type $type* @param type $arr* @return type*/public function http_curl($url, $type = 'get', $arr = '') {if($arr){$o = "";foreach ( $arr as $k => $v ) { $o.= "$k=" . urlencode( $v ). "&" ;}$arr = substr($o,0,-1);}$ch = curl_init();$headers = array("cache-control: no-cache");$user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36";curl_setopt($ch, CURLOPT_URL, $url); //设置访问的地址curl_setopt($ch, CURLOPT_USERAGENT,$user_agent);
//        curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);
//        curl_setopt($ch, CURLOPT_HEADER, 1 );curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //获取的信息返回curl_setopt ($ch, CURLOPT_REFERER, "www.baidu.com");  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
//        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
//        curl_setopt($ch,CURLOPT_COOKIE,$cookie);if ($type == 'post') {curl_setopt($ch, CURLOPT_POST, 1);curl_setopt($ch, CURLOPT_POSTFIELDS, $arr);}$output = curl_exec($ch); if (curl_error($ch)) {return curl_error($ch);}return $output;}

php 抓取淘宝商品详情相关推荐

采集淘宝API数据，抓取淘宝商品资料无需申请appkey
为了进行淘宝的API开发,首先我们需要做下面几件事情. 1)开发者注册一个账号 2)然后为每个淘宝应用注册一个应用程序键(App Key) . 3)下载淘宝API的SDK并掌握基本的API基础知识和调 ...
Python爬取淘宝商品详情页数据
在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示: 当这个插件处于关闭状态时,待爬取 ...
京东上货助手批量抓取淘宝商品步骤
京东上传商品的不是很复杂,不过如果想要批量抓取其他平台商品到京东,京东商家就需要时间和精力来批量抓取商品上传了.一般在京东开店的商家,在淘宝.阿里等平台都会有店铺的,这个是电商商家的常态,很多商家都会 ...
京东上货助手怎么批量抓取淘宝商品？
京东开店的商家,是如何把其他平台的商品一键复制到京东的呢?京东是个什么样的平台呢?相信很多商家都知道吧,京东有自己的物流,是中国的综合网络零售商,是中国电子商务领域受消费者欢迎和具有影响力的电子商务网 ...
【爬虫】selenium+webdrive抓取淘宝商品评价
[爬虫]selenium+webdrive抓取淘宝商品评价爬虫小白入门 (声明:本人只是处于突如其来的兴趣学习一点点,水平实在不高,但在这个过程中也或多或少地解决了一些问题,所以对同为小白的朋友们或 ...
python获取登录按钮_Python：Selenium模拟Chrome浏览器抓取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
抓取淘宝商品信息并制作商品信息比价表（以口红为例）
快速抓取淘宝上口红信息 import requests import re import os def getHtmlText(url): try: r=requests.get(url,timeou ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
数据分析实战二：爬取淘宝商品详情页进行分析
对淘宝商品信息进行数据分析项目流程: 1.数据获取 2.数据清洗 3.数据分析与可视化数据获取(爬虫) 淘宝数据是通过动态加载的方式显示的,所以采用selenium模拟浏览器操作爬取商品页详情信息 ...

php 抓取淘宝商品详情

php 抓取淘宝商品详情相关推荐

最新文章

热门文章