php tp5 爬取淘宝/天猫店铺的信息

淘宝店铺的信息的爬取

直接上代码

 //获取到传过来的链接$link = input('link');   $content = $this->getRquest($link);//进行转义$content = mb_convert_encoding($content, 'utf-8','GB2312');//引入PHPquery工具 -- 存放路径  /extend  目录下\think\Loader::import('phpQuery.phpQuery', EXTEND_PATH);$html  = \phpQuery::newDocumentFiles($link);//下载地址---https://code.google.com/archive/p/phpquery/downloads//如果下载不下来,可以直接百度寻找    或者留言邮箱 我看到后会发送 //获取店铺名$shop_name= pq(".shop-name>a")->text();$shop_name = mb_convert_encoding($shop_name,'ISO-8859-1','utf-8');$shop_name = mb_convert_encoding($shop_name,'utf-8','GBK');$shop_name = trim(str_replace("进入店铺","",$shop_name));//获取掌柜号preg_match_all('/<a class=\"seller-name J_TGoldlog\"[\s\S]*?target=\"_blank\">掌柜：([\s\S]* ?)<\/a><br>/',$content,$store_accounts);if (!$store_accounts[0]) {preg_match_all('/<p class=\"info-item\"[\s\S]*?"><span class="title">掌[\s\S]*?柜：<\/span>([\s\S]*?)<\/p>[\s\S]*?<span class="title">客[\s\S]*?服：/',$content,$store_accounts);}$owner = trim($store_accounts[1][0]);//此方法单纯的curlprivate function getRquest($url){$headers = $this->randIp();$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, "");// 3. 执行并获取HTML文档内容$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}//也可以使用此方法  增加了header头 以及构造随机的ipprivate function getHeaderRequest($url){//构造随机ip$ip_long = array(array('607649792', '608174079'), //36.56.0.0-36.63.255.255array('1038614528', '1039007743'), //61.232.0.0-61.237.255.255array('1783627776', '1784676351'), //106.80.0.0-106.95.255.255array('2035023872', '2035154943'), //121.76.0.0-121.77.255.255array('2078801920', '2079064063'), //123.232.0.0-123.235.255.255array('-1950089216', '-1948778497'), //139.196.0.0-139.215.255.255array('-1425539072', '-1425014785'), //171.8.0.0-171.15.255.255array('-1236271104', '-1235419137'), //182.80.0.0-182.92.255.255array('-770113536', '-768606209'), //210.25.0.0-210.47.255.255array('-569376768', '-564133889'), //222.16.0.0-222.95.255.255);$rand_key = mt_rand(0, 9);$ip= long2ip(mt_rand($ip_long[$rand_key][0], $ip_long[$rand_key][1]));$ch = curl_init();//cookie值使用自己的,可以在请求头中找到$headers = array("Content-type: text/xml;charset=\"utf-8\"","Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1","Cache-Control: no-cache","Pragma: no-cache","cookie:lid=%E9%87%8E%E7%8B%BChy; cna=B129FQUBcC0CAXoEOzNJdBZo; ali_apache_track=c_mid=b2b-1791803016|c_lid=%E9%87%8E%E7%8B%BChy|c_ms=1; UM_distinctid=16cb31d9d5fbdc-0f653114eac331-SD; _is_show_loginId_chang-gsd6_false; __rn_alert__=false; isg=BD4-dSADSADs; l=dSD-sdSD-VC..","user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",'CLIENT-IP:'.$ip,'X-FORWARDED-FOR:'.$ip);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, "");        // 3. 执行并获取HTML文档内容curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}

天猫店铺

 //值获取可以根据获取到信息进行查找$shop_name= pq("#shopExtra>.slogo>.slogo-shopname>strong")->text();$owner =  pq(".extend>ul>.shopkeeper>.right>a")->text();

php tp5 爬取淘宝/天猫店铺的信息相关推荐

python爬取淘宝天猫评论（通过cookie）
今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法. 1.首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图 2.点击这个scrip ...
爬取淘宝某店铺所有商品基本信息
目的:爬取淘宝某店铺所有商品基本信息这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作调用模块 import re import requests import time im ...
七步爬取淘宝天猫bra销售数据，分析中国女性胸部大小分布比例
这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...
爬虫（6）-使用selenium爬取淘宝天猫商品信息（价格，销售量等）
文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...
爬虫之爬取淘宝主题市场主要产品信息
一.爬取主题市场中大分类对应的中分类 1. 分析网页源码,构造中分类的url地址: class ThememarketSpider(scrapy.Spider):name = 'thememarket ...
Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 1 #-*- coding:utf-8 -*- 2 import ...
python爬虫爬取淘宝搜索页面商品信息数据
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据以下是源代码: #!coding=utf- ...
【爬虫】爬取淘宝网的商品信息
文章目录一.思路 1.根据关键词搜索 2.数据提取 3.数据保存二.结果三.源代码一.思路首先,从命令行参数列表中,提取出要爬取商品的关键词,根据关键词拼接URL,请求相应的URL,然后利用 ...
python使用requests爬取淘宝搜索页数据
前一段时间负责爬取淘宝的一些商品信息,本来接到爬取淘宝的任务的时候,下意识的就想用selenium(毕竟淘宝有点不好搞).但是使用selenium时搜索页面也得需要登录,并且当使用selenium时不 ...

php tp5 爬取淘宝/天猫店铺的信息

淘宝店铺的信息的爬取

直接上代码

天猫店铺

php tp5 爬取淘宝/天猫店铺的信息相关推荐

最新文章

热门文章