php tp5 爬取淘宝/天猫店铺的信息
淘宝店铺的信息的爬取
直接上代码
//获取到传过来的链接$link = input('link'); $content = $this->getRquest($link);//进行转义$content = mb_convert_encoding($content, 'utf-8','GB2312');//引入PHPquery工具 -- 存放路径 /extend 目录下\think\Loader::import('phpQuery.phpQuery', EXTEND_PATH);$html = \phpQuery::newDocumentFiles($link);//下载地址---https://code.google.com/archive/p/phpquery/downloads//如果下载不下来,可以直接百度寻找 或者留言邮箱 我看到后会发送 //获取店铺名$shop_name= pq(".shop-name>a")->text();$shop_name = mb_convert_encoding($shop_name,'ISO-8859-1','utf-8');$shop_name = mb_convert_encoding($shop_name,'utf-8','GBK');$shop_name = trim(str_replace("进入店铺","",$shop_name));//获取掌柜号preg_match_all('/<a class=\"seller-name J_TGoldlog\"[\s\S]*?target=\"_blank\">掌柜:([\s\S]* ?)<\/a><br>/',$content,$store_accounts);if (!$store_accounts[0]) {preg_match_all('/<p class=\"info-item\"[\s\S]*?"><span class="title">掌[\s\S]*?柜:<\/span>([\s\S]*?)<\/p>[\s\S]*?<span class="title">客[\s\S]*?服:/',$content,$store_accounts);}$owner = trim($store_accounts[1][0]);//此方法单纯的curlprivate function getRquest($url){$headers = $this->randIp();$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, "");// 3. 执行并获取HTML文档内容$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}//也可以使用此方法 增加了header头 以及构造随机的ipprivate function getHeaderRequest($url){//构造随机ip$ip_long = array(array('607649792', '608174079'), //36.56.0.0-36.63.255.255array('1038614528', '1039007743'), //61.232.0.0-61.237.255.255array('1783627776', '1784676351'), //106.80.0.0-106.95.255.255array('2035023872', '2035154943'), //121.76.0.0-121.77.255.255array('2078801920', '2079064063'), //123.232.0.0-123.235.255.255array('-1950089216', '-1948778497'), //139.196.0.0-139.215.255.255array('-1425539072', '-1425014785'), //171.8.0.0-171.15.255.255array('-1236271104', '-1235419137'), //182.80.0.0-182.92.255.255array('-770113536', '-768606209'), //210.25.0.0-210.47.255.255array('-569376768', '-564133889'), //222.16.0.0-222.95.255.255);$rand_key = mt_rand(0, 9);$ip= long2ip(mt_rand($ip_long[$rand_key][0], $ip_long[$rand_key][1]));$ch = curl_init();//cookie值使用自己的,可以在请求头中找到$headers = array("Content-type: text/xml;charset=\"utf-8\"","Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1","Cache-Control: no-cache","Pragma: no-cache","cookie:lid=%E9%87%8E%E7%8B%BChy; cna=B129FQUBcC0CAXoEOzNJdBZo; ali_apache_track=c_mid=b2b-1791803016|c_lid=%E9%87%8E%E7%8B%BChy|c_ms=1; UM_distinctid=16cb31d9d5fbdc-0f653114eac331-SD; _is_show_loginId_chang-gsd6_false; __rn_alert__=false; isg=BD4-dSADSADs; l=dSD-sdSD-VC..","user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",'CLIENT-IP:'.$ip,'X-FORWARDED-FOR:'.$ip);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, ""); // 3. 执行并获取HTML文档内容curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}
天猫店铺
//值获取可以根据获取到信息进行查找$shop_name= pq("#shopExtra>.slogo>.slogo-shopname>strong")->text();$owner = pq(".extend>ul>.shopkeeper>.right>a")->text();
php tp5 爬取淘宝/天猫店铺的信息相关推荐
- python爬取淘宝天猫评论(通过cookie)
今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法. 1.首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图 2.点击这个scrip ...
- 爬取淘宝某店铺所有商品基本信息
目的:爬取淘宝某店铺所有商品基本信息 这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作 调用模块 import re import requests import time im ...
- 七步爬取淘宝天猫bra销售数据,分析中国女性胸部大小分布比例
这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...
- 爬虫(6)-使用selenium爬取淘宝天猫商品信息(价格,销售量等)
文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...
- 爬虫之爬取淘宝主题市场主要产品信息
一.爬取主题市场中大分类对应的中分类 1. 分析网页源码,构造中分类的url地址: class ThememarketSpider(scrapy.Spider):name = 'thememarket ...
- Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 1 #-*- coding:utf-8 -*- 2 import ...
- python爬虫 爬取淘宝搜索页面商品信息数据
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 以下是源代码: #!coding=utf- ...
- 【爬虫】爬取淘宝网的商品信息
文章目录 一.思路 1.根据关键词搜索 2.数据提取 3.数据保存 二.结果 三.源代码 一.思路 首先,从命令行参数列表中,提取出要爬取商品的关键词,根据关键词拼接URL,请求相应的URL,然后利用 ...
- python使用requests爬取淘宝搜索页数据
前一段时间负责爬取淘宝的一些商品信息,本来接到爬取淘宝的任务的时候,下意识的就想用selenium(毕竟淘宝有点不好搞).但是使用selenium时搜索页面也得需要登录,并且当使用selenium时不 ...
最新文章
- shell下的作业管理(转)
- Google发布新的图像压缩技术,最高可节省75%带宽
- unity5x --------Music Mixer参数详解
- jvm:类加载器和类的加载过程
- 基础教程推荐:跟微软大咖学BI
- 2016年,这50家创业公司将真正改变世界
- 在腾讯云控制台上对域名进行续费
- java 过滤脚本_【快学SpringBoot】过滤XSS脚本攻击(包括json格式)
- Linux中用户与组群管理
- android 浏览器开技术
- REGEXP使用经验
- 自然辩证法 题目2
- 2021年还有人用.net吗
- HTTP协议中URI和URL的区别
- 2017年 Python工程师面试经历分享(七家)
- 【Flutter 问题系列第 71 篇】Flutter 中 Uint8List 和 Image 之间的相互转换
- python 学习爬取链家武汉二手房市场成交记录
- STM32实战(1):搭建模板工程
- window下python安装包问题小结
- 常用计算机高级语言及其特点,计算机高级语言特点是什么?常见的语种有哪些?...