淘宝店铺的信息的爬取

直接上代码

 //获取到传过来的链接$link = input('link');   $content = $this->getRquest($link);//进行转义$content = mb_convert_encoding($content, 'utf-8','GB2312');//引入PHPquery工具 -- 存放路径  /extend  目录下\think\Loader::import('phpQuery.phpQuery', EXTEND_PATH);$html  = \phpQuery::newDocumentFiles($link);//下载地址---https://code.google.com/archive/p/phpquery/downloads//如果下载不下来,可以直接百度寻找    或者留言邮箱 我看到后会发送 //获取店铺名$shop_name= pq(".shop-name>a")->text();$shop_name = mb_convert_encoding($shop_name,'ISO-8859-1','utf-8');$shop_name = mb_convert_encoding($shop_name,'utf-8','GBK');$shop_name = trim(str_replace("进入店铺","",$shop_name));//获取掌柜号preg_match_all('/<a class=\"seller-name J_TGoldlog\"[\s\S]*?target=\"_blank\">掌柜:([\s\S]* ?)<\/a><br>/',$content,$store_accounts);if (!$store_accounts[0]) {preg_match_all('/<p class=\"info-item\"[\s\S]*?"><span class="title">掌[\s\S]*?柜:<\/span>([\s\S]*?)<\/p>[\s\S]*?<span class="title">客[\s\S]*?服:/',$content,$store_accounts);}$owner = trim($store_accounts[1][0]);//此方法单纯的curlprivate function getRquest($url){$headers = $this->randIp();$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, "");// 3. 执行并获取HTML文档内容$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}//也可以使用此方法  增加了header头 以及构造随机的ipprivate function getHeaderRequest($url){//构造随机ip$ip_long = array(array('607649792', '608174079'), //36.56.0.0-36.63.255.255array('1038614528', '1039007743'), //61.232.0.0-61.237.255.255array('1783627776', '1784676351'), //106.80.0.0-106.95.255.255array('2035023872', '2035154943'), //121.76.0.0-121.77.255.255array('2078801920', '2079064063'), //123.232.0.0-123.235.255.255array('-1950089216', '-1948778497'), //139.196.0.0-139.215.255.255array('-1425539072', '-1425014785'), //171.8.0.0-171.15.255.255array('-1236271104', '-1235419137'), //182.80.0.0-182.92.255.255array('-770113536', '-768606209'), //210.25.0.0-210.47.255.255array('-569376768', '-564133889'), //222.16.0.0-222.95.255.255);$rand_key = mt_rand(0, 9);$ip= long2ip(mt_rand($ip_long[$rand_key][0], $ip_long[$rand_key][1]));$ch = curl_init();//cookie值使用自己的,可以在请求头中找到$headers = array("Content-type: text/xml;charset=\"utf-8\"","Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1","Cache-Control: no-cache","Pragma: no-cache","cookie:lid=%E9%87%8E%E7%8B%BChy; cna=B129FQUBcC0CAXoEOzNJdBZo; ali_apache_track=c_mid=b2b-1791803016|c_lid=%E9%87%8E%E7%8B%BChy|c_ms=1; UM_distinctid=16cb31d9d5fbdc-0f653114eac331-SD; _is_show_loginId_chang-gsd6_false; __rn_alert__=false; isg=BD4-dSADSADs; l=dSD-sdSD-VC..","user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",'CLIENT-IP:'.$ip,'X-FORWARDED-FOR:'.$ip);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_ENCODING, "");        // 3. 执行并获取HTML文档内容curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);$output = curl_exec($ch);// 4. 释放curl句柄curl_close($ch);return $output;}

天猫店铺

 //值获取可以根据获取到信息进行查找$shop_name= pq("#shopExtra>.slogo>.slogo-shopname>strong")->text();$owner =  pq(".extend>ul>.shopkeeper>.right>a")->text();

php tp5 爬取淘宝/天猫店铺的信息相关推荐

  1. python爬取淘宝天猫评论(通过cookie)

    今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法. 1.首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图 2.点击这个scrip ...

  2. 爬取淘宝某店铺所有商品基本信息

    目的:爬取淘宝某店铺所有商品基本信息 这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作 调用模块 import re import requests import time im ...

  3. 七步爬取淘宝天猫bra销售数据,分析中国女性胸部大小分布比例

    这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...

  4. 爬虫(6)-使用selenium爬取淘宝天猫商品信息(价格,销售量等)

    文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...

  5. 爬虫之爬取淘宝主题市场主要产品信息

    一.爬取主题市场中大分类对应的中分类 1. 分析网页源码,构造中分类的url地址: class ThememarketSpider(scrapy.Spider):name = 'thememarket ...

  6. Python 002- 爬虫爬取淘宝上耳机的信息

    参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 1 #-*- coding:utf-8 -*- 2 import ...

  7. python爬虫 爬取淘宝搜索页面商品信息数据

    主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 以下是源代码: #!coding=utf- ...

  8. 【爬虫】爬取淘宝网的商品信息

    文章目录 一.思路 1.根据关键词搜索 2.数据提取 3.数据保存 二.结果 三.源代码 一.思路 首先,从命令行参数列表中,提取出要爬取商品的关键词,根据关键词拼接URL,请求相应的URL,然后利用 ...

  9. python使用requests爬取淘宝搜索页数据

    前一段时间负责爬取淘宝的一些商品信息,本来接到爬取淘宝的任务的时候,下意识的就想用selenium(毕竟淘宝有点不好搞).但是使用selenium时搜索页面也得需要登录,并且当使用selenium时不 ...

最新文章

  1. shell下的作业管理(转)
  2. Google发布新的图像压缩技术,最高可节省75%带宽
  3. unity5x --------Music Mixer参数详解
  4. jvm:类加载器和类的加载过程
  5. 基础教程推荐:跟微软大咖学BI
  6. 2016年,这50家创业公司将真正改变世界
  7. 在腾讯云控制台上对域名进行续费
  8. java 过滤脚本_【快学SpringBoot】过滤XSS脚本攻击(包括json格式)
  9. Linux中用户与组群管理
  10. android 浏览器开技术
  11. REGEXP使用经验
  12. 自然辩证法 题目2
  13. 2021年还有人用.net吗
  14. HTTP协议中URI和URL的区别
  15. 2017年 Python工程师面试经历分享(七家)
  16. 【Flutter 问题系列第 71 篇】Flutter 中 Uint8List 和 Image 之间的相互转换
  17. python 学习爬取链家武汉二手房市场成交记录
  18. STM32实战(1):搭建模板工程
  19. window下python安装包问题小结
  20. 常用计算机高级语言及其特点,计算机高级语言特点是什么?常见的语种有哪些?...

热门文章

  1. java 二级联动_java实现的二级联动菜单效果
  2. HDUOJ 3488 Tour
  3. 机器学习入门之糖尿病预测——ML-sklearn
  4. halcon图像拼接
  5. Linux之sudo滥用提权
  6. 关于项目管理知识的几点概括
  7. 名人故事之 Michael Robertson
  8. 普乐蛙小型VR地震体验VR科普教育体验馆vr地震体验平台6人
  9. 2021CVPR 弱/暗光《Seeing in Extra Darkness Using a Deep-Red Flash》
  10. JVM的内存区域和垃圾回收机制