PHP+正则抓取淘宝装修市场设计师数据

2019独角兽企业重金招聘Python工程师标准>>>

目的

竞争对手分析，了解淘宝装修市场上线了多少无线模板设计师

步骤

找到目标页面

https://zxn.taobao.com/wei_template_list.htm?p=1

至

https://zxn.taobao.com/wei_template_list.htm?p=870

取出html源文件

$html = file_get_contents("https://zxn.taobao.com/wei_template_list.htm?p=$i");

利用正则来解析html

  $start = "\/\/zxn.taobao.com\/designer_detail\.htm\?designerId=";$end = "\">";preg_match_all("/$start(\d+)$end/", $html, $matches);

取matches[1]得到设计师的id号

array(20) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[3]=>string(5) "14040"...[18]=>string(7) "1033337"[19]=>string(5) "75477"
}

遍历分页迭加得所有的设计id号数组

4.1 先声明一个空数组用来不加的merge用

$designer_id_array = [];

4.2 然后在循环体中合并数组

for ($i = 1; $i <= $page ; $i++) {$designer_id_array = array_merge($designer_id_array, $matches[1]);
}

4.3 让$page=2验证结果


array(40) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[39]=>string(5) "40890"
}

对数组元素去重复

array_unique($designer_id_array)

sizeof()求数组长度

echo '无线设计师人数为：' . sizeof($designer_id_array);

大功告成

代码没多讲究，只为实现我自己要的功能。

下载地址：https://git.oschina.net/laeser/spider

转载于:https://my.oschina.net/huangxiujie/blog/912026

PHP+正则抓取淘宝装修市场设计师数据相关推荐

【爬虫】python使用selenium抓取淘宝中的商品数据
前言最近因为项目需要又得抓一批数据,和之前的scrapy不同,这次选择使用selenium来爬取.两种方法的区别如下: scrapy之类的库是基于网络请求来爬取的,也就是直接向目标服务器发送http ...
scrapy抓取淘宝女郎
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
scrapy抓取淘宝女郎 1
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
python3 爬虫实战案例（抓取淘宝信息）（淘宝加了搜索必须登录的验证，此方法所到的结果都是0）
需求:对比足球,篮球,乒乓球,羽毛球,网球,相关物品的销售量保存到excle中和抓取淘宝关键字相关信息的销售量,这和之前抓取csdn网站浏览量取不同,抓取csdn浏览量主要是通过bs4Tag标签,而 ...
Python爬虫实战（4）：抓取淘宝MM照片
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
python爬虫淘宝视频_Python2爬虫：以抓取淘宝MM为例（实战）
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
抓取淘宝天猫的商品的促销价格
通过商品的url获取促销价,天猫淘宝的促销价并不是直接生成的,而是通过js间接生成的.所以通过jsoup等工具无法抓取. 首先是尝试使用htmlUnit,因为其可以,模拟浏览器运行js.css.经试验 ...
Python爬虫实战：抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...

PHP+正则抓取淘宝装修市场设计师数据

目的

步骤

大功告成

PHP+正则抓取淘宝装修市场设计师数据相关推荐

最新文章

热门文章