PHP+正则抓取淘宝装修市场设计师数据
2019独角兽企业重金招聘Python工程师标准>>>
目的
竞争对手分析,了解淘宝装修市场上线了多少无线模板设计师
步骤
- 找到目标页面
https://zxn.taobao.com/wei_template_list.htm?p=1
至
https://zxn.taobao.com/wei_template_list.htm?p=870
- 取出html源文件
$html = file_get_contents("https://zxn.taobao.com/wei_template_list.htm?p=$i");
- 利用正则来解析html
$start = "\/\/zxn.taobao.com\/designer_detail\.htm\?designerId=";$end = "\">";preg_match_all("/$start(\d+)$end/", $html, $matches);
取matches[1]得到设计师的id号
array(20) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[3]=>string(5) "14040"...[18]=>string(7) "1033337"[19]=>string(5) "75477"
}
- 遍历分页迭加得所有的设计id号数组
4.1 先声明一个空数组用来不加的merge用
$designer_id_array = [];
4.2 然后在循环体中合并数组
for ($i = 1; $i <= $page ; $i++) {$designer_id_array = array_merge($designer_id_array, $matches[1]);
}
4.3 让$page=2验证结果
array(40) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[39]=>string(5) "40890"
}
- 对数组元素去重复
array_unique($designer_id_array)
- sizeof()求数组长度
echo '无线设计师人数为:' . sizeof($designer_id_array);
大功告成
代码没多讲究,只为实现我自己要的功能。
下载地址:https://git.oschina.net/laeser/spider
转载于:https://my.oschina.net/huangxiujie/blog/912026
PHP+正则抓取淘宝装修市场设计师数据相关推荐
- 【爬虫】python使用selenium抓取淘宝中的商品数据
前言 最近因为项目需要又得抓一批数据,和之前的scrapy不同,这次选择使用selenium来爬取.两种方法的区别如下: scrapy之类的库是基于网络请求来爬取的,也就是直接向目标服务器发送http ...
- scrapy抓取淘宝女郎
scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
- scrapy抓取淘宝女郎 1
scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
- python3 爬虫实战案例 (抓取淘宝信息)(淘宝加了搜索必须登录的验证,此方法所到的结果都是0)
需求:对比足球,篮球,乒乓球,羽毛球,网球,相关物品的销售量保存到excle中 和抓取淘宝关键字相关信息的销售量,这和之前抓取csdn网站浏览量取不同,抓取csdn浏览量主要是通过bs4Tag标签,而 ...
- Python爬虫实战(4):抓取淘宝MM照片
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
- Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
- python爬虫淘宝视频_Python2爬虫:以抓取淘宝MM为例(实战)
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...
- 抓取淘宝天猫的商品的促销价格
通过商品的url获取促销价,天猫淘宝的促销价并不是直接生成的,而是通过js间接生成的.所以通过jsoup等工具无法抓取. 首先是尝试使用htmlUnit,因为其可以,模拟浏览器运行js.css.经试验 ...
- Python爬虫实战:抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...
最新文章
- 每日一皮:男性同胞,是时候反击了!
- matlab 如何定义符号数组
- jsp页面怎么调用的servlet
- 【牛客 - 318L】彪神666(水题,半高精度,递推,trick)
- 十、封装python3读写ini文件类
- 时间转年月日_编程中常见的时间格式
- Python游戏编程入门,让你秒变电脑大神!
- Python爬虫学习——布隆过滤器
- ThinkPHP5.1设置404页面
- 软考高项--第一章项目整体管理
- 极狐GitLab CI/CD 测试题
- LeetCode 300. Longest Increasing Subsequence
- python随机密码生成以整数17为随机数种子_简述pythonpytorch 随机种子的实现
- Java的时间格式化
- 螺旋传动设计系统lisp_螺旋传动设计.doc
- 邱姓女孩五行缺水取名
- polygon NFT开发教程
- Elasticsearch7.x配置xpack实战
- web科大讯飞语音识别webapi
- python生成带背景的字符图片(crnn数据集制作)
热门文章
- JavaScript中计算N次方的方法**和math.pow()-讲解
- 【Django-CI系统】JSON的使用-20220509
- 2022西藏最新道路运输安全员模拟考试试题及答案
- 7月4日云栖精选夜读:从《网安法》出发,给企业安全管理者的五条建议
- CopyFile“拒绝访问”是怎么回事
- Lenovo Newifi mini(Y1)刷breed和pandorabox固件
- css 文字超出部分自动加省略号
- KVM架构VPS服务器有哪些优势?
- H5页面软键盘常见问题
- 2021Android面试心得:阿里巴巴内部Jetpack宝典意外流出!超详细