2019独角兽企业重金招聘Python工程师标准>>>

目的

竞争对手分析,了解淘宝装修市场上线了多少无线模板设计师

步骤

  1. 找到目标页面

https://zxn.taobao.com/wei_template_list.htm?p=1

https://zxn.taobao.com/wei_template_list.htm?p=870

  1. 取出html源文件
$html = file_get_contents("https://zxn.taobao.com/wei_template_list.htm?p=$i");
  1. 利用正则来解析html
  $start = "\/\/zxn.taobao.com\/designer_detail\.htm\?designerId=";$end = "\">";preg_match_all("/$start(\d+)$end/", $html, $matches);

取matches[1]得到设计师的id号

array(20) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[3]=>string(5) "14040"...[18]=>string(7) "1033337"[19]=>string(5) "75477"
}
  1. 遍历分页迭加得所有的设计id号数组

4.1 先声明一个空数组用来不加的merge用

$designer_id_array = [];

4.2 然后在循环体中合并数组

for ($i = 1; $i <= $page ; $i++) {$designer_id_array = array_merge($designer_id_array, $matches[1]);
}

4.3 让$page=2验证结果


array(40) {[0]=>string(7) "1038354"[1]=>string(7) "1029480"[2]=>string(7) "1036438"[39]=>string(5) "40890"
}
  1. 对数组元素去重复
array_unique($designer_id_array)
  1. sizeof()求数组长度

echo '无线设计师人数为:' . sizeof($designer_id_array);

大功告成

代码没多讲究,只为实现我自己要的功能。

下载地址:https://git.oschina.net/laeser/spider

转载于:https://my.oschina.net/huangxiujie/blog/912026

PHP+正则抓取淘宝装修市场设计师数据相关推荐

  1. 【爬虫】python使用selenium抓取淘宝中的商品数据

    前言 最近因为项目需要又得抓一批数据,和之前的scrapy不同,这次选择使用selenium来爬取.两种方法的区别如下: scrapy之类的库是基于网络请求来爬取的,也就是直接向目标服务器发送http ...

  2. scrapy抓取淘宝女郎

    scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...

  3. scrapy抓取淘宝女郎 1

    scrapy抓取淘宝女郎 准备工作 首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...

  4. python3 爬虫实战案例 (抓取淘宝信息)(淘宝加了搜索必须登录的验证,此方法所到的结果都是0)

    需求:对比足球,篮球,乒乓球,羽毛球,网球,相关物品的销售量保存到excle中 和抓取淘宝关键字相关信息的销售量,这和之前抓取csdn网站浏览量取不同,抓取csdn浏览量主要是通过bs4Tag标签,而 ...

  5. Python爬虫实战(4):抓取淘宝MM照片

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  6. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

    其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...

  7. python爬虫淘宝视频_Python2爬虫:以抓取淘宝MM为例(实战)

    本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...

  8. 抓取淘宝天猫的商品的促销价格

    通过商品的url获取促销价,天猫淘宝的促销价并不是直接生成的,而是通过js间接生成的.所以通过jsoup等工具无法抓取. 首先是尝试使用htmlUnit,因为其可以,模拟浏览器运行js.css.经试验 ...

  9. Python爬虫实战:抓取淘宝MM照片

    本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...

最新文章

  1. 每日一皮:男性同胞,是时候反击了!
  2. matlab 如何定义符号数组
  3. jsp页面怎么调用的servlet
  4. 【牛客 - 318L】彪神666(水题,半高精度,递推,trick)
  5. 十、封装python3读写ini文件类
  6. 时间转年月日_编程中常见的时间格式
  7. Python游戏编程入门,让你秒变电脑大神!
  8. Python爬虫学习——布隆过滤器
  9. ThinkPHP5.1设置404页面
  10. 软考高项--第一章项目整体管理
  11. 极狐GitLab CI/CD 测试题
  12. LeetCode 300. Longest Increasing Subsequence
  13. python随机密码生成以整数17为随机数种子_简述pythonpytorch 随机种子的实现
  14. Java的时间格式化
  15. 螺旋传动设计系统lisp_螺旋传动设计.doc
  16. 邱姓女孩五行缺水取名
  17. polygon NFT开发教程
  18. Elasticsearch7.x配置xpack实战
  19. web科大讯飞语音识别webapi
  20. python生成带背景的字符图片(crnn数据集制作)

热门文章

  1. JavaScript中计算N次方的方法**和math.pow()-讲解
  2. 【Django-CI系统】JSON的使用-20220509
  3. 2022西藏最新道路运输安全员模拟考试试题及答案
  4. 7月4日云栖精选夜读:从《网安法》出发,给企业安全管理者的五条建议
  5. CopyFile“拒绝访问”是怎么回事
  6. Lenovo Newifi mini(Y1)刷breed和pandorabox固件
  7. css 文字超出部分自动加省略号
  8. KVM架构VPS服务器有哪些优势?
  9. H5页面软键盘常见问题
  10. 2021Android面试心得:阿里巴巴内部Jetpack宝典意外流出!超详细