闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。

好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。

预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。

第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息的时候,当发现匹配的商品的时候,就会给你疯狂打call,好吧,给你发邮件之类的。

首先,我们看一下闲鱼闲置商品的网址:

https://s.2.taobao.com/list/list.htm?spm=2007.1000337.0.0.6e0f2979exfsD7&oon=10&st_trust=1&ist=1

样子呢是这样的

可以看出来女装鞋子什么的占了很大一部分,= = 看来都是女装大佬。

好了,从哪入手呢,当然是从这么多的分类入手了。我们都可以很轻松的发现,每个分类的链接相似度很高,大家可以自己看看。

分类的不同主要是取决于URL的catid参数。

很明显,URL和分类名称形成了一中key-value的对应关系,在程序执行过程中我们可以将其存储在hashmap中

由于hashmap的特性,就算抓取算法有问题导致重复也不会产生很大影响。

我们查看一下网页的源码,

很容易发现<li>标签里保存的是链接和分类名信息。

获取网页源码后,(如果不知道怎么获取的话,请看我之前写的爬微博热搜的文章)

我们可以利用正则表达式来把需要的信息提取出来。

如下

public static HashMap<String, String> get_list(String text){HashMap<String, String> list=new HashMap<String,String>();//url,类别String rule="<a href=\"//s.2.taobao.com/list/list.htm\\?catid=(.*?)&oon=10&st_trust=1&ist=1\" title=\"(.*?)\">(.*?)</a>";Pattern pattern =Pattern.compile(rule);Matcher matcher = pattern.matcher(text);    while (matcher.find()) {  list.put("https://s.2.taobao.com/list/list.htm?catid="+matcher.group(1)+"&oon=10&st_trust=1&ist=1", matcher.group(3));}  return list;}

这样就返回了一个hashmap,key是url,value是分类名。

这样我们需要爬取遍历的起点队列就很明确了,很大的简化了程序。

接下篇。

java爬取闲鱼商品信息(一)相关推荐

  1. java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(二)

    有了需要爬取的起点队列. 接下来就可以细看一下源码中html的规则. 上面这一段就是一个商品在html源码中的结构. 这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东 ...

  2. java爬取闲鱼商品信息(三)

    这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取到的部分是复杂的js代码,代码量太大了,没找到我们需要的 ...

  3. java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(三)

    这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -.又笔试了两轮猪厂一轮鹅厂,结果还没出来,不过感觉都凉了. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取 ...

  4. 闲鱼java系统_java爬取闲鱼商品信息(一)

    闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车. 好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手. 预计达到的 ...

  5. python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊。更多我们共同开发的项目(咸鱼反爬更新,只能作为学习使用)...

    XianyuSdd 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊 写了一个异步爬取闲鱼商品最新信息推送到钉钉 图中的需求有两个部分值得学习. 多线程爬取最新关键字的商品信息 python对钉钉的操 ...

  6. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  7. 爬取淘宝商品信息selenium+pyquery+mongodb

    ''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...

  8. Python爬虫自学之第(⑤)篇——爬取某宝商品信息

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 能看到这里说明快进入动态网页 ...

  9. 2021-11-16爬取淘宝商品信息时如何获取cookie

    爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...

最新文章

  1. :未来5-10年,NLP将走向成熟
  2. CString + UINT Error:有多个运算符+=与这些操作数匹配
  3. mysql explain的使用(优化查询)
  4. WPF与WCF c#
  5. spoj Favorite Dice(概率dp+期望)
  6. java arraylist排序_最全Java集合笔记
  7. selinux会阻碍挂载嘛_为什么追求完美可能会阻碍您成为新手Web开发人员
  8. 表单PostGet两个长度限制问题的分析
  9. ubuntu 18.04可以连接内网,无法连接外网
  10. 即时通讯IM的安全性比较
  11. 威纶通触摸屏直接与台达变频器进行MODBUS RTU通信的具体方法(图文)
  12. UMD格式与解析详解
  13. Linux命令行运行多线程程序 和 QT集成IDE下运行多线程程序的问题。
  14. 学习总结-在Icepak模型中修改和增加零件
  15. 单片机管脚工作状态的解释
  16. GPA计算器雏形--
  17. c# 编写水准测量平差程序
  18. 初识htpp与tcp
  19. VMware故障:配置文件(.vmx)损坏修复
  20. 外文版计算机科学期刊,EI(SCI) 收录国外英文期刊(计算机类)

热门文章

  1. 还在为电脑装机而发愁吗?想摆脱装机时的捆绑软件吗?赶紧戳进来瞅瞅
  2. 有哪些堪称PPT神器插件?用好这10款,让你像开挂了一样设计PPT!
  3. 详解DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation
  4. 鸿蒙系统敏感应用,鸿蒙系统特性“揭晓”!一次开发灵活使用,生态构建难题被解决?...
  5. Formality简单实用之1--RTLvsRTL
  6. UE4使用委托实现Actor之间的通信
  7. JavaScipt基础(持续更新)
  8. php 系统分隔符,php脚本由哪个分隔符包围
  9. 8千兆光口8千兆电口千兆8光8电16口千兆汇聚型工业以太网交换机 室外宽温卡口交换机
  10. 求和:1/3+3/5+5/7+7/9+………..+97/99