java爬取闲鱼商品信息(一)
闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。
好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。
预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。
第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息的时候,当发现匹配的商品的时候,就会给你疯狂打call,好吧,给你发邮件之类的。
首先,我们看一下闲鱼闲置商品的网址:
https://s.2.taobao.com/list/list.htm?spm=2007.1000337.0.0.6e0f2979exfsD7&oon=10&st_trust=1&ist=1
样子呢是这样的
可以看出来女装鞋子什么的占了很大一部分,= = 看来都是女装大佬。
好了,从哪入手呢,当然是从这么多的分类入手了。我们都可以很轻松的发现,每个分类的链接相似度很高,大家可以自己看看。
分类的不同主要是取决于URL的catid参数。
很明显,URL和分类名称形成了一中key-value的对应关系,在程序执行过程中我们可以将其存储在hashmap中
由于hashmap的特性,就算抓取算法有问题导致重复也不会产生很大影响。
我们查看一下网页的源码,
很容易发现<li>标签里保存的是链接和分类名信息。
获取网页源码后,(如果不知道怎么获取的话,请看我之前写的爬微博热搜的文章)
我们可以利用正则表达式来把需要的信息提取出来。
如下
public static HashMap<String, String> get_list(String text){HashMap<String, String> list=new HashMap<String,String>();//url,类别String rule="<a href=\"//s.2.taobao.com/list/list.htm\\?catid=(.*?)&oon=10&st_trust=1&ist=1\" title=\"(.*?)\">(.*?)</a>";Pattern pattern =Pattern.compile(rule);Matcher matcher = pattern.matcher(text); while (matcher.find()) { list.put("https://s.2.taobao.com/list/list.htm?catid="+matcher.group(1)+"&oon=10&st_trust=1&ist=1", matcher.group(3));} return list;}
这样就返回了一个hashmap,key是url,value是分类名。
这样我们需要爬取遍历的起点队列就很明确了,很大的简化了程序。
接下篇。
java爬取闲鱼商品信息(一)相关推荐
- java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(二)
有了需要爬取的起点队列. 接下来就可以细看一下源码中html的规则. 上面这一段就是一个商品在html源码中的结构. 这里面包含了,卖家头像,ID,vip等级,主页,各种图片,商品基本信息,地址等等东 ...
- java爬取闲鱼商品信息(三)
这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取到的部分是复杂的js代码,代码量太大了,没找到我们需要的 ...
- java爬取闲鱼商品信息(三)_java爬取闲鱼商品信息(三)
这一篇距离前两篇更新的时间有点久了,最近忙着刷题- -.又笔试了两轮猪厂一轮鹅厂,结果还没出来,不过感觉都凉了. 好了,上次说到没办法获取到动态加载的部分. 我用了phantomjs尝试了一下,多获取 ...
- 闲鱼java系统_java爬取闲鱼商品信息(一)
闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车. 好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手. 预计达到的 ...
- python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊。更多我们共同开发的项目(咸鱼反爬更新,只能作为学习使用)...
XianyuSdd 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊 写了一个异步爬取闲鱼商品最新信息推送到钉钉 图中的需求有两个部分值得学习. 多线程爬取最新关键字的商品信息 python对钉钉的操 ...
- 利用Selenium爬取淘宝商品信息
文章来源:公众号-智能化IT系统. 一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...
- 爬取淘宝商品信息selenium+pyquery+mongodb
''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...
- Python爬虫自学之第(⑤)篇——爬取某宝商品信息
题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 能看到这里说明快进入动态网页 ...
- 2021-11-16爬取淘宝商品信息时如何获取cookie
爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...
最新文章
- :未来5-10年,NLP将走向成熟
- CString + UINT Error:有多个运算符+=与这些操作数匹配
- mysql explain的使用(优化查询)
- WPF与WCF c#
- spoj Favorite Dice(概率dp+期望)
- java arraylist排序_最全Java集合笔记
- selinux会阻碍挂载嘛_为什么追求完美可能会阻碍您成为新手Web开发人员
- 表单PostGet两个长度限制问题的分析
- ubuntu 18.04可以连接内网,无法连接外网
- 即时通讯IM的安全性比较
- 威纶通触摸屏直接与台达变频器进行MODBUS RTU通信的具体方法(图文)
- UMD格式与解析详解
- Linux命令行运行多线程程序 和 QT集成IDE下运行多线程程序的问题。
- 学习总结-在Icepak模型中修改和增加零件
- 单片机管脚工作状态的解释
- GPA计算器雏形--
- c# 编写水准测量平差程序
- 初识htpp与tcp
- VMware故障:配置文件(.vmx)损坏修复
- 外文版计算机科学期刊,EI(SCI) 收录国外英文期刊(计算机类)
热门文章
- 还在为电脑装机而发愁吗?想摆脱装机时的捆绑软件吗?赶紧戳进来瞅瞅
- 有哪些堪称PPT神器插件?用好这10款,让你像开挂了一样设计PPT!
- 详解DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation
- 鸿蒙系统敏感应用,鸿蒙系统特性“揭晓”!一次开发灵活使用,生态构建难题被解决?...
- Formality简单实用之1--RTLvsRTL
- UE4使用委托实现Actor之间的通信
- JavaScipt基础(持续更新)
- php 系统分隔符,php脚本由哪个分隔符包围
- 8千兆光口8千兆电口千兆8光8电16口千兆汇聚型工业以太网交换机 室外宽温卡口交换机
- 求和:1/3+3/5+5/7+7/9+………..+97/99