大家好,我是TJ

一个励志推荐10000款开源项目与工具的程序员

TJ君前几天不能用电脑的时候,就在逛各种论坛,逛着逛着就想,是不是可以弄个爬虫,把这些网上的信息都下下来,自己有空时慢慢研究来着,也是赶巧,这么想的时候正好看到一个爬虫项目,用了下感觉还不错,赶紧来和大家分享以下~

项目的名字很有意思,Spiderman,是指想和蜘蛛侠一样可以发射蛛网,将所有内容一网打尽吗?

Spiderman是一款基于Java开源Web数据抽取的工具。

工具的目标就是收集指定的Web页面并从这些页面中提取有用的数据给用户。

Spiderman主要运用了XPath、正则表达式等基础技术来实数据的抽取与分析。

工具的特点在于使用微内核与插件的不同组合架构,使得工具在扩展性上更强,使用及二次开发更灵活方面,同时对于一些初学者来说不需要额外的编写代码就可以直接使用,并且抽取页面数据的时候还可以以多线程来保证性能。

使用的时候其实只要三步:

  • 确认好想要的目标网站以及目标网页,就是你要爬取的数据目标

  • 打开目标页面获取该页面数据的XPath

  • 在xml配置文件里填写好参数,运行Spiderman即可

那有的初来乍到的小伙伴可能要问了,获取该页面数据的XPath,怎么做?其实也不难。

  • 首先,第一步,下载xpathonclick插件,如果不知道哪里下的话,项目里有提供。

  • 等安装之后,打开Chrome浏览器,可以看到右上角多了一个图标。

  • 在浏览器打开目标网页,然后点击右上角的这个图标,然后再点击网标上想要获取XPath的地方,例如某个标题

  • 按住F12打开JS控制台,拖到底部,可以看到一串XPath内容,进行一些必要的修改,当然这里需要用到一些XPath的语法,可以参考官网教程:https://www.w3school.com.cn/xpath/index.asp

TJ君看代码的时候还发现一个测试代码,其中有如下内容:

嗯嗯,看到这个,TJ君不由想到了今天五大联赛有什么比赛,不说了,TJ君要去爬比赛信息了~想要程序的小伙伴,赶紧上车:

点击下方卡片,关注公众号“TJ君

回复“爬取”,获取仓库地址

关注我,每天了解一个牛x、好用、有趣的东东

往期推荐

30秒就能学会代码?什么东西这么厉害?

GitHub一个神奇的开源项目,汇聚天涯神贴讨论房价涨跌,买房之前的好帮手

一款GitHub开源加速神器,从此登录GitHub只剩一个快字~

用Spring Boot复刻一款天猫商城,你可以做到!

基于SpringBoot +Vue+ ElementUI 开发的多用户博客管理平台!

Java不适合做爬虫?试试这个工具!相关推荐

  1. 深圳java培训:Java也能做爬虫。

    深圳java培训:Java也能做爬虫. 现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择, 下面给大家展示一个使用Java基础语言编写的爬取小说的案例: 实现功能: ...

  2. 为什么说Java不适合做游戏开发,劣势在哪里?

    Java分三支:JavaSE.JavaME.JavaEE.JavaSE是最基础的,可以在Windows上跑也可以制作能在Windows上跑的客户端,也是能用来做游戏的(Emmm <我的世界> ...

  3. 适合做读书笔记的工具 这款APP满足你的笔记需求

    说到读书,就免不了要提到读书笔记.很多人认为,边读书边做笔记才能更好地帮助我们更深入地理解和记忆所读的书籍内容.通过记录书中的重要观点.论据.事实和例子,我们可以更好地掌握书中的知识和思想,而不是仅仅 ...

  4. Java也能做爬虫了?我爬取并下载了酷狗TOP500的歌曲!

    点击"开发者技术前线",选择"星标????" 在看|星标|留言,  真爱 作者:后山悟道人   链接:my.oschina.net/gllfeixiang/bl ...

  5. 【nas电影整理】可做爬虫的网站工具和api整理

    后面打算搞nas,先整理出可以查找电影海报.主演.字母.简介等描述的网站和接口,后续做个爬虫插件,nice. imdb,离线库,官方每天更新: https://www.imdb.com/interfa ...

  6. 有什么适合做填写的报表工具?

    国外报表软件或者开源报表工具一般面向数据统计展现需求,对于数据填写.数据采集需求没有对应接口和功能,所以不用考虑:国内报表工具基本都带了填报功能,选择时可以查看以下几点: 1)填报表样制作应该简单灵活 ...

  7. php和python写爬虫-python和php哪个更适合写爬虫

    python和PHP相比较,python适合做爬虫.原因如下 抓取网页本身的接口 相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...

  8. python做爬虫 怎么样效率最高_公认8个效率最高的爬虫框架

    一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...

  9. Android真不适合做游戏,但Google收购Ajax工具厂商,增强Android

    Android真不适合做游戏 原文:http://www.eoeandroid.com/thread-1745-1-1.html 很多开发者朋友想必很多都是游戏玩家,对于游戏的感情也一定很深. And ...

最新文章

  1. 笔记-信息系统开发基础-信息系统规划方法-大型新信息系统特征/企业系统规划步骤...
  2. python从视频中提取音频_提取视频中的音频——python三行程序搞定!
  3. Asp.Net Core Mvc Razor之RazorPage
  4. [UOJ50]链式反应
  5. 用.net实现按透明度生成水印文件
  6. C++ 字节序测试代码
  7. python ip,python-IPy模块
  8. 广州地铁14号线新市墟站开建,白云区居民即将开启双线换乘模式!
  9. 计算机硬盘的存储时间,存储访问时间
  10. soap错误码和获取处理错误码的详细信息
  11. 单片机无线调试-看见心跳-手机显示心率波形
  12. v-for on stateful component root element because it renders multiple elements
  13. Python 如何截取字符函数
  14. Android 开发 VectorDrawable 矢量图 (三)矢量图动画
  15. 医保不用选也能报销的北京市医保定点专科和A类医院名单
  16. 【Mockjs】React + Mockjs 模拟接口
  17. Cohn-Kanade数据库
  18. 只有一个程序员开发和运营,BuiltWith网站年入1400万美元是怎么做到的?
  19. vb.net 教程 11-1 打印组件 4 PrintDocument 1
  20. javascript全国省市级连

热门文章

  1. android 播放器封装,Android视频播放最全总结:MediaPlayer+TextureView封装一个完美实现全屏、小窗视频播放器,附项目源码...
  2. Remmina访问树莓派
  3. 基于区块链侧链技术的底层应用平台ASCH和Lisk的安全性PK
  4. 如何修复iPhone屏幕没有响应触摸iOS 15更新
  5. QT学习之C++入门知识准备+建立一个简单的QT界面
  6. Exception in thread “main“ java.lang.ClassNotFoundException解决方案
  7. UTC-to-CST
  8. 带你认识微商城和小程序商城以及APP商城电商解决方案的区别
  9. GeekPwn大赛黑客实现远程入侵Aldebaran NAO机器人
  10. Jquery高考倒计时