用groovy采集网页数据
首先,用 http://groovyconsole.appspot.com/ 测试下面的代码,发现引用总是失败.
下载了GGTS: https://spring.io/tools/ggts
测试成功:
@Grapes( @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2') )
import org.ccil.cowan.tagsoup.Parser;
class TestHtml {
public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )
def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"
new URL(url).withReader (ENCODING) { reader ->
def document = PARSER.parse(reader)
def data = document.'**'.find {it.@class == 'data-table1'}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1].a.@href.text().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}
data.each { it -> println it }
}
}
}
转载于:https://www.cnblogs.com/fengwenit/p/5620484.html
用groovy采集网页数据相关推荐
- java多线程数据采集,【多线程数据采集课题】java采集网页数据方法
[多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集 第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...
- 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。
此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...
- curl模拟自动登陆采集网页数据
<!DOCTYPE> <html> <head> <meta http-equiv="Content-Type" content=&quo ...
- java爬取网页数据_如何使用爬虫工具采集数据
网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...
- 【上课课件整理复习】第六章 网页数据的采集(1)
知识回顾 网络爬虫的概念 网络爬虫的应用 网络爬虫的实现 数据写入和读取 本章内容 遍历单个域名 采集整个网站 通过互联网采集 本章目标 掌握遍历单个域名的方法 掌握采集整个网站的方法 了解通过互联网 ...
- 爬虫软件尝试-后羿采集器:批量免费抓取网页数据
免费软件尝试-后裔采集器 软件特点:免费,全平台(Windows. Mac. Linux),操作简单无需技术. 使用流程: 下载软件打开->输入抓取数据的网址->职能采集->等待自动 ...
- 8种网页数据的采集工具
10种AI训练数据采集工具排行榜 8种网页数据的采集工具 1.目前常用的8种数据网站 2.如何写Python爬虫: 3.人生第一个 爬虫代码示例: 另外: 8种网页数据的采集工具 如何收集网页数据,来 ...
- 网页数据采集器-输入域名自动采集网站网页数据的软件免费
网页数据采集器,什么是网页数据采集器.网页数据采集器有什么用?网页数据采集器批量采集网站数据资源,省去所有的复制粘贴,提高工作效率,提高工作产出,加快数据分析.今天给大家分享一款免费的网页数据采集器, ...
- 在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(下篇)
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 二十四桥明月夜, 玉人何处教吹箫. ...
最新文章
- Windows C/C++ 语言菜单基本编程
- C语言编程猜谜语,简单的谜语大全及答案
- opencv5-图像混合
- 0227网页提取技术
- IBM将发布以固态硬盘为基础的全企业系统
- 计算机网络常见英文缩写
- hystrix 页面_SpringCloud微服务架构篇5:微服务熔断机制-Hystrix
- 【牛客网】——字符串的旋转
- git修改本地仓库和远程仓库名称
- GoogleTest测试框架介绍(一)
- PDF Expert使用教程:如何在Mac中删除PDF文件中的指定页面?
- android 执行Shell命令
- 全国大学生数学建模竞赛2018A题高温作业专用服装设计MATLAB程序
- HTML与CSS面试题
- Python批量转换png图片为ico
- 常用英语高频词汇android,英语常用高频词汇
- C语言之图书管理系统(功能齐全!!!)
- [Erlang]AC自动机过滤屏蔽词
- Adaptive vision
- 魅族 刷机android 6.0,乐视X800+安卓6.0.1 魅族Flyme6刷机包 最新6.7.12.29R版 紫火20180510更新...
热门文章
- 经典数据结构——堆的实现
- 系统如何启动数据库服务器,怎么启动sql数据库服务器
- stm32高级定时器 基础知识
- hadoop没有datanode_Hadoop运行在Kubernetes平台实践
- promise的状态以及api介绍_2019年,盘点一些我出过的前端面试题以及对求职者的建议
- android+录像中截图软件下载,录屏截图大师app
- redhat下的iptables和firewalld 笔记
- java游戏猿人时代_学习java编程就业前景如何
- python用海伦公式求面积_Python:平面直角坐标系下用三点求所构三角形面积
- java 多态判断非空_Java核心技术(四):继承