首先,用 http://groovyconsole.appspot.com/ 测试下面的代码,发现引用总是失败.

下载了GGTS: https://spring.io/tools/ggts

测试成功:

@Grapes( @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2') )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.'**'.find {it.@class == 'data-table1'}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1].a.@href.text().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}

转载于:https://www.cnblogs.com/fengwenit/p/5620484.html

用groovy采集网页数据相关推荐

  1. java多线程数据采集,【多线程数据采集课题】java采集网页数据方法

    [多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集  第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...

  2. 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

    此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...

  3. curl模拟自动登陆采集网页数据

    <!DOCTYPE> <html> <head> <meta http-equiv="Content-Type" content=&quo ...

  4. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  5. 【上课课件整理复习】第六章 网页数据的采集(1)

    知识回顾 网络爬虫的概念 网络爬虫的应用 网络爬虫的实现 数据写入和读取 本章内容 遍历单个域名 采集整个网站 通过互联网采集 本章目标 掌握遍历单个域名的方法 掌握采集整个网站的方法 了解通过互联网 ...

  6. 爬虫软件尝试-后羿采集器:批量免费抓取网页数据

    免费软件尝试-后裔采集器 软件特点:免费,全平台(Windows. Mac. Linux),操作简单无需技术. 使用流程: 下载软件打开->输入抓取数据的网址->职能采集->等待自动 ...

  7. 8种网页数据的采集工具

    10种AI训练数据采集工具排行榜 8种网页数据的采集工具 1.目前常用的8种数据网站 2.如何写Python爬虫: 3.人生第一个 爬虫代码示例: 另外: 8种网页数据的采集工具 如何收集网页数据,来 ...

  8. 网页数据采集器-输入域名自动采集网站网页数据的软件免费

    网页数据采集器,什么是网页数据采集器.网页数据采集器有什么用?网页数据采集器批量采集网站数据资源,省去所有的复制粘贴,提高工作效率,提高工作产出,加快数据分析.今天给大家分享一款免费的网页数据采集器, ...

  9. 在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(下篇)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 二十四桥明月夜, 玉人何处教吹箫. ...

最新文章

  1. Windows C/C++ 语言菜单基本编程
  2. C语言编程猜谜语,简单的谜语大全及答案
  3. opencv5-图像混合
  4. 0227网页提取技术
  5. IBM将发布以固态硬盘为基础的全企业系统
  6. 计算机网络常见英文缩写
  7. hystrix 页面_SpringCloud微服务架构篇5:微服务熔断机制-Hystrix
  8. 【牛客网】——字符串的旋转
  9. git修改本地仓库和远程仓库名称
  10. GoogleTest测试框架介绍(一)
  11. PDF Expert使用教程:如何在Mac中删除PDF文件中的指定页面?
  12. android 执行Shell命令
  13. 全国大学生数学建模竞赛2018A题高温作业专用服装设计MATLAB程序
  14. HTML与CSS面试题
  15. Python批量转换png图片为ico
  16. 常用英语高频词汇android,英语常用高频词汇
  17. C语言之图书管理系统(功能齐全!!!)
  18. [Erlang]AC自动机过滤屏蔽词
  19. Adaptive vision
  20. 魅族 刷机android 6.0,乐视X800+安卓6.0.1 魅族Flyme6刷机包 最新6.7.12.29R版 紫火20180510更新...

热门文章

  1. 经典数据结构——堆的实现
  2. 系统如何启动数据库服务器,怎么启动sql数据库服务器
  3. stm32高级定时器 基础知识
  4. hadoop没有datanode_Hadoop运行在Kubernetes平台实践
  5. promise的状态以及api介绍_2019年,盘点一些我出过的前端面试题以及对求职者的建议
  6. android+录像中截图软件下载,录屏截图大师app
  7. redhat下的iptables和firewalld 笔记
  8. java游戏猿人时代_学习java编程就业前景如何
  9. python用海伦公式求面积_Python:平面直角坐标系下用三点求所构三角形面积
  10. java 多态判断非空_Java核心技术(四):继承