java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)

JAVA 爬虫工具有挺多的，但是Gecco是一个挺轻量方便的工具。

先上项目结构图。

这是一个 JAVASE的 MAVEN 项目，要添加包依赖，其他就四个文件。log4j.properties 加上三个java类。

1、先配置log4j.properties

log4j.rootLogger =error,stdout,D,E

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.Target=System.out

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern= [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n

log4j.appender.D=org.apache.log4j.DailyRollingFileAppender

log4j.appender.D.File=vincent_player_debug.log

log4j.appender.D.Append= truelog4j.appender.D.Threshold=DEBUG

log4j.appender.D.layout=org.apache.log4j.PatternLayout

log4j.appender.D.layout.ConversionPattern= %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n

log4j.appender.E=org.apache.log4j.DailyRollingFileAppender

log4j.appender.E.File=vincent_player_error.log

log4j.appender.E.Append= truelog4j.appender.E.Threshold=ERROR

log4j.appender.E.layout=org.apache.log4j.PatternLayout

log4j.appender.E.layout.ConversionPattern= %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n

2、接下来着手写Blog.java，里面都有注释不解释

packagecom.cwj.gecco.pojo;importcom.geccocrawler.gecco.annotation.Gecco;importcom.geccocrawler.gecco.annotation.HtmlField;importcom.geccocrawler.gecco.annotation.Request;importcom.geccocrawler.gecco.request.HttpRequest;importcom.geccocrawler.gecco.spider.SpiderBean;/***@authorcwj

* 2017年8月6日

* Blog实体类，运行主函数从这里开始解析

* matchUrl:要抓包的目标地址

* pipelines:跳转到下个pipelines*/@Gecco(matchUrl="http://www.cnblogs.com/boychen/p/7226831.html",pipelines="blogPipelines")public class Blog implementsSpiderBean{/*** 向指定URL发送GET方法的请求*/@RequestprivateHttpRequest request;/*** 抓去这个路径下所有的内容*/@HtmlField(cssPath= "body div#cnblogs_post_body")privateString content;publicHttpRequest getRequest() {returnrequest;

}public voidsetRequest(HttpRequest request) {this.request =request;

}publicString getContent() {returncontent;

}public voidsetContent(String content) {this.content =content;

}

3、BlogPipelines.java

packagecom.cwj.gecco.pipelines;importcom.cwj.gecco.pojo.Blog;importcom.geccocrawler.gecco.annotation.PipelineName;importcom.geccocrawler.gecco.pipeline.Pipeline;/***@authorcwj

* 2017年8月6日

* 运行完Blog.java 根据@PipelineName 来这里*/@PipelineName(value="blogPipelines")public class BlogPipelines implements Pipeline{/*** 将抓取到的内容进行处理这里是打印在控制台*/

public voidprocess(Blog blog) {

System.out.println(blog.getContent());

}

4、最后便是在main中调用

packagecom.cwj.gecco.main;importcom.geccocrawler.gecco.GeccoEngine;public classMain {public static voidmain(String[] args) {

GeccoEngine.create()//工程的包路径

.classpath("com.cwj.gecco")//开始抓取的页面地址

.start("http://www.cnblogs.com/boychen/p/7226831.html")//开启几个爬虫线程

.thread(10)//单个爬虫每次抓取完一个请求后的间隔时间

.interval(5)//使用pc端userAgent

.mobile(false)//开始运行

.run();

}

5、抓取到内容，日志文件被我删除有警告

附上源码地址 https://github.com/BeautifulMeet/Gecco

java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)相关推荐

python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...
java抓取网页代码_java 抓取网页内容实现代码
复制代码代码如下: package test; import java.io.BufferedReader; import java.io.IOException; import java.io.I ...
java 输出字符集合里的字_Java基础 -- 字符串(格式化输出、正则表达式)(示例代码)...
一字符串 1.不可变String String对象是不可变的,查看JDK文档你就会发现,String类中每一个看起来会修改String值的方法,实际上都是创建一个全新的String对象,以包含修改后 ...
java利用htmlparser得到网页html内容
java利用htmlparser得到网页html内容,利用org.htmlparser.Parser包我们可以很轻松取到任何页面的源代码,方法如下: /*** 返回网页内容* * @param pat ...
requests.get()爬去中文网页乱码解决方法
requests.get()爬去中文网页乱码解决方法当我们使用requests.get()爬取百度首页时会发现,返回的html代码中的中文发生乱码. import requestsheaders = ...
java爬虫抓取网页数据论坛_Java爬虫抓取网页
Java爬虫抓取网页原作者:hebedich 原文链接下面直接贴代码: import java.io.BufferedReader; import java.io.InputStreamReade ...
java socket抓取资源_Java 通过 Socket 的形式抓取网页内容
package com.hmw.net; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IO ...
Java爬虫抓取网页
Java爬虫抓取网页原作者:hebedich 原文链接下面直接贴代码: import java.io.BufferedReader; import java.io.InputStreamRead ...
java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码
[实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...

java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)

java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)相关推荐

最新文章

热门文章

java爬去指定网页的内容_JAVA使用Gecco爬虫 抓取网页内容(示例代码)

java爬去指定网页的内容_JAVA使用Gecco爬虫 抓取网页内容(示例代码)相关推荐

最新文章

热门文章

java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)

java爬去指定网页的内容_JAVA使用Gecco爬虫抓取网页内容(示例代码)相关推荐