java爬虫实现数据抓取

这篇博客我们将用java来实现基本的爬虫数据抓取操作，基本思路就是通过java访问url,然后拿到返回的html文档，并用jsoup解析。
首先我们来看下需要抓取的页面，以我自己的csdn博客列表页面为例。我们将每篇博客的链接地址，文章标题以及摘要抓取出来。下面是代码实现：

public class WhxCsdnCrawler  {public static void main(String[] args) {String userName="hx_wang007";String csdnUrl="http://blog.csdn.net/"+userName;Connection conn = Jsoup.connect(csdnUrl);//获取连接//设置请求头，伪装成浏览器(否则会报403)conn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");try { //设置超时时间，同时Document对象中封装了返回的html文档Document doc=conn.timeout(100000).get();String url;String title;String desc;//得到博客列表Element element=doc.getElementsByClass("skin_list").first();for(Element ele:element.children()){Element e=ele.getElementsByClass("list_c_t").first().child(0);url = e.attr("href");url="http://blog.csdn.net"+url;title = e.text();Element e1=ele.getElementsByClass("list_c_c").first();desc=e1.text();System.out.println(url+":"+title+":"+desc);}} catch (IOException e) {e.printStackTrace();}}}

下面是运行结果：

java爬虫实现数据抓取相关推荐

22.网络爬虫—APP数据抓取详讲
网络爬虫-APP数据抓取详讲 Fiddler 工作原理安装完成Fiddler后的配置前提条件工具配置手机数据抓取 Fiddler手机端配置手机端操作实战演示后记前言:
python table数据抓取_Python爬虫：数据抓取工具及类库详解
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: ncepu_Chen PS:如有需要Python学习资料的小伙伴可以 ...
Java爬虫，信息抓取的实现
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO
写在前面最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...
Java爬虫：大量抓取二手房信息并存入云端数据库过程详解（三）
这里详细讲一下将解析好的所有房源数据存入云端数据库的表中: 1.首先是获得数据库连接,Java提供了数据库链接的接口,但实现是由各个数据库提供者自己实现的,这里需要mysql提供的第三方包:mysql ...
python爬虫-电影数据抓取
1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...
java 爬数据工具知乎_知乎爬虫之4:抓取页面数据
本文由博主原创,转载请注明出处:知乎爬虫之4:抓取页面数据咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据. 那么咱们说下,首先请 ...
知乎爬虫之4:抓取页面数据
git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...
基于Java的阿里妈妈数据抓取技术
基于Java的阿里妈妈数据抓取技术前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等.之前也有看过使用浏览器登录到网站后直接从浏览器中获取coo ...

java爬虫实现数据抓取

java爬虫实现数据抓取相关推荐

最新文章

热门文章