这篇博客我们将用java来实现基本的爬虫数据抓取操作,基本思路就是通过java访问url,然后拿到返回的html文档,并用jsoup解析。
首先我们来看下需要抓取的页面,以我自己的csdn博客列表页面为例。我们将每篇博客的链接地址,文章标题以及摘要抓取出来。下面是代码实现:

public class WhxCsdnCrawler  {public static void main(String[] args) {String userName="hx_wang007";String csdnUrl="http://blog.csdn.net/"+userName;Connection conn = Jsoup.connect(csdnUrl);//获取连接//设置请求头,伪装成浏览器(否则会报403)conn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");try { //设置超时时间,同时Document对象中封装了返回的html文档Document doc=conn.timeout(100000).get();String url;String title;String desc;//得到博客列表Element element=doc.getElementsByClass("skin_list").first();for(Element ele:element.children()){Element e=ele.getElementsByClass("list_c_t").first().child(0);url = e.attr("href");url="http://blog.csdn.net"+url;title = e.text();Element e1=ele.getElementsByClass("list_c_c").first();desc=e1.text();System.out.println(url+":"+title+":"+desc);}} catch (IOException e) {e.printStackTrace();}}}

下面是运行结果:

java爬虫实现数据抓取相关推荐

  1. 22.网络爬虫—APP数据抓取详讲

    网络爬虫-APP数据抓取详讲 Fiddler 工作原理 安装完成Fiddler后的配置 前提条件 工具配置 手机数据抓取 Fiddler手机端配置 手机端操作 实战演示 后记 前言:

  2. python table数据抓取_Python爬虫:数据抓取工具及类库详解

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: ncepu_Chen PS:如有需要Python学习资料的小伙伴可以 ...

  3. Java爬虫,信息抓取的实现

    转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...

  4. 使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

    写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...

  5. Java爬虫:大量抓取二手房信息并存入云端数据库过程详解(三)

    这里详细讲一下将解析好的所有房源数据存入云端数据库的表中: 1.首先是获得数据库连接,Java提供了数据库链接的接口,但实现是由各个数据库提供者自己实现的,这里需要mysql提供的第三方包:mysql ...

  6. python爬虫-电影数据抓取

    1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...

  7. java 爬数据工具 知乎_知乎爬虫之4:抓取页面数据

    本文由博主原创,转载请注明出处:知乎爬虫之4:抓取页面数据 咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据. 那么咱们说下,首先请 ...

  8. 知乎爬虫之4:抓取页面数据

    git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...

  9. 基于Java的阿里妈妈数据抓取技术

    基于Java的阿里妈妈数据抓取技术 前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等.之前也有看过使用浏览器登录到网站后直接从浏览器中获取coo ...

最新文章

  1. SAP MM 明明有需求,为啥MRP RUN后没有PR单据产生?
  2. 【正一专栏】《神秘巨星》总有一种真诚让你泪流满面
  3. MySQL的一级索引和二级索引介绍,HBase中提到的二级索引【笔记自用】
  4. 用GDB调试程序(四)
  5. spring boot 整合 (全)
  6. 解决pom文件第一行报错(unknown)-亲测有效
  7. Python实现动态图的解析、合成与倒放
  8. wikipedia_教职员工可以通过Wikipedia进行教学吗?
  9. 安慰奶牛 最小生成树
  10. readyboost提升明显吗_主动降噪影响音质吗?为什么降噪耳机打开降噪后音质会有明显提升...
  11. Linux系统管理_附加控制权限-Redhat Enterprise 5
  12. Node.js实现一个HTTP服务器
  13. python while快速写法_从零开始学Python,带你手把手实战之一
  14. PASCAL VOC数据集分析及下载、解压
  15. 写学术论文的一些感想
  16. 苹果计算机磁盘格式,苹果电脑上怎么进行格式化磁盘?
  17. 关闭win10的Skype
  18. TVS瞬态抑制二极管选型指南
  19. 怎样才能走进区块链行业?
  20. 多线程实现 qq 群聊的服务端和客户端

热门文章

  1. 精彩亮点抢先看!华为伙伴暨开发者大会2022亮点不容错过
  2. simscape之Thermal Liquid之Pipe模块
  3. Hic-pro的结果文件转化为.hic文件,在juicebox中实现可视化
  4. 2017年PHP程序员未来路在何方
  5. Android NFC的初次使用——公交卡信息读取
  6. 2023CAEE塑料焊接技术与设备展览会
  7. 自学自动化遇到的问题
  8. Android(以太坊)生成助记词
  9. AdServices归因和iAd归因集成
  10. 杰里之AC69 系列内置混响 K 歌宝硬件设计注意事项篇