java爬虫实现数据抓取
这篇博客我们将用java来实现基本的爬虫数据抓取操作,基本思路就是通过java访问url,然后拿到返回的html文档,并用jsoup解析。
首先我们来看下需要抓取的页面,以我自己的csdn博客列表页面为例。我们将每篇博客的链接地址,文章标题以及摘要抓取出来。下面是代码实现:
public class WhxCsdnCrawler {public static void main(String[] args) {String userName="hx_wang007";String csdnUrl="http://blog.csdn.net/"+userName;Connection conn = Jsoup.connect(csdnUrl);//获取连接//设置请求头,伪装成浏览器(否则会报403)conn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");try { //设置超时时间,同时Document对象中封装了返回的html文档Document doc=conn.timeout(100000).get();String url;String title;String desc;//得到博客列表Element element=doc.getElementsByClass("skin_list").first();for(Element ele:element.children()){Element e=ele.getElementsByClass("list_c_t").first().child(0);url = e.attr("href");url="http://blog.csdn.net"+url;title = e.text();Element e1=ele.getElementsByClass("list_c_c").first();desc=e1.text();System.out.println(url+":"+title+":"+desc);}} catch (IOException e) {e.printStackTrace();}}}
下面是运行结果:
java爬虫实现数据抓取相关推荐
- 22.网络爬虫—APP数据抓取详讲
网络爬虫-APP数据抓取详讲 Fiddler 工作原理 安装完成Fiddler后的配置 前提条件 工具配置 手机数据抓取 Fiddler手机端配置 手机端操作 实战演示 后记 前言:
- python table数据抓取_Python爬虫:数据抓取工具及类库详解
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: ncepu_Chen PS:如有需要Python学习资料的小伙伴可以 ...
- Java爬虫,信息抓取的实现
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
- 使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO
写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...
- Java爬虫:大量抓取二手房信息并存入云端数据库过程详解(三)
这里详细讲一下将解析好的所有房源数据存入云端数据库的表中: 1.首先是获得数据库连接,Java提供了数据库链接的接口,但实现是由各个数据库提供者自己实现的,这里需要mysql提供的第三方包:mysql ...
- python爬虫-电影数据抓取
1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...
- java 爬数据工具 知乎_知乎爬虫之4:抓取页面数据
本文由博主原创,转载请注明出处:知乎爬虫之4:抓取页面数据 咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据. 那么咱们说下,首先请 ...
- 知乎爬虫之4:抓取页面数据
git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...
- 基于Java的阿里妈妈数据抓取技术
基于Java的阿里妈妈数据抓取技术 前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等.之前也有看过使用浏览器登录到网站后直接从浏览器中获取coo ...
最新文章
- SAP MM 明明有需求,为啥MRP RUN后没有PR单据产生?
- 【正一专栏】《神秘巨星》总有一种真诚让你泪流满面
- MySQL的一级索引和二级索引介绍,HBase中提到的二级索引【笔记自用】
- 用GDB调试程序(四)
- spring boot 整合 (全)
- 解决pom文件第一行报错(unknown)-亲测有效
- Python实现动态图的解析、合成与倒放
- wikipedia_教职员工可以通过Wikipedia进行教学吗?
- 安慰奶牛 最小生成树
- readyboost提升明显吗_主动降噪影响音质吗?为什么降噪耳机打开降噪后音质会有明显提升...
- Linux系统管理_附加控制权限-Redhat Enterprise 5
- Node.js实现一个HTTP服务器
- python while快速写法_从零开始学Python,带你手把手实战之一
- PASCAL VOC数据集分析及下载、解压
- 写学术论文的一些感想
- 苹果计算机磁盘格式,苹果电脑上怎么进行格式化磁盘?
- 关闭win10的Skype
- TVS瞬态抑制二极管选型指南
- 怎样才能走进区块链行业?
- 多线程实现 qq 群聊的服务端和客户端