android web 爬虫,Android学习——Jsoup实现网络爬虫，爬取贤集网

前言

jsoup的简介

使用项目原话：jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

jsoup的配置

jsoup的配置很简单，需要在gradle中添加以下依赖

compile 'org.jsoup:jsoup:1.10.2'

由于jsoup需要获取网络数据，所以记得添加网络权限

正文

已经通过Jsoup.connect(URL).get();方法获取到整个网站的代码，但是发现我需要的新闻板块是这样的，没有任何标识

台湾液晶面板厂中华映管申请破产重整！负债348亿新台币

于是我采用获取全文有href的a标签，同时为了排除网站上一些板块的导航入口，href中又必须含有"/connect/“和”/html/"

new Thread() {

@Override

public void run() {

super.run();

try {

Document doc = Jsoup.connect(WebMainURL).get();

Elements els = doc.select("a[href]");

for(Element el : els){

String href=el.attr("href");

if (href.contains("/special/") && href.contains("html"))

{

Log.e("完整",el.toString());

Log.e("链接",href);

Log.e("内容",el.text());

Log.e("分隔","\n"+"----------------------------------------------------------");

}

catch (IOException e) {

e.printStackTrace();

}

}.start();

结果如下

然后就可以进去获取更具体的作者、时间、内容等信息，为了方便测试，我这里先指定进入一个网址。并找到了它代码中的作者和时间

文章来源：半导体投资联盟发布时间：2018-12-14

谢天谢地它终于有class了！感人！，马上读取出它的text,

发现是这样的文章来源：半导体投资联盟发布时间：2018-12-14

获取到“发布时间”的位置，用2个substring得到作者和时间

if(href.equals("/special/detail_375109.html")){

Document docDetailRaw = Jsoup.connect(WebMainURL+href).get();

Elements els_docDetail = docDetailRaw.select("div.public-time");

String doc_detail = els_docDetail.text();

int timeInString = els_docDetail.text().indexOf("发布时间");

String doc_detailAuthor = doc_detail.substring(5,timeInString).trim();

String doc_detailTime = doc_detail.substring(timeInString+5).trim();

Log.e("author",doc_detailAuthor);

Log.e("time",doc_detailTime);

}

log如下

12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/author: 半导体投资联盟

12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/time: 2018-12-14

同理，文章的内容也能轻而易举爬出来了

Elements els_docContent = docDetailRaw.select("div.main-text");

String doc_content = els_docContent.text();

Log.e("content",doc_content);

但是发现没有图片

参考(Android开发技巧——TextView加载HTML的图片及代码显示问题)

最后成功!

后面就是一些封装成Bean，连接数据库等操作，可以自己根据需求来。

android web 爬虫,Android学习——Jsoup实现网络爬虫，爬取贤集网相关推荐

【爬虫】学习：App数据的爬取
python3网络爬虫开发实战第二版--12 App数据的爬取 Charles 配置环境教程 1 基础设置:抓包工具Charles:(二)Charles的代理设置(windows,app)_闫振兴的 ...
爬虫学习（12）：爬取诗词名句网并且下载保存
用BeautifulSoup爬取并且下载.仅仅用作学习用途哈,不然又侵权了. 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣 ...
Python数据爬虫学习笔记（11）爬取千图网图片数据
需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...
Android实战——jsoup实现网络爬虫，糗事百科项目的起步
Android实战--jsoup实现网络爬虫,爬糗事百科主界面本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用结语前言对于Android初学者想要做项目时,最 ...
python 网页版笔记_系统学习下python网络爬虫笔记一
系统学习下python网络爬虫的知识 1.爬虫的定义 Web Spider,把互联网定义为一个蜘蛛网,网络蜘蛛通过网页的链接地址来寻找网页. 具体过程:从网站的某一个网页(通常是首页)开始,读取网页的 ...
python网络爬虫的基本步骤-Python网络爬虫学习手记（1）——爬虫基础
1.爬虫基本概念网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科简单的说,爬 ...
在不同领域，大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列（4）
在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4) 文章目录概述出行抢票软件微博上的僵尸粉电商比价/返利平台社区抓取数据和内容联系方式系列文章地址: Java网 ...
python爬虫文件代码大全-Python网络爬虫实战项目代码大全（长期更新，欢迎补充）...
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
Python 爬虫---（7） Python3网络爬虫快速入门实战解析
转载请注明作者和出处: http://blog.csdn.net/c406495762 Github代码获取:https://github.com/Jack-Cherish/python-spide ...
爬虫其实很简单！——网络爬虫快速实现(一)
今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知.废话不多说,现在开始我们的爬虫之旅吧. 爬虫是什么? 我们时常听说编程大牛嘴边一直念叨 ...

android web 爬虫,Android学习——Jsoup实现网络爬虫，爬取贤集网

android web 爬虫,Android学习——Jsoup实现网络爬虫，爬取贤集网相关推荐

最新文章

热门文章