前言

jsoup的简介

使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

jsoup的配置

jsoup的配置很简单,需要在gradle中添加以下依赖

compile 'org.jsoup:jsoup:1.10.2'

由于jsoup需要获取网络数据,所以记得添加网络权限

正文

已经通过Jsoup.connect(URL).get();方法获取到整个网站的代码,但是发现我需要的新闻板块是这样的,没有任何标识

台湾液晶面板厂中华映管申请破产重整! 负债348亿新台币

于是我采用获取全文有href的a标签,同时为了排除网站上一些板块的导航入口,href中又必须含有"/connect/“和”/html/"

new Thread() {

@Override

public void run() {

super.run();

try {

Document doc = Jsoup.connect(WebMainURL).get();

Elements els = doc.select("a[href]");

for(Element el : els){

String href=el.attr("href");

if (href.contains("/special/") && href.contains("html"))

{

Log.e("完整",el.toString());

Log.e("链接",href);

Log.e("内容",el.text());

Log.e("分隔","\n"+"----------------------------------------------------------");

}

}

}

catch (IOException e) {

e.printStackTrace();

}

}

}.start();

结果如下

然后就可以进去获取更具体的作者、时间、内容等信息,为了方便测试,我这里先指定进入一个网址。并找到了它代码中的作者和时间

文章来源: 半导体投资联盟       发布时间:2018-12-14

谢天谢地它终于有class了!感人!,马上读取出它的text,

发现是这样的 文章来源: 半导体投资联盟 发布时间:2018-12-14

获取到“发布时间”的位置,用2个substring得到作者和时间

if(href.equals("/special/detail_375109.html")){

Document docDetailRaw = Jsoup.connect(WebMainURL+href).get();

Elements els_docDetail = docDetailRaw.select("div.public-time");

String doc_detail = els_docDetail.text();

int timeInString = els_docDetail.text().indexOf("发布时间");

String doc_detailAuthor = doc_detail.substring(5,timeInString).trim();

String doc_detailTime = doc_detail.substring(timeInString+5).trim();

Log.e("author",doc_detailAuthor);

Log.e("time",doc_detailTime);

}

log如下

12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/author: 半导体投资联盟

12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/time: 2018-12-14

同理,文章的内容也能轻而易举爬出来了

Elements els_docContent = docDetailRaw.select("div.main-text");

String doc_content = els_docContent.text();

Log.e("content",doc_content);

但是发现没有图片

参考(Android开发技巧——TextView加载HTML的图片及代码显示问题)

最后成功!

后面就是一些封装成Bean,连接数据库等操作,可以自己根据需求来。

android web 爬虫,Android学习——Jsoup实现网络爬虫,爬取贤集网相关推荐

  1. 【爬虫】学习:App数据的爬取

    python3网络爬虫开发实战第二版--12 App数据的爬取 Charles 配置环境 教程 1 基础设置:抓包工具Charles:(二)Charles的代理设置(windows,app)_闫振兴的 ...

  2. 爬虫学习(12):爬取诗词名句网并且下载保存

    用BeautifulSoup爬取并且下载.仅仅用作学习用途哈,不然又侵权了. 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣 ...

  3. Python数据爬虫学习笔记(11)爬取千图网图片数据

    需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...

  4. Android实战——jsoup实现网络爬虫,糗事百科项目的起步

    Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...

  5. python 网页版笔记_系统学习下python网络爬虫 笔记一

    系统学习下python网络爬虫的知识 1.爬虫的定义 Web Spider,把互联网定义为一个蜘蛛网,网络蜘蛛通过网页的链接地址来寻找网页. 具体过程:从网站的某一个网页(通常是首页)开始,读取网页的 ...

  6. python网络爬虫的基本步骤-Python网络爬虫学习手记(1)——爬虫基础

    1.爬虫基本概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科 简单的说,爬 ...

  7. 在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4)

    在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4) 文章目录 概述 出行抢票软件 微博上的僵尸粉 电商比价/返利平台 社区抓取数据和内容 联系方式 系列文章地址: Java网 ...

  8. python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

  9. Python 爬虫---(7) Python3网络爬虫快速入门实战解析

    转载请注明作者和出处: http://blog.csdn.net/c406495762  Github代码获取:https://github.com/Jack-Cherish/python-spide ...

  10. 爬虫其实很简单!——网络爬虫快速实现(一)

    今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知.废话不多说,现在开始我们的爬虫之旅吧. 爬虫是什么? 我们时常听说编程大牛嘴边一直念叨 ...

最新文章

  1. 安卓安装完应用后,如何获取包的meta-inf目录下的文件?
  2. PHP中的else怎么用,php中ifelse与elseif使用区别实例介绍
  3. android fragment动态加载,动态添加Fragment
  4. c# sizeof_C#程序演示sizeof()运算符的示例
  5. mysql5.7+proxy_mysql 5.7+mysql-proxy 0.8.5 读写分离
  6. table中的td内容过长显示为固定长度,多余部分用省略号代替
  7. 2018.10.22 20:10
  8. Linux上安装Hadoop集群(CentOS7+hadoop-2.8.3)
  9. 21.docker logs
  10. linux 源代码安装mysql5.5_linux下通过源码包安装MySql5.5
  11. iosiOStextView实现文字高度自适应
  12. InfoPath基础应用教程-1 设计一个简单的表单模板
  13. 网络语言c某人,1999—2019,21年的网络流行语,你确定你真的懂?
  14. 怠惰是贫穷的制造厂 jzoj 2017.8.18 B组
  15. 一元三次方程通用求解方法
  16. php 屏蔽 strict standards,PHP Strict Standards:问题解决
  17. 邮件黑名单系列文章十 : IP被UCEProtect列入黑名单
  18. 13 款开源的全文检索引擎
  19. DQL:简单的select语句书写(含where子句)
  20. 东大19春计算机基础,东大19春学期《计算机基础》在线作业3标准答案.doc

热门文章

  1. 消除六边形html5,六边形消除
  2. 小公司需要企业邮箱么?小企业用什么企业邮箱?
  3. NLP 语义匹配:经典前沿方案整理
  4. python3 解压7z文件
  5. - 模块“VPMC“启动失败,未能启动虚拟机?
  6. 网页打开QQ链接,进行临时会话
  7. qq 客服 php,QQ支持临时会话设置
  8. 人力资源面试必问的十大问题
  9. 数据库(一)--数据库系统的核心知识点
  10. 和极有家一起玩转智能家居——极有家未来之家合作招募