android web 爬虫,Android学习——Jsoup实现网络爬虫,爬取贤集网
前言
jsoup的简介
使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法
jsoup的配置
jsoup的配置很简单,需要在gradle中添加以下依赖
compile 'org.jsoup:jsoup:1.10.2'
由于jsoup需要获取网络数据,所以记得添加网络权限
正文
已经通过Jsoup.connect(URL).get();方法获取到整个网站的代码,但是发现我需要的新闻板块是这样的,没有任何标识
台湾液晶面板厂中华映管申请破产重整! 负债348亿新台币
于是我采用获取全文有href的a标签,同时为了排除网站上一些板块的导航入口,href中又必须含有"/connect/“和”/html/"
new Thread() {
@Override
public void run() {
super.run();
try {
Document doc = Jsoup.connect(WebMainURL).get();
Elements els = doc.select("a[href]");
for(Element el : els){
String href=el.attr("href");
if (href.contains("/special/") && href.contains("html"))
{
Log.e("完整",el.toString());
Log.e("链接",href);
Log.e("内容",el.text());
Log.e("分隔","\n"+"----------------------------------------------------------");
}
}
}
catch (IOException e) {
e.printStackTrace();
}
}
}.start();
结果如下
然后就可以进去获取更具体的作者、时间、内容等信息,为了方便测试,我这里先指定进入一个网址。并找到了它代码中的作者和时间
文章来源: 半导体投资联盟 发布时间:2018-12-14
谢天谢地它终于有class了!感人!,马上读取出它的text,
发现是这样的 文章来源: 半导体投资联盟 发布时间:2018-12-14
获取到“发布时间”的位置,用2个substring得到作者和时间
if(href.equals("/special/detail_375109.html")){
Document docDetailRaw = Jsoup.connect(WebMainURL+href).get();
Elements els_docDetail = docDetailRaw.select("div.public-time");
String doc_detail = els_docDetail.text();
int timeInString = els_docDetail.text().indexOf("发布时间");
String doc_detailAuthor = doc_detail.substring(5,timeInString).trim();
String doc_detailTime = doc_detail.substring(timeInString+5).trim();
Log.e("author",doc_detailAuthor);
Log.e("time",doc_detailTime);
}
log如下
12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/author: 半导体投资联盟
12-15 06:36:30.622 9210-9226/com.example.asus.spidertest E/time: 2018-12-14
同理,文章的内容也能轻而易举爬出来了
Elements els_docContent = docDetailRaw.select("div.main-text");
String doc_content = els_docContent.text();
Log.e("content",doc_content);
但是发现没有图片
参考(Android开发技巧——TextView加载HTML的图片及代码显示问题)
最后成功!
后面就是一些封装成Bean,连接数据库等操作,可以自己根据需求来。
android web 爬虫,Android学习——Jsoup实现网络爬虫,爬取贤集网相关推荐
- 【爬虫】学习:App数据的爬取
python3网络爬虫开发实战第二版--12 App数据的爬取 Charles 配置环境 教程 1 基础设置:抓包工具Charles:(二)Charles的代理设置(windows,app)_闫振兴的 ...
- 爬虫学习(12):爬取诗词名句网并且下载保存
用BeautifulSoup爬取并且下载.仅仅用作学习用途哈,不然又侵权了. 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣 ...
- Python数据爬虫学习笔记(11)爬取千图网图片数据
需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中. 分析:以数码电器板块为例 1.查看该板块的每一页的URL: 注意到第一页是&q ...
- Android实战——jsoup实现网络爬虫,糗事百科项目的起步
Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...
- python 网页版笔记_系统学习下python网络爬虫 笔记一
系统学习下python网络爬虫的知识 1.爬虫的定义 Web Spider,把互联网定义为一个蜘蛛网,网络蜘蛛通过网页的链接地址来寻找网页. 具体过程:从网站的某一个网页(通常是首页)开始,读取网页的 ...
- python网络爬虫的基本步骤-Python网络爬虫学习手记(1)——爬虫基础
1.爬虫基本概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科 简单的说,爬 ...
- 在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4)
在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4) 文章目录 概述 出行抢票软件 微博上的僵尸粉 电商比价/返利平台 社区抓取数据和内容 联系方式 系列文章地址: Java网 ...
- python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
- Python 爬虫---(7) Python3网络爬虫快速入门实战解析
转载请注明作者和出处: http://blog.csdn.net/c406495762 Github代码获取:https://github.com/Jack-Cherish/python-spide ...
- 爬虫其实很简单!——网络爬虫快速实现(一)
今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知.废话不多说,现在开始我们的爬虫之旅吧. 爬虫是什么? 我们时常听说编程大牛嘴边一直念叨 ...
最新文章
- 安卓安装完应用后,如何获取包的meta-inf目录下的文件?
- PHP中的else怎么用,php中ifelse与elseif使用区别实例介绍
- android fragment动态加载,动态添加Fragment
- c# sizeof_C#程序演示sizeof()运算符的示例
- mysql5.7+proxy_mysql 5.7+mysql-proxy 0.8.5 读写分离
- table中的td内容过长显示为固定长度,多余部分用省略号代替
- 2018.10.22 20:10
- Linux上安装Hadoop集群(CentOS7+hadoop-2.8.3)
- 21.docker logs
- linux 源代码安装mysql5.5_linux下通过源码包安装MySql5.5
- iosiOStextView实现文字高度自适应
- InfoPath基础应用教程-1 设计一个简单的表单模板
- 网络语言c某人,1999—2019,21年的网络流行语,你确定你真的懂?
- 怠惰是贫穷的制造厂 jzoj 2017.8.18 B组
- 一元三次方程通用求解方法
- php 屏蔽 strict standards,PHP Strict Standards:问题解决
- 邮件黑名单系列文章十 : IP被UCEProtect列入黑名单
- 13 款开源的全文检索引擎
- DQL:简单的select语句书写(含where子句)
- 东大19春计算机基础,东大19春学期《计算机基础》在线作业3标准答案.doc