java采集_Java实现一个小说采集程序的简单实例
被标题吸引进来的不要骂我。
只是一个简单的实现,随手写了来下载一部喜欢的小说的。示例中的小说只是示例,不是我的菜。
使用了jsoup。挺好用的一个工具。
有需要的话,参考下自己改吧。挺简单的,是吧。
代码如下:
package com.zhyea.doggie;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Doggie {
public static void main(String[] args){
try{
File txtFile = new File("D:/无限崩坏.txt");
createTxtDoc(txtFile);
addContent(txtFile);
}catch(Exception e){
e.printStackTrace();
}
}
/**
* 向小说文件中添加内容
* @param txtFile
* 小说文件
* @throws IOException
* @throws InterruptedException
*/
private static void addContent(File txtFile) throws IOException, InterruptedException{
appendTxt(txtFile, getBookInfo("无限崩坏", "啪啪啪狂魔"));
String url = "http://www.83kxs.com/View/12/12653/{pattern}.html";
for(int i=5850686; i<=5945501; i++){
try{
String tmp = url.replace("{pattern}", i+"");
appendTxt(txtFile, getPageContent(tmp));
}catch(Exception e){
e.printStackTrace();
continue;
}
}
}
/**
* 设置书名和作者
* @param bookName
* 书名
* @param author
* 作者
* @return
*/
private static String getBookInfo(String bookName, String author){
return COMMON.replace("{book}", bookName).replace("{author}", author);
}
/**
* 读取页面内容
* @param url
* 访问路径
* @return
* @throws IOException
*/
private static String getPageContent(String url) throws IOException{
String rtn = null;
Document doc = Jsoup.connect(url).get();
Elements content = doc.select(".text p");
Elements title = doc.select("#title");
System.out.println(title.text());
content.select("font").remove();
content.select("script").remove();
content.select("ins").remove();
content.select("a").remove();
rtn = title.text() + NEWLINE
+ content.html().replaceAll("
", "")
.replaceAll("
", "")
.replaceAll("\\
java采集_Java实现一个小说采集程序的简单实例相关推荐
- 用爬虫写一个,小说下载程序
用爬虫写一个,小说下载程序 环境:python 3.7.3 没啥难度和技术含量,随便写写.本来程序有部分可用format进行优化,但又想了想小说名可能还会 有一些奇奇怪怪的符号,就没弄了. impor ...
- 一个使用k8s发布应用程序的简单实例
使用k8s发布我们的应用程序大概有如下几步 1.打包应用服务 2.根据应用服务创建镜像 3.将打包的镜像推送到我们创建的docker私服 4.在k8s的Master节点编写yaml文件 5.根据yam ...
- 自动采集的网站源码-自动采集发布的电影小说新闻网站程序源码
自动采集网站源码,有不少SEO的同伴们都在找可以自动采集网站源码,但是这种源码真的好吗?首先可以自动采集的网站源码程序,规则也是别人写好的,采集的内容也是别人用过的,对于网站收录肯定不是那么友好.我们 ...
- 精通C语言Java怎么样_作为一个优秀的程序员,真的需要精通C语言吗?
从事嵌入式开发多年,使用C语言开发已经超过十个年头,除了C语言还用C++,java,python做过项目,程序员的优秀编程语言仅仅占据一部分,而且也不会只是针对C语言,现在很多的编程高手也不懂的C语言 ...
- java file 实例_Java File类的详解及简单实例
Java File类的详解及简单实例 1. File():构造函数,一般是依据文件所在的指定位置来创建文件对象. CanWrite():返回文件是否可写. CanRead():返回文件是否可读. Co ...
- java程序设计颜志军_JSP 自定义标签之一 简单实例
在JSP中使用自定义标签可以达到这样的目的,事实上,我们所熟知的各类框架基本上都是通过自定义标签的形式来实现的. 通过使用自定义标签,我们可以将实现复杂的逻辑在页面用简单的标签来加以展示.下面我们来实 ...
- java女人_Java是一个事业成功的女人
原标题:Java是一个事业成功的女人 文/北京达内教育(微信号:bjtedu01)关注后免费可获得达内5天训练营,都是干货哦~ Java是一个事业成功的女人. 很多在她手下干过的人都感觉她的能力跟她的 ...
- 夸女人的JAVA代码_Java是一个事业成功的女人
原标题:Java是一个事业成功的女人 Java是一个事业成功的女人. 很多在她手下干过的人都感觉她的能力跟她的地位并不般配,她更多的是通过技巧打动了中层管理人员.你也许会认为她是很有智慧的人,你愿意跟 ...
- java 停车场_java 设计一个停车场
属性: 车牌号 入场时间 出场时间 按月缴费标志 两个以上构造函数 一组set方法 一组get方法 从键盘输入属性的方法 显示属性方法(车牌号.入场时间.出场时间.停车费用) 获取出场时间 获取入场时 ...
最新文章
- 这是什么神仙公司?居然公布离职员工信息,还给差评?
- 苹果手机视频传输教程-通过无线将电脑上视频传到手机
- JavaScript实现字符串转换成驼峰表示法
- threejs骨架形状
- Windows FFMPEG开发环境配置
- 怎样清空输入缓冲区里的内容
- codeforces 361 D. Levko and Array(dp+二分)
- VS2012下基于Glut OpenGL GL_POLYGON示例程序:
- 金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析)
- 如何使用OBS录制采集卡视频内容
- npm安装vant(有赞UI)框架 - cmd篇
- Weighted Median
- 关于NetCore+饿了么开放平台+奇门+聚石塔对接的解释说明
- 电脑能登qq但是无法访问网页
- 她力量系列一丨复旦大学黄萱菁教授:期待更多女性领会计算机科学的奥妙
- 标识(志)符的概念与规则
- [生存志] 第78节 左传汇总春秋大事
- 音频文件的结构与规范——RIFF和WAVE音频文件格式
- Linux 字体微调 - windows 效果版
- 孪生素数【函数实现】
热门文章
- 考研辅助app的诞生!
- 微信小程序登录与服务器交换数据的流程
- linux游戏吧 minecraft,《我的世界》全面论述minecraft1.8初期如何在linux ubuntu 14.04(64bit)上玩(官服)...
- js怎么输出友情链接html,JTBC友情链接JS生成的使用方法
- Qt之线性回归之最小二乘法(使用QChart画线,伸手党福利)
- 【Qt入门第1篇】 基础(一)Qt开发环境的搭建和hello world
- 汇编语言 王爽 第四版 实验1
- 初试TinyWebServer项目所遇到的问题
- JS函数的定义和调用几种方式
- ASP.NET MVC 小区物业费管理平台