被标题吸引进来的不要骂我。

只是一个简单的实现,随手写了来下载一部喜欢的小说的。示例中的小说只是示例,不是我的菜。

使用了jsoup。挺好用的一个工具。

有需要的话,参考下自己改吧。挺简单的,是吧。

代码如下:

package com.zhyea.doggie;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

public class Doggie {

public static void main(String[] args){

try{

File txtFile = new File("D:/无限崩坏.txt");

createTxtDoc(txtFile);

addContent(txtFile);

}catch(Exception e){

e.printStackTrace();

}

}

/**

* 向小说文件中添加内容

* @param txtFile

* 小说文件

* @throws IOException

* @throws InterruptedException

*/

private static void addContent(File txtFile) throws IOException, InterruptedException{

appendTxt(txtFile, getBookInfo("无限崩坏", "啪啪啪狂魔"));

String url = "http://www.83kxs.com/View/12/12653/{pattern}.html";

for(int i=5850686; i<=5945501; i++){

try{

String tmp = url.replace("{pattern}", i+"");

appendTxt(txtFile, getPageContent(tmp));

}catch(Exception e){

e.printStackTrace();

continue;

}

}

}

/**

* 设置书名和作者

* @param bookName

* 书名

* @param author

* 作者

* @return

*/

private static String getBookInfo(String bookName, String author){

return COMMON.replace("{book}", bookName).replace("{author}", author);

}

/**

* 读取页面内容

* @param url

* 访问路径

* @return

* @throws IOException

*/

private static String getPageContent(String url) throws IOException{

String rtn = null;

Document doc = Jsoup.connect(url).get();

Elements content = doc.select(".text p");

Elements title = doc.select("#title");

System.out.println(title.text());

content.select("font").remove();

content.select("script").remove();

content.select("ins").remove();

content.select("a").remove();

rtn = title.text() + NEWLINE

+ content.html().replaceAll("

", "")

.replaceAll("

", "")

.replaceAll("\\

java采集_Java实现一个小说采集程序的简单实例相关推荐

  1. 用爬虫写一个,小说下载程序

    用爬虫写一个,小说下载程序 环境:python 3.7.3 没啥难度和技术含量,随便写写.本来程序有部分可用format进行优化,但又想了想小说名可能还会 有一些奇奇怪怪的符号,就没弄了. impor ...

  2. 一个使用k8s发布应用程序的简单实例

    使用k8s发布我们的应用程序大概有如下几步 1.打包应用服务 2.根据应用服务创建镜像 3.将打包的镜像推送到我们创建的docker私服 4.在k8s的Master节点编写yaml文件 5.根据yam ...

  3. 自动采集的网站源码-自动采集发布的电影小说新闻网站程序源码

    自动采集网站源码,有不少SEO的同伴们都在找可以自动采集网站源码,但是这种源码真的好吗?首先可以自动采集的网站源码程序,规则也是别人写好的,采集的内容也是别人用过的,对于网站收录肯定不是那么友好.我们 ...

  4. 精通C语言Java怎么样_作为一个优秀的程序员,真的需要精通C语言吗?

    从事嵌入式开发多年,使用C语言开发已经超过十个年头,除了C语言还用C++,java,python做过项目,程序员的优秀编程语言仅仅占据一部分,而且也不会只是针对C语言,现在很多的编程高手也不懂的C语言 ...

  5. java file 实例_Java File类的详解及简单实例

    Java File类的详解及简单实例 1. File():构造函数,一般是依据文件所在的指定位置来创建文件对象. CanWrite():返回文件是否可写. CanRead():返回文件是否可读. Co ...

  6. java程序设计颜志军_JSP 自定义标签之一 简单实例

    在JSP中使用自定义标签可以达到这样的目的,事实上,我们所熟知的各类框架基本上都是通过自定义标签的形式来实现的. 通过使用自定义标签,我们可以将实现复杂的逻辑在页面用简单的标签来加以展示.下面我们来实 ...

  7. java女人_Java是一个事业成功的女人

    原标题:Java是一个事业成功的女人 文/北京达内教育(微信号:bjtedu01)关注后免费可获得达内5天训练营,都是干货哦~ Java是一个事业成功的女人. 很多在她手下干过的人都感觉她的能力跟她的 ...

  8. 夸女人的JAVA代码_Java是一个事业成功的女人

    原标题:Java是一个事业成功的女人 Java是一个事业成功的女人. 很多在她手下干过的人都感觉她的能力跟她的地位并不般配,她更多的是通过技巧打动了中层管理人员.你也许会认为她是很有智慧的人,你愿意跟 ...

  9. java 停车场_java 设计一个停车场

    属性: 车牌号 入场时间 出场时间 按月缴费标志 两个以上构造函数 一组set方法 一组get方法 从键盘输入属性的方法 显示属性方法(车牌号.入场时间.出场时间.停车费用) 获取出场时间 获取入场时 ...

最新文章

  1. 这是什么神仙公司?居然公布离职员工信息,还给差评?
  2. 苹果手机视频传输教程-通过无线将电脑上视频传到手机
  3. JavaScript实现字符串转换成驼峰表示法
  4. threejs骨架形状
  5. Windows FFMPEG开发环境配置
  6. 怎样清空输入缓冲区里的内容
  7. codeforces 361 D. Levko and Array(dp+二分)
  8. VS2012下基于Glut OpenGL GL_POLYGON示例程序:
  9. 金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析)
  10. 如何使用OBS录制采集卡视频内容
  11. npm安装vant(有赞UI)框架 - cmd篇
  12. Weighted Median
  13. 关于NetCore+饿了么开放平台+奇门+聚石塔对接的解释说明
  14. 电脑能登qq但是无法访问网页
  15. 她力量系列一丨复旦大学黄萱菁教授:期待更多女性领会计算机科学的奥妙
  16. 标识(志)符的概念与规则
  17. [生存志] 第78节 左传汇总春秋大事
  18. 音频文件的结构与规范——RIFF和WAVE音频文件格式
  19. Linux 字体微调 - windows 效果版
  20. 孪生素数【函数实现】

热门文章

  1. 考研辅助app的诞生!
  2. 微信小程序登录与服务器交换数据的流程
  3. linux游戏吧 minecraft,《我的世界》全面论述minecraft1.8初期如何在linux ubuntu 14.04(64bit)上玩(官服)...
  4. js怎么输出友情链接html,JTBC友情链接JS生成的使用方法
  5. Qt之线性回归之最小二乘法(使用QChart画线,伸手党福利)
  6. 【Qt入门第1篇】 基础(一)Qt开发环境的搭建和hello world
  7. 汇编语言 王爽 第四版 实验1
  8. 初试TinyWebServer项目所遇到的问题
  9. JS函数的定义和调用几种方式
  10. ASP.NET MVC 小区物业费管理平台