问题引入

对于给定的任意一个网址，爬取这个网页上的所有文本信息，并抽取出文本的中文和英文关键词

搭建环境

首先需要具备eclipse开发环境。然后导入jsoup包，用来爬取网页，再到这个网址http://hanlp.linrunsoft.com/services.html下载并按步骤导入HanLP的包，用来抽取关键词

项目文件架构

源代码及说明

1、配置文件hanlp.properties出现中文乱码问题，可以调gbk为utf-8，注意这里面的路径问题如下：

2、笔者分别抽取了一个网页上文本信息中的中文和英文的关键词，一同输出。抽取英文的时候，笔者用了一个小小的巧妙的技巧——把空格统计到英文里去（具体见代码，这样直接就实现了英文的分割）

package testHanlp;import java.io.IOException;
import java.util.List;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import com.hankcs.hanlp.HanLP;public class TestHanlp {public static void Get_Url(String url) {StringBuffer English=new StringBuffer();StringBuffer Chinese=new StringBuffer();try {Document doc = Jsoup.connect(url) .get();Elements body = doc.getElementsByTag("body");     for (Element Text : body) {String text = Text.text();for(int i=0;i<text.length();i++) {char c=text.charAt(i);if(c >= 0x4E00 &&  c <= 0x9FA5) {Chinese.append(c);}else if ((c>='a' && c<='z') || (c>='A' && c<='Z') || c==' ') {English.append(c);}}    }}catch (IOException e) {e.printStackTrace();}String EnglishText=new String(English);String ChineseText=new String(Chinese);List<String> EnglishKeywordList = HanLP.extractKeyword(EnglishText, 5);List<String> ChinesekeywordList = HanLP.extractKeyword(ChineseText, 5);System.out.println(EnglishKeywordList);System.out.println(ChinesekeywordList);}public static void main(String[] args) {String url ="https://github.com/";Get_Url(url);}
}

效果展示

下面我对人民日报官网的一个网页人民日报的一个网页进行爬取，并抽取关键词如下：

下面我对GitHub主页进行爬取如下：

笔者未解决问题

如何导出可以执行的jar包，这个问题没有解决，笔者参考很多教程，始终没有导出一个可以执行的jar包！导出的jar包在命令行下运行总是出错

（第一个java爬虫）java爬取网页文本并抽取中英文关键词相关推荐

java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
【Java爬虫】爬取网页中的内容，提取其中文字
挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...
HTTP编程(Java爬虫-简单爬取网页数据）
HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...
java爬虫京东商品,Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup
1.需求及配置需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用maven项目,log4j记录日志,日志仅导出到控制台. maven依赖如下 ...
python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
python爬虫实现爬取网页主页信息（html代码）
python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...
python爬虫（一）：正则表达式爬取网页文本
文章目录 1 正则表达式 2 网页文本爬取 2.1 单页文本 2.2 多页文本 2.2.1 演示文本 2.2.2 文本信息获取 3 实战记录 3.1 网页纯文本处理 3.1.1 常规网页 3.1.2 ...
node.js 爬虫实现爬取网页图片并保存到本地
node.js 爬虫实现爬取网页图片并保存到本地没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...
利用java的JSoup爬虫技术爬取网页信息
简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...

（第一个java爬虫）java爬取网页文本并抽取中英文关键词