问题引入

对于给定的任意一个网址,爬取这个网页上的所有文本信息,并抽取出文本的中文和英文关键词

搭建环境

首先需要具备eclipse开发环境。然后导入jsoup包,用来爬取网页,再到这个网址http://hanlp.linrunsoft.com/services.html下载并按步骤导入HanLP的包,用来抽取关键词

项目文件架构

源代码及说明

1、配置文件hanlp.properties出现中文乱码问题,可以调gbk为utf-8,注意这里面的路径问题如下:

2、笔者分别抽取了一个网页上文本信息中的中文和英文的关键词,一同输出。抽取英文的时候,笔者用了一个小小的巧妙的技巧——把空格统计到英文里去(具体见代码,这样直接就实现了英文的分割)

package testHanlp;import java.io.IOException;
import java.util.List;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import com.hankcs.hanlp.HanLP;public class TestHanlp {public static void Get_Url(String url) {StringBuffer English=new StringBuffer();StringBuffer Chinese=new StringBuffer();try {Document doc = Jsoup.connect(url) .get();Elements body = doc.getElementsByTag("body");     for (Element Text : body) {String text = Text.text();for(int i=0;i<text.length();i++) {char c=text.charAt(i);if(c >= 0x4E00 &&  c <= 0x9FA5) {Chinese.append(c);}else if ((c>='a' && c<='z') || (c>='A' && c<='Z') || c==' ') {English.append(c);}}    }}catch (IOException e) {e.printStackTrace();}String EnglishText=new String(English);String ChineseText=new String(Chinese);List<String> EnglishKeywordList = HanLP.extractKeyword(EnglishText, 5);List<String> ChinesekeywordList = HanLP.extractKeyword(ChineseText, 5);System.out.println(EnglishKeywordList);System.out.println(ChinesekeywordList);}public static void main(String[] args) {String url ="https://github.com/";Get_Url(url);}
}

效果展示

下面我对人民日报官网的一个网页人民日报的一个网页进行爬取,并抽取关键词如下:

下面我对GitHub主页进行爬取如下:

笔者未解决问题

如何导出可以执行的jar包,这个问题没有解决,笔者参考很多教程,始终没有导出一个可以执行的jar包!导出的jar包在命令行下运行总是出错

(第一个java爬虫)java爬取网页文本并抽取中英文关键词相关推荐

  1. java爬虫-简单爬取网页图片

    刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...

  2. 【Java爬虫】爬取网页中的内容,提取其中文字

    挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...

  3. HTTP编程(Java爬虫-简单爬取网页数据)

    HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...

  4. java爬虫京东商品,Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用maven项目,log4j记录日志,日志仅导出到控制台. maven依赖如下 ...

  5. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  6. python爬虫实现爬取网页主页信息(html代码)

    python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...

  7. python爬虫(一):正则表达式爬取网页文本

    文章目录 1 正则表达式 2 网页文本爬取 2.1 单页文本 2.2 多页文本 2.2.1 演示文本 2.2.2 文本信息获取 3 实战记录 3.1 网页纯文本处理 3.1.1 常规网页 3.1.2 ...

  8. node.js 爬虫 实现爬取网页图片并保存到本地

    node.js 爬虫 实现爬取网页图片并保存到本地 没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...

  9. 利用java的JSoup爬虫技术爬取网页信息

    简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...

最新文章

  1. 主从mysql能过滤指定dml吗_MyCat教程二:mysql主从复制实现 - HG-93
  2. 一些在数字化转型的方面的公司和例子
  3. Vasya and String CodeForces - 676C(尺取法)
  4. MS SQL数据库备份和恢复存储过程
  5. 2017.6.26 旅行 思考记录
  6. File存对象--android 的File存储到SD卡();
  7. 让普通用户可以kill自己用户下的session(转)
  8. Python3 ORM hacking
  9. CUPS搜索添加打印机的范例代码
  10. spring:注解配置AOP
  11. exchange2003系列总结:-5邮件加密与签名的工作流程
  12. 用大数据挑选出国外最值得看的前50条swift教程(v.2019)
  13. 如何用公式编辑器打长等号
  14. 将16进制的字符串转换为对应的字符
  15. GPS精确授时方法研究-基于ublox GPS
  16. VOIP电话中的SIP信令返回码的详细解释
  17. OpenLdap-如何使用phpLdapAdmin创建CN用户、OU用户组
  18. Raspberry pi 3 DSI LCD研究筆記2nd TN92
  19. oracle中cube的作用,Oraclerollup和cube分析
  20. 即时通讯系统架构设计-如何设计一款WhatsApp

热门文章

  1. 做SEO,如何分析竞争对手网站-趣味seo
  2. C语言中条件状语从句,C 在条件状语从句中,如果其主语和主句的主语一致,那么可以把条件句中的主语和系动词be同时省略.此题中即是在If后省略了he is....
  3. 分式化简结果要求_分式约分的结果是()
  4. PAT乙级1008and1009
  5. 会议服务与管理【2】
  6. Unity3D-获取字体的实际像素宽高
  7. 报错:java.net.bindexception: address already in use: jvm_bind:8082
  8. brk系统调用和copy-on-write机制
  9. Stata:无条件分位数回归及应用
  10. 鸿蒙系统为什么不能退出,鸿蒙系统怎么退回安卓 鸿蒙系统怎么卸载