java 采集新闻数据
package org.test;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** 数据采集*/
public class Main {public static void main(String[] args) {String strUrl = "http://news.baidu.com";try {URL url = new URL(strUrl);BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));String strRead = ""; // new 一个字符串来装载 BufferedReader 读取到的内容// 定义1个规则用于获取a标签的数据String aPattern = "(?i)<a[^>]*?href=\"([^\"]*)\"[^>]*>[^<>]*</a>";int count = 0;while (null != (strRead = br.readLine())) {// 捕获a标签数据String strGet = getMatchData(aPattern, strRead);if (!strGet.equals("")) {// 获取想要得到的a标签信息System.out.println("新闻信息:" + strGet);count++;}}br.close();System.out.println("共收集到" + count + "条记录");} catch (IOException e) {e.printStackTrace();}}/*** 抓取html中需要的内容* @param pattern 要抓取内容的正则表达式* @param str html数据* @return*/public static String getMatchData(String pattern, String htmlStr) {Matcher m = Pattern.compile(pattern, Pattern.CASE_INSENSITIVE).matcher(htmlStr);// 返回捕获到的数据return m.find() == true ? m.group() : "";}
}
java 采集新闻数据相关推荐
- java多线程数据采集,【多线程数据采集课题】java采集网页数据方法
[多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集 第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...
- php采集新闻数据插入数据库,PHP采集www.php.cn的文章,并存入数据库。
[PHP]代码<?php class Fork36kr { private $start; private $end; private $number = 0; private $dsn; pr ...
- java 传感器_JAVA串口采集传感器数据
[实例简介] JAVA调用底层库实现采集串口数据和返回数据 JAVA调用底层库实现采集串口数据和返回数据 [实例截图] [核心代码] JAVA串口采集数据 └── JAVA串口采集数据 ├── JAV ...
- php 游戏数据 处理,PhpSpider采集游戏的新闻数据
话不多说,上代码. require_once __DIR__.'/../autoloader.php'; use phpspider\core\phpspider; use phpspider\cor ...
- JAVA采集图书的ISBN编号编码、出版社、出版时间、版次、正文语种、定价等信息
今天分享我的一个练手项目,用来采集图书的ISBN编号编码.出版社.出版时间.版次.正文语种.定价等信息. 本项目介绍了如何使用代理IP和多线程采集公开数据,项目尚不具备使用条件,仅供学习参考. 项目需 ...
- python大数据和java大数据的区别-未来Java、大数据、Python哪个前景更好,薪资更高?...
都知道现在最火爆的是人工智能.大数据.而人工智能和大数据主要用的语言就是Java和Python.今天我们就来分析一下,当前java,python和大数据,哪个就业前景更好?自己该学哪一个? Java和 ...
- (仿头条APP项目)6.点击过的新闻列表文字变灰和下拉刷新与滚动加载新闻数据
文章目录 一.点击过的新闻列表文字变灰 效果图 实现思路 导入ormlite数据库类依赖 利用ormlite创建数据库和表 创建数据库类MyDbHelper 创建数据库中的新闻实体类NewInfo 页 ...
- 如何让采集的数据比原创还要原创!
大家好,国庆节过了,祝大家节日快乐,特别要祝是守候在群的一线的光棍们有情人可度,有梦想可求.今天讲一下网站数据的采集及实践. 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真 ...
- java对响应数据做封装_1000种对Java的响应没有死
java对响应数据做封装 当一篇评论发表1000条评论时,值得考虑一下. 上周我的社论" 如果Java即将死,它肯定看起来非常健康 "在各个开发人员社区中都感到不安 . 在Redd ...
最新文章
- 数据库连接类 DB.class.php
- pd.merge 结果出现重复_COUNTIFS函数技巧之去重复值计数(思路分析,过程详解)...
- 安装汇编环境,写一个最简单的窗口程序
- 一套Windows上C/C++的编码转换函数
- 期末考试前的预习,科目:化工设备与反应器(2)
- uni-app文档需要注意细节点
- python创建虚拟环境失败_?conda创建虚拟环境失败,如何解决?
- Java反射修改返回值_java反射调用时如果返回值是整型数组怎么处理?
- 有着 30 多年经验的程序员最终被辞退了
- JS 的内联模式与外联模式
- 自制STC12C5A60S2最小系统板
- dubbo源码阅读 Adaptive机制
- k8s裸机安装Service使用LoadBalancer
- 【简单实现html页面指定某一个div局部刷新】
- Zeppelin打开定时调度
- 微信小程序开发入门实例
- 【Linux折腾记】manjaro初体验
- 大数据技术---Hadoop
- 如何做一个“完美”的业余游戏策划(zt)
- php必读十本书,教师必读的十本书及理由
热门文章
- [BZOJ4398]福慧双修/[BZOJ2407]探险
- 漫画:二分法系列篇(第一讲)
- c语言1064加密字符,ZZULIOJ 1064加密字符
- Java面试八股文界的“六边形战士”22年最强,不接受反驳!
- [APIO2018] New Home 新家
- 人脸考勤机是如何工作的?人脸考勤机有哪些优缺点?
- 算法之-判断某个整数是否为素数的自定义函数:
- 写一个判断素数的函数,在主函数输入一个整数,输出是否为素数的信息
- MySQL查询近7天、1年、5年内数据,无数据部分补0
- Docker启动报错:Job for docker.service failed because the control process exited with error code. See “sy