package org.test;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** 数据采集*/
public class Main {public static void main(String[] args) {String strUrl = "http://news.baidu.com";try {URL url = new URL(strUrl);BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));String strRead = ""; // new 一个字符串来装载 BufferedReader 读取到的内容// 定义1个规则用于获取a标签的数据String aPattern = "(?i)<a[^>]*?href=\"([^\"]*)\"[^>]*>[^<>]*</a>";int count = 0;while (null != (strRead = br.readLine())) {// 捕获a标签数据String strGet = getMatchData(aPattern, strRead);if (!strGet.equals("")) {// 获取想要得到的a标签信息System.out.println("新闻信息:" + strGet);count++;}}br.close();System.out.println("共收集到" + count + "条记录");} catch (IOException e) {e.printStackTrace();}}/*** 抓取html中需要的内容* @param pattern 要抓取内容的正则表达式* @param str html数据* @return*/public static String getMatchData(String pattern, String htmlStr) {Matcher m = Pattern.compile(pattern, Pattern.CASE_INSENSITIVE).matcher(htmlStr);// 返回捕获到的数据return m.find() == true ? m.group() : "";}
}

java 采集新闻数据相关推荐

  1. java多线程数据采集,【多线程数据采集课题】java采集网页数据方法

    [多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集  第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...

  2. php采集新闻数据插入数据库,PHP采集www.php.cn的文章,并存入数据库。

    [PHP]代码<?php class Fork36kr { private $start; private $end; private $number = 0; private $dsn; pr ...

  3. java 传感器_JAVA串口采集传感器数据

    [实例简介] JAVA调用底层库实现采集串口数据和返回数据 JAVA调用底层库实现采集串口数据和返回数据 [实例截图] [核心代码] JAVA串口采集数据 └── JAVA串口采集数据 ├── JAV ...

  4. php 游戏数据 处理,PhpSpider采集游戏的新闻数据

    话不多说,上代码. require_once __DIR__.'/../autoloader.php'; use phpspider\core\phpspider; use phpspider\cor ...

  5. JAVA采集图书的ISBN编号编码、出版社、出版时间、版次、正文语种、定价等信息

    今天分享我的一个练手项目,用来采集图书的ISBN编号编码.出版社.出版时间.版次.正文语种.定价等信息. 本项目介绍了如何使用代理IP和多线程采集公开数据,项目尚不具备使用条件,仅供学习参考. 项目需 ...

  6. python大数据和java大数据的区别-未来Java、大数据、Python哪个前景更好,薪资更高?...

    都知道现在最火爆的是人工智能.大数据.而人工智能和大数据主要用的语言就是Java和Python.今天我们就来分析一下,当前java,python和大数据,哪个就业前景更好?自己该学哪一个? Java和 ...

  7. (仿头条APP项目)6.点击过的新闻列表文字变灰和下拉刷新与滚动加载新闻数据

    文章目录 一.点击过的新闻列表文字变灰 效果图 实现思路 导入ormlite数据库类依赖 利用ormlite创建数据库和表 创建数据库类MyDbHelper 创建数据库中的新闻实体类NewInfo 页 ...

  8. 如何让采集的数据比原创还要原创!

    大家好,国庆节过了,祝大家节日快乐,特别要祝是守候在群的一线的光棍们有情人可度,有梦想可求.今天讲一下网站数据的采集及实践. 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真 ...

  9. java对响应数据做封装_1000种对Java的响应没有死

    java对响应数据做封装 当一篇评论发表1000条评论时,值得考虑一下. 上周我的社论" 如果Java即将死,它肯定看起来非常健康 "在各个开发人员社区中都感到不安 . 在Redd ...

最新文章

  1. 数据库连接类 DB.class.php
  2. pd.merge 结果出现重复_COUNTIFS函数技巧之去重复值计数(思路分析,过程详解)...
  3. 安装汇编环境,写一个最简单的窗口程序
  4. 一套Windows上C/C++的编码转换函数
  5. 期末考试前的预习,科目:化工设备与反应器(2)
  6. uni-app文档需要注意细节点
  7. python创建虚拟环境失败_?conda创建虚拟环境失败,如何解决?
  8. Java反射修改返回值_java反射调用时如果返回值是整型数组怎么处理?
  9. 有着 30 多年经验的程序员最终被辞退了
  10. JS 的内联模式与外联模式
  11. 自制STC12C5A60S2最小系统板
  12. dubbo源码阅读 Adaptive机制
  13. k8s裸机安装Service使用LoadBalancer
  14. 【简单实现html页面指定某一个div局部刷新】
  15. Zeppelin打开定时调度
  16. 微信小程序开发入门实例
  17. 【Linux折腾记】manjaro初体验
  18. 大数据技术---Hadoop
  19. 如何做一个“完美”的业余游戏策划(zt)
  20. php必读十本书,教师必读的十本书及理由

热门文章

  1. [BZOJ4398]福慧双修/[BZOJ2407]探险
  2. 漫画:二分法系列篇(第一讲)
  3. c语言1064加密字符,ZZULIOJ 1064加密字符
  4. Java面试八股文界的“六边形战士”22年最强,不接受反驳!
  5. [APIO2018] New Home 新家
  6. 人脸考勤机是如何工作的?人脸考勤机有哪些优缺点?
  7. 算法之-判断某个整数是否为素数的自定义函数:
  8. 写一个判断素数的函数,在主函数输入一个整数,输出是否为素数的信息
  9. MySQL查询近7天、1年、5年内数据,无数据部分补0
  10. Docker启动报错:Job for docker.service failed because the control process exited with error code. See “sy