Java编程应用（六）：新浪新闻爬虫程序

下面是该爬虫的关键代码，查看更多的源代码请点击这里

package com.lxf.crawler;
import java.io.File;
import java.io.FileWriter;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import com.lxf.dao.bean.NewsBean;
import com.lxf.dao.imp.NewsDao;
import com.lxf.dao.inf.NewsDaoInf;
/*** <爬虫程序> 从新浪新闻中爬取新闻分类、标题及内容 (需导入htmlparser.jar包，可以从我的github上下载https://github.com/lxf44944/sinaNews_crawler/)* * @author 刘向峰*/
public class SinaNews {/*** 测试入口* * @param args*/public static void main(String args[]) {// china world// society media opinionString type = "world";File file = new File(type);if (!file.exists())// 如果不存在就创建{file.mkdirs();}SinaNews gn = new SinaNews();String a = gn.getNews(type);// gn.writefile(a, "SinaNews.html",type);}// 抓取信息 组成良好格式public String getNews(String type) {NewsDaoInf dao = new NewsDao();try {NodeFilter filter = new TagNameFilter("ul");Parser parser = new Parser();Parser bodyparser = new Parser();parser.setURL("http://news.sina.com.cn/" + type + "/");// 互联网模块的地址// System.out.println(parser.getEncoding());parser.setEncoding("gb2312");NodeList list = parser.extractAllNodesThatMatch(filter);StringBuilder newsStr = new StringBuilder("<!DOCTYPE html><html><head></head><body><table>");// 新闻表格字符串SinaNews gn = new SinaNews();for (int i = 0; i < list.size() - 1; i++) {Tag node = (Tag) list.elementAt(i);for (int j = 1; j < node.getChildren().size(); j++) {String textstr = node.getChildren().elementAt(j).toHtml().trim();if (textstr.length() > 0) {int linkbegin = textstr.indexOf("href=");// 截取<a>链接字符串起始位置int linkend = textstr.indexOf("\">");// 截取<a>链接字符串结束位置String sublink = textstr.substring(linkbegin + 6,linkend);// 链接字符串String link = "";if (sublink.indexOf("target") != -1) {link = sublink.substring(0, sublink.indexOf("\""));} else {link = sublink;// 链接字符串}int titlebegin = textstr.indexOf("\">");int titleend = textstr.indexOf("</a>");String title = textstr.substring(titlebegin + 2,titleend).trim();System.out.println("正在抓取: " + title);// 通过标题判断该新闻是否已经存在if (dao.hasNews(title)) {System.out.println("【该记录已经存在】");continue;}if (title.contains("视频:") || title.contains("视频：")) {System.out.println("【无法获得视频新闻】");continue;}if (title.contains("(图)")) {title = title.replace("(图)", "");}try {/** 新闻内容处理开始 */NodeFilter bodyfilter = new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("id", "artibody"));bodyparser.setURL(link);// 地址url// bodyparser.setEncoding(bodyparser.getEncoding());bodyparser.setEncoding("gb2312");NodeList bodylist = bodyparser.extractAllNodesThatMatch(bodyfilter);// 新闻内容字符串if (bodylist.elementAt(0) == null) {System.out.println("【新闻无内容】");continue;}String newstextstr = bodylist.elementAt(0).toHtml().trim();// 只保留正文内容，保留P标签以保持其排版int bodybegin = newstextstr.indexOf("<p>");int bodyend = newstextstr.lastIndexOf("</p>") + 4;int bodyimgbegin = newstextstr.indexOf("<div class=\"img_wrapper\">");int bodyimgend = newstextstr.lastIndexOf("<span class=\"img_descr\">");String body = "";if (bodybegin < 0) {body = newstextstr;} else {body = newstextstr.substring(bodybegin, bodyend);}if (bodyimgbegin >= 0) {body = newstextstr.substring(bodyimgbegin,bodyimgend) + "</div>" + body;}/** 写入数据库 */NewsBean newsBean = new NewsBean(0, title, body,link, link.substring(link.lastIndexOf("/") - 10,link.lastIndexOf("/")), type);dao.add(newsBean);// gn.writefile(body, link,type); // 写文件} catch (Exception e) {System.out.println("抓取信息子页面出错，出错信息为：");e.printStackTrace();/** 新闻内容处理结束 */}/** 将标题拼接到字符串中 */newsStr.append("<tr><td><a target=\"_blank\" href=\""+ link + "\">");newsStr.append(title);newsStr.append("</a></td></tr>");}}}newsStr.append("</table></body></html>");return newsStr.toString();} catch (Exception e) {System.out.println("抓取信息出错，出错信息为：");e.printStackTrace();return "";}}// 写文件public void writefile(String str, String filename, String type) {if (filename.contains(".cn/")) {filename = type+ "\\"+ filename.substring(filename.indexOf(".cn/") + 4).replace("/", "_");} else {filename = type + "\\" + filename;}File file = new File(filename);if (!file.exists() && filename.indexOf("/") != -1)// 如果不存在就创建{file.mkdirs();}try {FileWriter writer = new FileWriter(filename);writer.write(str);writer.close();System.out.println("成功生成新闻页面" + filename);} catch (Exception e) {System.out.println("将信息写入文件" + filename + "发生错误，错误信息为：");e.printStackTrace();}}
}

Java编程应用（六）：新浪新闻爬虫程序相关推荐

java实现爬取新浪新闻指定天数（一段时间）的头条新闻
目标:java实现爬取新浪新闻指定天数(一段时间)的头条新闻需要导入jar包:fastjson和Jsoup. IDEA导入jar包办法:Intellij IDEA 添加jar包的三种方式思路: 找 ...
php每天扒取当天新闻_php 抓取新浪新闻的程序代码
Jquery中文网 > 脚本编程 > php > 正文 php 抓取新浪新闻的程序代码 php 抓取新浪新闻的程序代码发布时间:2016-10-09 编辑:www.jque ...
php抓取新浪数据,php 抓取新浪新闻的程序代码
抓取就是采集了,今天因为我们要做一个实时采集新浪新闻的功能,下面整理了一个非常了得的php 抓取新浪新闻的程序,我们来看看. 首先,需要下载一个simple_html_dom第三方扩展库,具体下载方式 ...
第六课 Python新浪新闻爬虫最终整理总结
代码整理封装如图: 6不6? Python简洁又强大! 至此,教程圆满结束,还有什么不懂的或有疑问的问题,欢迎大家加我的QQ:1099718640 顺便再送上完整代码,凑凑字数,哈哈~(其实推荐大家去 ...
Java RTTI与反射（参照Java编程思想与新浪博客）
一.Java的RTTI RTTI(Run-Time Type Identification,通过运行时类型识别)的含义就是在运行时识别一个对象的类型,其对应的类是Class对象,每个java里面的类 ...
php抓取新浪新闻,新浪新闻采集程序
利用正则表达式提取内容信息<?php //error_reporting(0); $date=date("Ymd"); //echo $date; $url="ht ...
java 爬虫（爬新浪新闻）如何从零开始 - 简书
本文由简悦 SimpRead 转码, 原文地址 bbs.huaweicloud.com 这篇文章能够快速教你爬取新浪新闻.希望这篇文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~ 如何 ...
多线程新浪新闻搜索网络爬虫-基于关键字
本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平台.如有转载请注明本文博客的地址(链接) 源码获取请联系:1563178220@qq.com 简介互联网有海量的新闻,如 ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

Java编程应用（六）：新浪新闻爬虫程序

Java编程应用（六）：新浪新闻爬虫程序相关推荐

最新文章

热门文章