该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

package com.wjd.baidukey.crawler; import java.io.ByteArrayInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; import java.text.SimpleDateFormat; import java.util.Date; import java.util.HashMap; import java.util.TimeZone; import org.apache.poi.poifs.filesystem.DirectoryEntry; import org.apache.poi.poifs.filesystem.POIFSFileSystem; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import cn.edu.hfut.dmic.contentextractor.ContentExtractor; import cn.edu.hfut.dmic.webcollector.model.CrawlDatum; import cn.edu.hfut.dmic.webcollector.model.CrawlDatums; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler; public class BdiduKeywordCrawler extends RamCrawler{ private Connection connection; private PreparedStatement pstatement; // 连接MySql数据库,用户名root,密码mahao String url = "jdbc:mysql://localhost:3306/wjd"; String username = "root"; String password = "mahao"; //保存抽取到的数据 StringBuilder result = new StringBuilder(); public BdiduKeywordCrawler(String keyword, int maxPageNum) throws Exception { for (int pageNum = 1; pageNum <= maxPageNum; pageNum++) { String url = createUrl(keyword, pageNum); CrawlDatum datum = new CrawlDatum(url) .putMetaData("keyword", keyword) .putMetaData("pageNum", pageNum + "") .putMetaData("pageType", "searchEngine") .putMetaData("depth", "1"); addSeed(datum); } } @Override public void visit(Page page, CrawlDatums next) { String keyword = page.getMetaData("keyword"); String pageType = page.getMetaData("pageType"); int depth = Integer.valueOf(page.getMetaData("depth")); if (pageType.equals("searchEngine")) { int pageNum = Integer.valueOf(page.getMetaData("pageNum")); System.out.println("成功抓取关键词" + keyword + "的第" + pageNum + "页搜索结果"); // || div[class=result-op c-container xpath-log ]>h3>a Elements results = page.select("div[class=result c-container ]>h3>a"); // Elements results1 = page.select("div[class=result-op c-container xpath-log]>h3>a");//,div[id=result-op c-container xpath-log]>h3>a //System.out.println(results1.get(0)); //results.add(results1.get(0)); for (int rank = 0; rank < results.size(); rank++) { Element result = results.get(rank); /* * 我们希望继续爬取每条搜索结果指向的网页,这里统称为外链。 * 我们希望在访问外链时仍然能够知道外链处于搜索引擎的第几页、第几条, * 所以将页号和排序信息放入后续的CrawlDatum中,为了能够区分外链和 * 搜索引擎结果页面,我们将其pageType设置为outlink,这里的值完全由 用户定义,可以设置一个任意的值 * 在经典爬虫中,每个网页都有一个refer信息,表示当前网页的链接来源。 * 例如我们首先访问新浪首页,然后从新浪首页中解析出了新的新闻链接, * 则这些网页的refer值都是新浪首页。WebCollector不直接保存refer值, * 但我们可以通过下面的方式,将refer信息保存在metaData中,达到同样的效果。 * 经典爬虫中锚文本的存储也可以通过下面方式实现。 * 在一些需求中,希望得到当前页面在遍历树中的深度,利用metaData很容易实现 * 这个功能,在将CrawlDatum添加到next中时,将其depth设置为当前访问页面 的depth+1即可。 */ CrawlDatum datum = new CrawlDatum(result.attr("abs:href")) .putMetaData("keyword", keyword) .putMetaData("pageNum", pageNum + "") .putMetaData("rank", rank + "") .putMetaData("pageType", "outlink") .putMetaData("depth", (depth + 1) + "") .putMetaData("refer", page.getUrl()); next.add(datum); } } else if (pageType.equals("outlink")) { /*int pageNum = Integer.valueOf(page.getMetaData("pageNum")); int rank = Integer.valueOf(page.getMetaData("rank")); String refer = page.getMetaData("refer");*/ try { String content = ContentExtractor.getContentByUrl(page.getUrl()); /*String line = String.format( "第%s页第%s个结果:标题:%s(%s字节)\tdepth=%s\trefer=%s", pageNum, rank + 1, page.getDoc().title(), content, depth, refer);*/ String line = String.format("标题:%s\n来源:%s\n正文:%s", page.getDoc().title(),page.getUrl(),content); HashMap data = new HashMap(); Date currentDate = new java.util.Date(); SimpleDateFormat myFmt = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss"); TimeZone timeZoneChina = TimeZone.getTimeZone("Asia/Shanghai");// 获取中国的时区 myFmt.setTimeZone(timeZoneChina);// 设置系统时区 String grabTime = myFmt.format(currentDate);// new Date()为获取当前系统时间 data.put("title", page.getDoc().title()); data.put("from", page.getUrl()); data.put("content", content); data.put("grabTime", grabTime); //String line = String.format("标题:%s\n", page.getDoc().title()); //持久化到word文档中 //是否为线程安全??? //synchronized(this) { String destFile = "D:\\"+"Result"+keyword+".doc"; result.append(line); //将result写到doc文件中 write2File(destFile,result.toString()); //添加到数据库中 addResultData(data); //} System.out.println(line); } catch (Exception e) { //e.printStackTrace(); System.out.println("链接"+page.getUrl()+"失效"); } } } //将数据保存到mysql数据库中 private void addResultData(HashMap data) { String title = data.get("title"); String source_url = data.get("from"); String content = data.get("content").replaceAll("\\?{2,}", "");//去掉字符串中出现的多个连续问号。 //抓取时间 String grabTime = data.get("grabTime"); /*SimpleDateFormat format = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss"); Date date = null; try { date = format.parse(grabTime); } catch (Exception e) { e.printStackTrace(); }*/ //System.out.println("抓取时间"+grabTime); try { connection = DriverManager.getConnection(url, username, password); String sql = "INSERT INTO wjd_keyword_search_table(TITLE,GRAP_TIME,CONTENT,SOURCE_URL) VALUES(?,?,?,?)"; String checkSql = "select 1 from wjd_keyword_search_table where TITLE='" + title + "'"; Statement statement = connection.prepareStatement(checkSql); ResultSet result = statement.executeQuery(checkSql); if (!result.next()) { // 如果数据库中不存在该记录,则添加到数据库中 pstatement = connection.prepareStatement(sql); pstatement.setString(1, title); //pstatement.setString(2, date); pstatement.setString(2,grabTime); pstatement.setString(3, content); pstatement.setString(4, source_url); pstatement.executeUpdate(); } } catch (SQLException e) { e.printStackTrace(); } } /** * 将数据持久化到本地doc文件中 * @param destFile * @param line */ private void write2File(String destFile, String line) { try { //doc content ByteArrayInputStream bais = new ByteArrayInputStream(line.getBytes()); POIFSFileSystem fs = new POIFSFileSystem(); DirectoryEntry directory = fs.getRoot(); directory.createDocument("WordDocument", bais); FileOutputStream ostream = new FileOutputStream(destFile); fs.writeFilesystem(ostream); bais.close(); ostream.close(); } catch (IOException e) { e.printStackTrace(); } } public static void main(String[] args) throws Exception { String[] keywordsList = {"网络爬虫","搜索引擎"}; int pageToal =5; for (String keyword : keywordsList) { BdiduKeywordCrawler crawler = new BdiduKeywordCrawler(keyword, pageToal); crawler.start(); } } /** * 根据关键词和页号拼接百度搜索对应的URL */ public static String createUrl(String keyword, int pageNum) throws Exception { int first = (pageNum-1) * 10; keyword = URLEncoder.encode(keyword, "utf-8"); return String.format("https://www.baidu.com/s?wd=%s&pn=%s", keyword, first); } }

java调用百度搜索_Java爬虫怎么调用百度搜索引擎,对关键字的网页爬取?相关推荐

  1. java spring+mybatis整合实现爬虫之《今日头条》搞笑动态图片爬取

    java spring+mybatis整合实现爬虫之<今日头条>搞笑动态图片爬取(详细) 原文地址原博客地址 先上效果图 抓取的动态图: 数据库: 一.此爬虫介绍 今日头条本身就是做爬虫的 ...

  2. 初探Scrapy爬虫框架之百度网页爬取

    初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...

  3. 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  4. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  5. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  6. 爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解

    概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...

  7. beautifulsoup网页爬虫解析_Python爬虫快速入门,静态网页爬取

    在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...

  8. Python爬虫快速入门,静态网页爬取!

    在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...

  9. 网络爬虫(动态网页爬取关于混合动力汽车的论文数据)

    一.实验目的 (1) 熟悉网页浏览器开发工具的使用: (2) 掌握动态网页加载过程: (3) 掌握 post 请求参数设置: (4) 掌握基本的反反爬技术: (5) 能够根据问题需求,指定网络爬虫方案 ...

最新文章

  1. Qt中文手册 之 QTableWidgetItem
  2. 【ACM】家喻户晓的中药店(待更)
  3. 绝了!这个开源验证码项目,差点晚上瘾...
  4. 【机器学习】什么是机器学习?(下)
  5. vscode 怎么编辑sphinx_如何在vs Code 中编辑和调试Stata程序
  6. 从电子电路到嵌入式系统(开篇)
  7. SQL Server 2005 中的客户端 XML 处理
  8. HCIE-Security Day5:防火墙会话表和转发原理
  9. 【转】程序员10月书讯
  10. AIRIOT答疑第3期|如何使用物联网平台的可视化组态引擎?
  11. 随机生成名字的Android页面
  12. 【论文总结】Incremental Learning of Object Detectors without Catastrophic Forgetting(附翻译)
  13. MSRA提出学习实例和分布式视觉表示的极端掩蔽模型ExtreMA
  14. 集线器、交换机、路由器之间的关系(清晰明了)
  15. 人民币大写转小写,及人民币格式判断
  16. 《孙子兵法战略运筹之始计篇》
  17. 股票量化分析工具QTYX使用攻略——涨停数据选股(更新2.5.6)
  18. 游戏服务器 脚本任务系统,玩家杀死野怪系统自动触发任务系统的脚本
  19. Selenium面试问题和答案-2
  20. 电脑卡怎么办,简单步骤让电脑变快

热门文章

  1. MATLAB的var与std函数 与 均值,方差,标准差,均方差,均分误差
  2. epoll使用详解(精髓)
  3. 修改meta标签 查看源码没效果怎么办_Spring 源码学习(三)-自定义标签
  4. python数据收集系统_玩玩Python数据采集_001
  5. ftp协议是一种用于_______的协议_网工知识角|快速理解FTP和TFTP的区别,实用收藏...
  6. windows环境搭建ios+xcode
  7. linux 下安装java
  8. QPS相关的概念收集(吞吐量(TPS)、QPS、并发数、响应时间(RT))
  9. 亚马逊手机端测评软件/PC端测评软件各有什么优缺点?
  10. Campus Address