如下:

/*** 获取最新的公告信息* @return* @throws IOException*/public static List<String> stockNotice() throws IOException {List<String> list = new ArrayList<String>();String url = "http://www.sse.com.cn/disclosure/listedinfo/announcement/s_docdatesort_desc_2016openpdf.htm";Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)").timeout(5000).get();Elements dds = doc.getElementsByTag("dd");Iterator<Element> iterator = dds.iterator();while(iterator.hasNext()){Element element = iterator.next();String date = element.getElementsByTag("span").get(0).html();String content = element.getElementsByTag("em").get(0).getElementsByTag("a").html();list.add(date + " ## " + content);}return list;}/*** 过滤公告信息* @return*/public static String filterNotice(List<String> list){StringBuffer str = new StringBuffer();String[] filters = new String[]{"增发","增持","合作","定增","重组","合同","增长","预增"};for(String s : list){boolean flag = false;//是否包含某个关键字for(String s0 : filters){if(s.contains(s0)){flag = true;break;}}if(flag){str.append(s + "\n");flag = false;}}return str.toString();}

抓取沪市上市公司公告、过滤公告内容相关推荐

  1. 抓取百度页面html,百度会抓取页面代码中的注释内容吗

    百度会抓取页面代码中的注释内容吗 内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...

  2. 利用Crowbar抓取网页异步加载的内容 [Python俱乐部]

    利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 在做 Web 信息提取.数 ...

  3. 使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  4. php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  5. php采集今日头条出现问题,使用php蓝天采集抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  6. wireshark抓取常用报文协议过滤法则大全

    做应用识别这一块经常要对应用产生的数据流量进行分析. 抓包采用wireshark,提取特征时,要对session进行过滤,找到关键的stream,这里总结了wireshark过滤的基本语法,供自己以后 ...

  7. 用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...

  8. python 爬虫爬取所有上市公司公告信息(三)

    .,.数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写. 首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据.一个股票代码文件 ...

  9. python 爬虫爬取所有上市公司公告信息(五)

    .,.现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中, 在最内层循环结束后,我们编写程序实现 ...

最新文章

  1. 字节跳动AI Lab社招以及实习生内推
  2. html5 上传超大文件,HTML5教程 如何拖拽上传大文件
  3. linux lnmp yum,yum安装LNMP
  4. python代码格式-pyhon代码设计格式指南
  5. 本地计算机上的SQL Server(MSSQLSERVER)服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止...
  6. 【软件开发底层知识修炼】十三 链接器-如何写出不依赖C库函数的代码
  7. Java 设计模式(3)单例模式
  8. Linux系统各文件、目录介绍
  9. win11网络无法连接怎么办 Windows11连不上网的解决方法
  10. 解决Required String parameter xxx is not present异常
  11. 【人脸识别】基于matlab GUI SVM和PCA人脸识别【含Matlab源码 369期】
  12. 电路方案分析(十三)采用 CAN 的汽车分立式 SBC 预升压、后降压参考设计方案
  13. 数字化经营快速发展,微火专注做智慧数字经营系统解决方案提供商
  14. 分布式数据库中间件 MyCat 搞起来!
  15. 安全驱动怎么设计(一)
  16. 1到3岁宝宝如何选择玩具
  17. 有一分热,发一分光,用Python 爬取鲁迅先生《经典语录》
  18. 与ISV的生态合作?怎么弄?
  19. 直驱式永磁同步风力发电系统的仿真模型
  20. JSP页面之间传递中文参数的解决方法

热门文章

  1. android内核编译教程,Android内核开发:系统编译输出的镜像文件
  2. sqlmap目录及结构
  3. SPII翻译软件测试简历,软件测试工程师英文求职简历范文
  4. 欧几里得几何求解——建模实践
  5. js判断是对象还是数组的方法
  6. 应用竞赛树结构模拟实现外排序(C++实现)
  7. HP电脑耳机和音响同时响的解决方法
  8. 用Netty实现单机百万TCP长连接
  9. J2EE的web服务器
  10. python飞机大战源代码(可直接运行)