抓取沪市上市公司公告、过滤公告内容
如下:
/*** 获取最新的公告信息* @return* @throws IOException*/public static List<String> stockNotice() throws IOException {List<String> list = new ArrayList<String>();String url = "http://www.sse.com.cn/disclosure/listedinfo/announcement/s_docdatesort_desc_2016openpdf.htm";Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)").timeout(5000).get();Elements dds = doc.getElementsByTag("dd");Iterator<Element> iterator = dds.iterator();while(iterator.hasNext()){Element element = iterator.next();String date = element.getElementsByTag("span").get(0).html();String content = element.getElementsByTag("em").get(0).getElementsByTag("a").html();list.add(date + " ## " + content);}return list;}/*** 过滤公告信息* @return*/public static String filterNotice(List<String> list){StringBuffer str = new StringBuffer();String[] filters = new String[]{"增发","增持","合作","定增","重组","合同","增长","预增"};for(String s : list){boolean flag = false;//是否包含某个关键字for(String s0 : filters){if(s.contains(s0)){flag = true;break;}}if(flag){str.append(s + "\n");flag = false;}}return str.toString();}
抓取沪市上市公司公告、过滤公告内容相关推荐
- 抓取百度页面html,百度会抓取页面代码中的注释内容吗
百度会抓取页面代码中的注释内容吗 内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...
- 利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 在做 Web 信息提取.数 ...
- 使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
- php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
- php采集今日头条出现问题,使用php蓝天采集抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
- wireshark抓取常用报文协议过滤法则大全
做应用识别这一块经常要对应用产生的数据流量进行分析. 抓包采用wireshark,提取特征时,要对session进行过滤,找到关键的stream,这里总结了wireshark过滤的基本语法,供自己以后 ...
- 用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...
- python 爬虫爬取所有上市公司公告信息(三)
.,.数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写. 首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据.一个股票代码文件 ...
- python 爬虫爬取所有上市公司公告信息(五)
.,.现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中, 在最内层循环结束后,我们编写程序实现 ...
最新文章
- 字节跳动AI Lab社招以及实习生内推
- html5 上传超大文件,HTML5教程 如何拖拽上传大文件
- linux lnmp yum,yum安装LNMP
- python代码格式-pyhon代码设计格式指南
- 本地计算机上的SQL Server(MSSQLSERVER)服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止...
- 【软件开发底层知识修炼】十三 链接器-如何写出不依赖C库函数的代码
- Java 设计模式(3)单例模式
- Linux系统各文件、目录介绍
- win11网络无法连接怎么办 Windows11连不上网的解决方法
- 解决Required String parameter xxx is not present异常
- 【人脸识别】基于matlab GUI SVM和PCA人脸识别【含Matlab源码 369期】
- 电路方案分析(十三)采用 CAN 的汽车分立式 SBC 预升压、后降压参考设计方案
- 数字化经营快速发展,微火专注做智慧数字经营系统解决方案提供商
- 分布式数据库中间件 MyCat 搞起来!
- 安全驱动怎么设计(一)
- 1到3岁宝宝如何选择玩具
- 有一分热,发一分光,用Python 爬取鲁迅先生《经典语录》
- 与ISV的生态合作?怎么弄?
- 直驱式永磁同步风力发电系统的仿真模型
- JSP页面之间传递中文参数的解决方法