抓取沪市上市公司公告、过滤公告内容

如下：

/*** 获取最新的公告信息* @return* @throws IOException*/public static List<String> stockNotice() throws IOException {List<String> list = new ArrayList<String>();String url = "http://www.sse.com.cn/disclosure/listedinfo/announcement/s_docdatesort_desc_2016openpdf.htm";Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)").timeout(5000).get();Elements dds = doc.getElementsByTag("dd");Iterator<Element> iterator = dds.iterator();while(iterator.hasNext()){Element element = iterator.next();String date = element.getElementsByTag("span").get(0).html();String content = element.getElementsByTag("em").get(0).getElementsByTag("a").html();list.add(date + " ## " + content);}return list;}/*** 过滤公告信息* @return*/public static String filterNotice(List<String> list){StringBuffer str = new StringBuffer();String[] filters = new String[]{"增发","增持","合作","定增","重组","合同","增长","预增"};for(String s : list){boolean flag = false;//是否包含某个关键字for(String s0 : filters){if(s.contains(s0)){flag = true;break;}}if(flag){str.append(s + "\n");flag = false;}}return str.toString();}

抓取沪市上市公司公告、过滤公告内容相关推荐

抓取百度页面html,百度会抓取页面代码中的注释内容吗
百度会抓取页面代码中的注释内容吗内容导读:百度会抓取页面代码中的注释内容吗?答案是百度会抓取,但是在提取正文的时候会直接忽略掉,也就是说页面代码的注释内容不会影响到页面质量,所以大家尽管放心. 问题 ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数 ...
使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
php采集今日头条出现问题,使用php蓝天采集抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
wireshark抓取常用报文协议过滤法则大全
做应用识别这一块经常要对应用产生的数据流量进行分析. 抓包采用wireshark,提取特征时,要对session进行过滤,找到关键的stream,这里总结了wireshark过滤的基本语法,供自己以后 ...
用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章用谷歌浏览器 ...
python 爬虫爬取所有上市公司公告信息（三）
.,.数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写. 首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据.一个股票代码文件 ...
python 爬虫爬取所有上市公司公告信息（五）
.,.现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中, 在最内层循环结束后,我们编写程序实现 ...

抓取沪市上市公司公告、过滤公告内容

抓取沪市上市公司公告、过滤公告内容相关推荐

最新文章

热门文章