爬虫之巨潮资讯网关键词信息获取

今天分享一下对巨潮资讯网一些信息的爬取是如何做的，首先选择这个网站是因为网站内容还是相对来说比较简单的，主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。

核心：

正则库：import re

非贪婪匹配：.*?

正则函数：sub()

符号处理：strip()、split()

其他库：selenium webdriver(是从浏览器操作的，这个是必须要有的)

实现过程如下：

from selenium import webdriver
import redef getContents(keyword):browser = webdriver.Chrome()url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=' + keywordbrowser.get(url)data = browser.page_sourcebrowser.quit()# 正则表达式处理p_title = '<span title="" class="r-title">(.*?)</span>'p_href = '<a target="_blank" href="(.*?)" data-id='p_date = '<span class="time">(.*?)</span>'title = re.findall(p_title, data)href = re.findall(p_href, data)date = re.findall(p_date, data, re.S)  # 注意(.*?)中有换行（/n），而常规的(.*?)匹配不了换行，所以需要加上re.S取消换行的影响for i in range(len(title)):title[i] = re.sub(r'<.*?>', '', title[i])href[i] = 'http://www.cninfo.com.cn' + href[i]href[i] = re.sub('amp;', '', href[i])date[i] = date[i].strip()  # 清除空格和换行符date[i] = date[i].split(' ')[0]  # 只取“年月日”信息，不用“时分秒”信息print(str(i + 1) + '.' + title[i] + ' - ' + date[i])print(href[i])keywords = ['理财', '现金管理', '金融风暴']   #关键字可以是多种形式的
for i in keywords:getContents(i)

效果：

爬虫之巨潮资讯网关键词信息获取相关推荐

爬虫|巨潮资讯网上市公司年报爬取
爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...
python3爬取巨潮资讯网的年报数据
python3爬取巨潮资讯网的年报数据前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块可以通过这样 ...
基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表
转自同学的博客引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...
批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
1 需求批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...
请用Python语言写一个巨潮资讯网批量下载PDF的程序
下面是一个使用 Python 的简单程序,可以批量下载巨潮资讯网上的 PDF 文件: import requests import os# 巨潮资讯网 PDF 文件的 URL 前缀 url_prefi ...
python + selenium实现巨潮资讯网指定范围年报下载
大家好!第一次写文章,紧张滴捏! 这段时间在做课设,课设里需要下载沪市600000到601000号的年报原文做数字化关键词的词频分析,想着用程序帮我批量下载一下,但是找了一下貌似没有类似的代码,就写了 ...
2023-Python实现巨潮资讯网数据采集
目录
巨潮资讯网爬取年报（存在错误）
import requests import string import os.path import pandas import re import time# 请求头放在函数外面共用 header ...
爬取年报(巨潮资讯网)
https://blog.csdn.net/herr_kun/article/details/89707078#commentBox
ChatGPT炒股：从巨潮资讯网上批量下载特定主题的股票公告
巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容. 现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含"2023年日常性关联交易& ...

爬虫之巨潮资讯网关键词信息获取

爬虫之巨潮资讯网关键词信息获取相关推荐

最新文章

热门文章