爬虫之巨潮资讯网关键词信息获取
今天分享一下对巨潮资讯网一些信息的爬取是如何做的,首先选择这个网站是因为网站内容还是相对来说比较简单的,主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。
核心:
正则库:import re
非贪婪匹配:.*?
正则函数:sub()
符号处理:strip()、split()
其他库:selenium webdriver(是从浏览器操作的,这个是必须要有的)
实现过程如下:
from selenium import webdriver import redef getContents(keyword):browser = webdriver.Chrome()url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=' + keywordbrowser.get(url)data = browser.page_sourcebrowser.quit()# 正则表达式处理p_title = '<span title="" class="r-title">(.*?)</span>'p_href = '<a target="_blank" href="(.*?)" data-id='p_date = '<span class="time">(.*?)</span>'title = re.findall(p_title, data)href = re.findall(p_href, data)date = re.findall(p_date, data, re.S) # 注意(.*?)中有换行(/n),而常规的(.*?)匹配不了换行,所以需要加上re.S取消换行的影响for i in range(len(title)):title[i] = re.sub(r'<.*?>', '', title[i])href[i] = 'http://www.cninfo.com.cn' + href[i]href[i] = re.sub('amp;', '', href[i])date[i] = date[i].strip() # 清除空格和换行符date[i] = date[i].split(' ')[0] # 只取“年月日”信息,不用“时分秒”信息print(str(i + 1) + '.' + title[i] + ' - ' + date[i])print(href[i])keywords = ['理财', '现金管理', '金融风暴'] #关键字可以是多种形式的 for i in keywords:getContents(i)
效果:
爬虫之巨潮资讯网关键词信息获取相关推荐
- 爬虫|巨潮资讯网上市公司年报爬取
爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...
- python3爬取巨潮资讯网的年报数据
python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...
- 基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表
转自同学的博客 引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...
- 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
1 需求 批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...
- 请用Python语言写一个巨潮资讯网批量下载PDF的程序
下面是一个使用 Python 的简单程序,可以批量下载巨潮资讯网上的 PDF 文件: import requests import os# 巨潮资讯网 PDF 文件的 URL 前缀 url_prefi ...
- python + selenium实现巨潮资讯网指定范围年报下载
大家好!第一次写文章,紧张滴捏! 这段时间在做课设,课设里需要下载沪市600000到601000号的年报原文做数字化关键词的词频分析,想着用程序帮我批量下载一下,但是找了一下貌似没有类似的代码,就写了 ...
- 2023-Python实现巨潮资讯网数据采集
目录
- 巨潮资讯网爬取年报(存在错误)
import requests import string import os.path import pandas import re import time# 请求头放在函数外面共用 header ...
- 爬取年报(巨潮资讯网)
https://blog.csdn.net/herr_kun/article/details/89707078#commentBox
- ChatGPT炒股:从巨潮资讯网上批量下载特定主题的股票公告
巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容. 现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含"2023年日常性关联交易& ...
最新文章
- Jmeter创建一个点对点的 JMS 测试计划
- Beyond Compare启动出错解决方案
- std::string的split函数
- php Closure 类型
- 一步步创建 边栏 Gadget(二)
- 程序员常犯的5个非技术性错误
- 上某些网站的时候要小心,不要以为 HTTPS 就安全了
- CF1042D Petya and Array
- C#基础9:虚函数与多态
- mysql主从复制浅析(一)
- 为什么要制定一些自己根本不想执行的计划?
- hdu1426 Sudoku Killer dfs
- firefox最新版的firebug、firepath功能替代
- matlab prn文件,PRN文件扩展名 - 什么是.prn以及如何打开? - ReviverSoft
- 入门masm32编写简单汇编程序并做具体分析
- oracle增删改查基本语句
- 编译和push services.jar的方法
- linux多线程_免费Linux下载工具,你还不知道?
- 2023年有哪些值得推荐的蓝牙耳机?小米|南卡|JBL等等高性价比蓝牙耳机推荐
- Android:根据GPS信息在地图上定位