今天分享一下对巨潮资讯网一些信息的爬取是如何做的,首先选择这个网站是因为网站内容还是相对来说比较简单的,主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。

核心:

正则库:import re

非贪婪匹配:.*?

正则函数:sub()

符号处理:strip()、split()

其他库:selenium webdriver(是从浏览器操作的,这个是必须要有的)

实现过程如下:

from selenium import webdriver
import redef getContents(keyword):browser = webdriver.Chrome()url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=' + keywordbrowser.get(url)data = browser.page_sourcebrowser.quit()# 正则表达式处理p_title = '<span title="" class="r-title">(.*?)</span>'p_href = '<a target="_blank" href="(.*?)" data-id='p_date = '<span class="time">(.*?)</span>'title = re.findall(p_title, data)href = re.findall(p_href, data)date = re.findall(p_date, data, re.S)  # 注意(.*?)中有换行(/n),而常规的(.*?)匹配不了换行,所以需要加上re.S取消换行的影响for i in range(len(title)):title[i] = re.sub(r'<.*?>', '', title[i])href[i] = 'http://www.cninfo.com.cn' + href[i]href[i] = re.sub('amp;', '', href[i])date[i] = date[i].strip()  # 清除空格和换行符date[i] = date[i].split(' ')[0]  # 只取“年月日”信息,不用“时分秒”信息print(str(i + 1) + '.' + title[i] + ' - ' + date[i])print(href[i])keywords = ['理财', '现金管理', '金融风暴']   #关键字可以是多种形式的
for i in keywords:getContents(i)

效果:

爬虫之巨潮资讯网关键词信息获取相关推荐

  1. 爬虫|巨潮资讯网上市公司年报爬取

    爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...

  2. python3爬取巨潮资讯网的年报数据

    python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...

  3. 基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表

    转自同学的博客 引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...

  4. 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。

    1 需求 批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...

  5. 请用Python语言写一个巨潮资讯网批量下载PDF的程序

    下面是一个使用 Python 的简单程序,可以批量下载巨潮资讯网上的 PDF 文件: import requests import os# 巨潮资讯网 PDF 文件的 URL 前缀 url_prefi ...

  6. python + selenium实现巨潮资讯网指定范围年报下载

    大家好!第一次写文章,紧张滴捏! 这段时间在做课设,课设里需要下载沪市600000到601000号的年报原文做数字化关键词的词频分析,想着用程序帮我批量下载一下,但是找了一下貌似没有类似的代码,就写了 ...

  7. 2023-Python实现巨潮资讯网数据采集

    目录

  8. 巨潮资讯网爬取年报(存在错误)

    import requests import string import os.path import pandas import re import time# 请求头放在函数外面共用 header ...

  9. 爬取年报(巨潮资讯网)

    https://blog.csdn.net/herr_kun/article/details/89707078#commentBox

  10. ChatGPT炒股:从巨潮资讯网上批量下载特定主题的股票公告

    巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容. 现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含"2023年日常性关联交易& ...

最新文章

  1. Jmeter创建一个点对点的 JMS 测试计划
  2. Beyond Compare启动出错解决方案
  3. std::string的split函数
  4. php Closure 类型
  5. 一步步创建 边栏 Gadget(二)
  6. 程序员常犯的5个非技术性错误
  7. 上某些网站的时候要小心,不要以为 HTTPS 就安全了
  8. CF1042D Petya and Array
  9. C#基础9:虚函数与多态
  10. mysql主从复制浅析(一)
  11. 为什么要制定一些自己根本不想执行的计划?
  12. hdu1426 Sudoku Killer dfs
  13. firefox最新版的firebug、firepath功能替代
  14. matlab prn文件,PRN文件扩展名 - 什么是.prn以及如何打开? - ReviverSoft
  15. 入门masm32编写简单汇编程序并做具体分析
  16. oracle增删改查基本语句
  17. 编译和push services.jar的方法
  18. linux多线程_免费Linux下载工具,你还不知道?
  19. 2023年有哪些值得推荐的蓝牙耳机?小米|南卡|JBL等等高性价比蓝牙耳机推荐
  20. Android:根据GPS信息在地图上定位

热门文章

  1. 选个关注热度上升的大数据工具学习下吧
  2. 事物的开始和结束命令分别是什么_5. 详解Redis中的事务
  3. Hexo-SEO搜索引擎优化(sitemap)
  4. 独立站的SEO搜索引擎优化
  5. 《薛兆丰的经济学课》课程总结6--经济学家们
  6. java爬空教室_Java实现模拟登录正方教务抓取成绩、课表、空教室信息
  7. Ubuntu 更改环境变量 PATH
  8. 安装小企鹅游戏(企5)
  9. CentOS7.X安装部署Glassfish4.1.2
  10. Autumn中文文档0:为什么使用Autumn