前面我们已经把文章的标题和超链接都提取出来了,看上去我们已经有能力把这些文章的内容全部提取出来了。但路要一步一步走,饭要一口一口吃,我们还是先来看一篇文章的内容是怎么提取和保存的吧。
首先还是先来看看文章的内容在哪里?依旧采用之前所说的办法,找到第一篇文章的链接, 可以看到链接是http://greenfinance.xinhua08.com/a/20200511/1935984.shtml
我们拿到这篇文章的文本

url='http://greenfinance.xinhua08.com/a/20200511/1935984.shtml'
req=requests.get(url)
req.encoding=requests.utils.get_encodings_from_content(req.text)
req.text

可以看到,文章的主要内容全部在红线标注的标签内:

我们利用正则表达式将内容从标签内取出:

文本内容提取完毕后,我们要将这部分内容存储起来。为了方便,我先设定一个要存储的文件夹路径。

import os
os.chdir(r'D:\绿色金融文本')

接着将文本内容存储起来,文件名就是这篇文章的标题
文章标题前面已经提取过了,就是第一篇,因为是以列表形式存储的,所以第一篇文章的标题就可以用retitle[0]来提取。另外,由于文本内容text1是列表,因此要将其转换为字符串,所以要用str()转换一下。
写文件的方式我们采用with open形式,这种方式的好处在于不用自己去关闭文件,比较省事。with open的用法请自行百度。

with open(retitle[0]+'.txt','w') as f:f.write(str(text1))

看看是不是在指定文件夹下已经多了个文件?

文件里的内容也正是前文中所提取到的内容

但仔细看看,似乎有点美中不足,内容里还是有些不需要的字符,我们可以使用re.sub()和replace()把它去掉,然后再来写入。

import requests
import re
url='http://greenfinance.xinhua08.com/a/20200511/1935984.shtml'
req=requests.get(url)
req.encoding=requests.utils.get_encodings_from_content(req.text)
req.text
text1=re.findall('<div id="ctrlfscont" class="article-content"><p>(.*?)</p></div>',req.text,re.S)
text1=re.sub('<p>|</p>|&ldquo;|&rdquo;','',str(text1).replace('\\n',''))
with open(retitle[0]+'.txt','w') as f:f.write(text1)


这回文章的内容中多余的字符就给去除了。
一篇文章的内容提取和存储我们就这样完成了,接下来我们要完成的是多篇文章内容的提取和存储,请继续浏览教程(4)。

静态网页爬虫教程(3)文本的提取和保存相关推荐

  1. 静态网页爬虫教程(5)带翻页的多篇文章内容提取和保存

    这是我们静态页面爬取的最后一篇了,主要针对的问题是翻页爬取. 先来观察一下翻页后的新页面地址是什么吧,我们可以看到,新页面的地址的设置很简单,就是改了个序号,第一页是1.shtml,第二页是2.sht ...

  2. 静态网页爬虫教程(2)链接和标题的提取

    初战告捷,我们继续下一步,来获取网页中的标题和超链接. 观察一下,第一篇文章是这样的: 这篇文章的标题和超链接信息在我们返回的文本中是这样的: 上面的表示是超链接的内容,而下面的则是表示是标题大小为4 ...

  3. 静态网页爬虫教程(4)同一页面多篇文章内容提取和保存

    前面的文章中,我们已经成功的完成了对一篇文章的内容提取和保存.现在新的问题又来了,之前我们提取过的超链接有那么多,标题也有不少,怎么能只提取一篇文章而放弃一堆呢?别急,下面我们就开始说说多篇文章的内容 ...

  4. 静态网页爬虫教程(1)页面的获取

    最近想看看绿色金融方面的内容,也不知道搞啥,先在网上找找信息,于是把目标瞄上了新华财经--中国金融信息网.找到了其中的绿色金融的版块.发现上面的文章都是静态页面构成的,可以先把所有的页面信息爬取下来, ...

  5. 您访问的网页出错了! 网络连接异常、网站服务器失去响应_数据分析系列——静态网页爬虫进阶(requests)...

    在之前"数据分析系列--数据分析入门"16篇中有与爬虫的相关内容,介绍的相对简单.静态网页爬虫进阶系列将分别从网页的自动爬取(Requests).网络数据解析(BeautifulS ...

  6. python 静态网页_Python静态网页爬虫相关知识

    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器. ...

  7. 静态网页制作教程 (转载)

    方法/步骤 新建一个txt文本文档,先不要急着修改文件后缀名,有基础的朋友手动输入HTML代码,不会也没有关系,百度搜索"网页HTML代码". 代码: <!Doctype h ...

  8. python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例(1)

    目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: 1.算法原理: (1)利用import命令导入模块或者导入模块中的对象: ①利用requests库 ...

  9. Python爬虫_第二篇 静态网页爬虫(3)_豆瓣数据下载(BeautifulSoupre)

    4.采用正则表达式.BeautifulSoup进行解析提取[豆瓣好.中.差三个短评页面各60条评论数据] 4.1 爬虫的一般思路 分析目标网页,确定爬取的url路径,headers参数[判断是静态网页 ...

最新文章

  1. 多传感器融合:自动驾驶(下)
  2. USACO - 3.1.6 - Stamps
  3. TensorFlow2快速模型构建及tensorboard初体验
  4. 面向对象中的修饰关键词
  5. 基于半同步/半反应堆线程池实现的HTTP解析服务端程序
  6. oracle 从pflie启动,oracle初始化参数文件管理
  7. 23.网市场云建站系统部署
  8. android实现截图功能吗,Android实现拍照截图功能
  9. AI 新基建怎么做,腾讯云正式公布全景布局
  10. 简述Java Object类中的方法有哪些
  11. 【React Native 安卓开发】----(mac下开发环境配置)【第一篇】
  12. 详细讲述matlab中矩阵的卷积函数convn
  13. jarsigner 命令对 apk 加密
  14. Java中成员变量和局部变量在内存中的分配
  15. 3.9 拆解小红书爆文,流量密码原来是这些【玩赚小红书】
  16. linux修改文档拥有人为,Linux系统修复
  17. ABP官方文档(四十四)【后台作业和后台工人】
  18. 最后聊聊:备案需要注意的地方和域名的解析
  19. go语言实现网易云音乐爬虫
  20. 使用setViewControllers实现一些不同寻常的跳转

热门文章

  1. 霏凡2007经典流行壁纸光盘 [贺岁版]
  2. VMware虚拟机网络详解(包括多网卡)
  3. 已知图片在服务器的路径,下载到本地
  4. Windows程序设计-子窗口控件
  5. 怎么关闭vivo系统自检_vivo手机电池不耐用怎么办
  6. 中小企业上网行为管理解决方案
  7. MFC类层次结构仿真(参考了侯俊杰的《深入浅出MFC》)
  8. 中国联通研报:走出反腐漩涡 与电信抱团取暖
  9. 关于win10几分钟无任何操作就假死机,就只有鼠标能动
  10. 批量下载图片,批量重命名图片(有序、无序都可)