#!/usr/local/bin/python3.7

# -*- coding: utf-8 -*-

# @Time: 2019/07/15

# @Function 获取在线文本内容

import requests

from bs4 import BeautifulSoup

import re

import codecs

url = 'https://www.shuhaige.com/7518/'

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',

'Origin': 'https://www.shuhaige.com',

'Host': 'www.shuhaige.com'

}

# 设置代理服务器

proxies = {

'http:': 'http://121.232.146.184',

'https:': 'https://144.255.48.197'

}

def getContent():

contents = requests.get(url, headers=header).text

html = BeautifulSoup(contents, 'html.parser')

lists = html.select('dl')[0].select('a')

for list in lists:

itemUrl = f'https://www.shuhaige.com{list["href"]}'

itemContent = requests.get(itemUrl, headers=header).text

itemHtml = BeautifulSoup(itemContent, 'html.parser')

saveToTxt(itemHtml.select('div .content')[0], list.string)

# 写入文本文件

def saveToTxt(comments, title):

commentsList = ''

for item in comments:

comment_info = f'{item}'.replace(f'
', '')

comment_info = re.sub(f'

.*

', '', comment_info)

commentsList += comment_info

with codecs.open(f'MoFeiDingLv/{title}.txt', 'w', encoding='utf-8') as file:

file.writelines(commentsList)

print(f'{title}写入文件成功!')

getContent()

python3.7保存_python3.7爬取墨菲定律保存在本地txt相关推荐

  1. python爬取音乐并保存_python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

    爬取TOP500的音乐信息,包括排名情况.歌曲名.歌曲时间. 网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL: 这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三 ...

  2. Python爬取起点小说并保存到本地文件夹和MongoDB数据库中

    Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...

  3. python3.6爬虫案例:爬取朝秀帮图片

    一.写在前面 之前写的两篇博客: python3.6爬虫案例:爬取百度歌单点击打开链接: python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)点击打开链接 第一个案例写了如何在百度音乐歌单中 ...

  4. python3.6爬虫案例:爬取某网站所有PPT(上)。

    写在前面   这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...

  5. 爬虫实战|从笔趣阁爬取书籍并简单保存

    最近在看崔庆才那本经典的爬虫开发书籍,之前虽然看过一点视频,但是与书籍相比还是书籍更加成体系,让我对知识有一个宏观的把控.目前已经看了前四章,了解了一些基础知识和如何解析数据的方法,但是对于数据的保存 ...

  6. python爬虫:爬取所有车标图片保存本地

    python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...

  7. Python爬虫练习笔记——爬取一本小说并保存为txt文件

    最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...

  8. php头条视频提取,Node如何实现批量爬取头条视频并保存(代码实现)

    本篇文章给大家带来的内容是关于Node如何实现批量爬取头条视频并保存(代码实现),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 简介 一般批量爬取视频或者图片的套路是,使用爬虫获得文 ...

  9. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

最新文章

  1. 命令行编译运行CSharp文件
  2. cocos2d笔记——解析HelloWorldScene
  3. amd cpu 不兼容centos5.5_AMD放弃兼容性?这事简单也不简单
  4. 【线上分享】如虎添翼,边缘计算在媒体性能与安全上的实现
  5. adb logcat介绍
  6. CSS实现三列图片等宽等间距布局
  7. 【MFC系列-第21天】GDI算法实战——过渡色
  8. 作为深度学习最强框架的TensorFlow如何进行时序预测!(转)
  9. 机器学习面试(作者面了8家公司,它们问了如下题目......)
  10. yum mysql 无法启动失败_Linux下MySQL数据库yum升级后无法启动解决办法
  11. 使用开源软件7ZIP在Windows压缩.tar.gz格式包
  12. linux怎么查看hwaddr_怎么查询linux centos mac地址
  13. Keras中的深度学习的模型:序列模型(Sequential)和通用模型(Model)
  14. 奶酪巫师的黑客乐园 - 第一个进行硬分叉的区块链游戏?
  15. A systems-biology model of the tumor necrosis factor (TNF) interactions with TNF receptor 1 and 2
  16. poj 1729 Jack and Jill 1376 Robot 1324 Holedox Moving 1475 Pushing Boxes bfs + a*
  17. 看了这篇文章我才真正理解了!和快手大佬的技术面谈,附架构师必备技术详解
  18. vlookup匹配的文字显示0_「Excel高效办公」vlookup函数的几种常用使用场景
  19. PyMuPDF pdf神奇处理工具
  20. java导出pdf_一次java导出pdf的经历

热门文章

  1. 交换机接口trunk的配置和vlan的划分
  2. 河南彩民中奖3亿5千万
  3. 酷我音乐盒里的MV怎么下载
  4. 使用ISA实现用户级验证(1~3篇)
  5. java 简单跳台阶和变态跳台阶
  6. ASP.NET Web API路由规则(二)
  7. python算法与数据结构-快速排序算法
  8. 不带头结点的单链表------C语言实现(带注释)
  9. Linux的chmod与chgrp
  10. think.class.php下载,PHP_ThinkPHP实现将本地文件打包成zip下载,首先,将FileToZip.class文件放到T - phpStudy...