python3.7保存_python3.7爬取墨菲定律保存在本地txt
#!/usr/local/bin/python3.7
# -*- coding: utf-8 -*-
# @Time: 2019/07/15
# @Function 获取在线文本内容
import requests
from bs4 import BeautifulSoup
import re
import codecs
url = 'https://www.shuhaige.com/7518/'
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
'Origin': 'https://www.shuhaige.com',
'Host': 'www.shuhaige.com'
}
# 设置代理服务器
proxies = {
'http:': 'http://121.232.146.184',
'https:': 'https://144.255.48.197'
}
def getContent():
contents = requests.get(url, headers=header).text
html = BeautifulSoup(contents, 'html.parser')
lists = html.select('dl')[0].select('a')
for list in lists:
itemUrl = f'https://www.shuhaige.com{list["href"]}'
itemContent = requests.get(itemUrl, headers=header).text
itemHtml = BeautifulSoup(itemContent, 'html.parser')
saveToTxt(itemHtml.select('div .content')[0], list.string)
# 写入文本文件
def saveToTxt(comments, title):
commentsList = ''
for item in comments:
comment_info = f'{item}'.replace(f'
', '')
comment_info = re.sub(f'
.*
', '', comment_info)
commentsList += comment_info
with codecs.open(f'MoFeiDingLv/{title}.txt', 'w', encoding='utf-8') as file:
file.writelines(commentsList)
print(f'{title}写入文件成功!')
getContent()
python3.7保存_python3.7爬取墨菲定律保存在本地txt相关推荐
- python爬取音乐并保存_python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中
爬取TOP500的音乐信息,包括排名情况.歌曲名.歌曲时间. 网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL: 这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三 ...
- Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
- python3.6爬虫案例:爬取朝秀帮图片
一.写在前面 之前写的两篇博客: python3.6爬虫案例:爬取百度歌单点击打开链接: python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)点击打开链接 第一个案例写了如何在百度音乐歌单中 ...
- python3.6爬虫案例:爬取某网站所有PPT(上)。
写在前面 这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...
- 爬虫实战|从笔趣阁爬取书籍并简单保存
最近在看崔庆才那本经典的爬虫开发书籍,之前虽然看过一点视频,但是与书籍相比还是书籍更加成体系,让我对知识有一个宏观的把控.目前已经看了前四章,了解了一些基础知识和如何解析数据的方法,但是对于数据的保存 ...
- python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...
- Python爬虫练习笔记——爬取一本小说并保存为txt文件
最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...
- php头条视频提取,Node如何实现批量爬取头条视频并保存(代码实现)
本篇文章给大家带来的内容是关于Node如何实现批量爬取头条视频并保存(代码实现),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 简介 一般批量爬取视频或者图片的套路是,使用爬虫获得文 ...
- Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
最新文章
- 命令行编译运行CSharp文件
- cocos2d笔记——解析HelloWorldScene
- amd cpu 不兼容centos5.5_AMD放弃兼容性?这事简单也不简单
- 【线上分享】如虎添翼,边缘计算在媒体性能与安全上的实现
- adb logcat介绍
- CSS实现三列图片等宽等间距布局
- 【MFC系列-第21天】GDI算法实战——过渡色
- 作为深度学习最强框架的TensorFlow如何进行时序预测!(转)
- 机器学习面试(作者面了8家公司,它们问了如下题目......)
- yum mysql 无法启动失败_Linux下MySQL数据库yum升级后无法启动解决办法
- 使用开源软件7ZIP在Windows压缩.tar.gz格式包
- linux怎么查看hwaddr_怎么查询linux centos mac地址
- Keras中的深度学习的模型:序列模型(Sequential)和通用模型(Model)
- 奶酪巫师的黑客乐园 - 第一个进行硬分叉的区块链游戏?
- A systems-biology model of the tumor necrosis factor (TNF) interactions with TNF receptor 1 and 2
- poj 1729 Jack and Jill 1376 Robot 1324 Holedox Moving 1475 Pushing Boxes bfs + a*
- 看了这篇文章我才真正理解了!和快手大佬的技术面谈,附架构师必备技术详解
- vlookup匹配的文字显示0_「Excel高效办公」vlookup函数的几种常用使用场景
- PyMuPDF pdf神奇处理工具
- java导出pdf_一次java导出pdf的经历
热门文章
- 交换机接口trunk的配置和vlan的划分
- 河南彩民中奖3亿5千万
- 酷我音乐盒里的MV怎么下载
- 使用ISA实现用户级验证(1~3篇)
- java 简单跳台阶和变态跳台阶
- ASP.NET Web API路由规则(二)
- python算法与数据结构-快速排序算法
- 不带头结点的单链表------C语言实现(带注释)
- Linux的chmod与chgrp
- think.class.php下载,PHP_ThinkPHP实现将本地文件打包成zip下载,首先,将FileToZip.class文件放到T - phpStudy...