Python简单爬取“中国日报”新浪微博的早晚安鼓励话语

有时睡醒睡前会去看中国日报的早晚安，挺有意思的。考虑到以后可能会用到这方面内容的爬取，就试着先把功能代码写了。写的比较简单，仅供参考。

具体实现可以写个定时脚本早上和晚上爬取内容和图片推送到服务器即可。

# -*- coding  = utf-8 -*-
# @Time : 2021/7/23 20:52
# @Author : fangfang
# @File : requestTest.py
# @Software : PyCharm
import json
import requests
import re
from bs4 import BeautifulSoupurl = "https://weibo.com/chinadailywebsite"
headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/91.0.4472.124 Safari/537.36","Cookie": "" #补充自己的cookie~
}imgRe = re.compile(r'<img src="(.*?)"/>', re.S)
timeRe = re.compile(r'\d\d\d\d-\d\d-\d\d 0[07]:0[0-1]', re.S)  # 00:00和07:00两个时间点，考虑1分钟误差 --但实际可能对方不是人工发的，是机器定时发的。。def main():r = requests.get(url, headers=headers)if r.status_code == 200:html = re.findall(r'<script>FM.view(.*)</script>', r.text)  # 将script标签内容提取出for i in html:if re.search(r'WB_text', i) != None:  # 取出特定script段 其实就是html的最后一个i = i.strip('(').strip(')')  # 字串去掉括号data_jason = json.loads(i)  # 将字串载入成字典档soup = BeautifulSoup(data_jason['html'], 'lxml')  # 字典档当中只提取html对应的代码# print(soup)tags = soup.find_all('div', attrs={"class": "WB_feed_detail clearfix"})  # 提取文字的标签for tag in tags:tag_str = str(tag)if (re.search(timeRe, tag_str)) != None:# print(tag)content = tag.find_all('div', attrs={"class": "WB_text W_f14"})[0].text.replace('  ','')  # 去掉开头的空格print(content)img_src = re.findall(imgRe, tag_str)if len(img_src) != 0:img_src = "https:" + img_src[0]else:print("无图片", end="")print(img_src)else:print("获取失败")if __name__ == "__main__":  # 当程序执行时main()

好吧，刚发现中国日报好像还真是人工发的，而且代码和方法还存在挺多问题的，有时间再优化更新，后续会补充定时脚本和服务器的方法。

Python简单爬取“中国日报”新浪微博的早晚安鼓励话语相关推荐

【Python】爬取中国历史票房榜，可视化分析
[Python]爬取中国历史票房榜,可视化分析最近电影<哪吒之魔童转世>票房已经超过<流浪地球>,<复联4>.升到中国内地票房第二位.就好有哪些电影排进了历史票房 ...
Python简单爬取电影磁力链接
Python简单爬取电影磁力链接网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...
python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
读书笔记（十）——python简单爬取企查查网企业信息，并以excel格式存储
2019独角兽企业重金招聘Python工程师标准>>> 今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的 ...
python 爬取企业注册信息_读书笔记（十）——python简单爬取企查查网企业信息，并以excel格式存储...
今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的编程环境是: python3.6 BeautifulSoup模块 lxml ...
Python简单爬取起点中文网小说（仅学习）
目录前言一.爬虫思路二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文总结前言实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
python简单爬取斗图图片（自学第十天）
一.前期准备 (一).我们要爬取的页面 1,我们要爬取的网站为:https://www.doutula.com/photo/list/?page=1 2,获取请求头,来模拟浏览器浏览,不让网站直接就暴 ...
Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
七、Python简单爬取学堂在线合作院校页面内容
这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下. 就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:"{" ...

Python简单爬取“中国日报”新浪微博的早晚安鼓励话语

Python简单爬取“中国日报”新浪微博的早晚安鼓励话语相关推荐

最新文章

热门文章