Python简单爬取“中国日报”新浪微博的早晚安鼓励话语
有时睡醒睡前会去看中国日报的早晚安,挺有意思的。考虑到以后可能会用到这方面内容的爬取,就试着先把功能代码写了。写的比较简单,仅供参考。
具体实现可以写个定时脚本早上和晚上爬取内容和图片推送到服务器即可。
# -*- coding = utf-8 -*-
# @Time : 2021/7/23 20:52
# @Author : fangfang
# @File : requestTest.py
# @Software : PyCharm
import json
import requests
import re
from bs4 import BeautifulSoupurl = "https://weibo.com/chinadailywebsite"
headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/91.0.4472.124 Safari/537.36","Cookie": "" #补充自己的cookie~
}imgRe = re.compile(r'<img src="(.*?)"/>', re.S)
timeRe = re.compile(r'\d\d\d\d-\d\d-\d\d 0[07]:0[0-1]', re.S) # 00:00和07:00两个时间点,考虑1分钟误差 --但实际可能对方不是人工发的,是机器定时发的。。def main():r = requests.get(url, headers=headers)if r.status_code == 200:html = re.findall(r'<script>FM.view(.*)</script>', r.text) # 将script标签内容提取出for i in html:if re.search(r'WB_text', i) != None: # 取出特定script段 其实就是html的最后一个i = i.strip('(').strip(')') # 字串去掉括号data_jason = json.loads(i) # 将字串载入成字典档soup = BeautifulSoup(data_jason['html'], 'lxml') # 字典档当中只提取html对应的代码# print(soup)tags = soup.find_all('div', attrs={"class": "WB_feed_detail clearfix"}) # 提取文字的标签for tag in tags:tag_str = str(tag)if (re.search(timeRe, tag_str)) != None:# print(tag)content = tag.find_all('div', attrs={"class": "WB_text W_f14"})[0].text.replace(' ','') # 去掉开头的空格print(content)img_src = re.findall(imgRe, tag_str)if len(img_src) != 0:img_src = "https:" + img_src[0]else:print("无图片", end="")print(img_src)else:print("获取失败")if __name__ == "__main__": # 当程序执行时main()
好吧,刚发现中国日报好像还真是人工发的,而且代码和方法还存在挺多问题的,有时间再优化更新,后续会补充定时脚本和服务器的方法。
Python简单爬取“中国日报”新浪微博的早晚安鼓励话语相关推荐
- 【Python】爬取中国历史票房榜,可视化分析
[Python]爬取中国历史票房榜,可视化分析 最近电影<哪吒之魔童转世>票房已经超过<流浪地球>,<复联4>.升到中国内地票房第二位.就好有哪些电影排进了历史票房 ...
- Python简单爬取电影磁力链接
Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...
- python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
- 读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储
2019独角兽企业重金招聘Python工程师标准>>> 今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的 ...
- python 爬取企业注册信息_读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储...
今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的编程环境是: python3.6 BeautifulSoup模块 lxml ...
- Python简单爬取起点中文网小说(仅学习)
目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
- python简单爬取斗图图片(自学第十天)
一.前期准备 (一).我们要爬取的页面 1,我们要爬取的网站为:https://www.doutula.com/photo/list/?page=1 2,获取请求头,来模拟浏览器浏览,不让网站直接就暴 ...
- Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
- 七、Python简单爬取学堂在线合作院校页面内容
这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下. 就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:"{" ...
最新文章
- 关于ASP无组件上传在2003下出错
- SQL Server-游标使用
- 05APR2022 日期格式这样的怎么转换成日期?
- php 获取坐标api,怎么获取百度坐标api返回的json格式字符串或对象呢
- Oracle分析函数-rank() over(partition by...order by...)
- Adb安装程序出现TimeOut错误
- fest556_AssertJ Fest Hamcrest
- java进程和线程_Java™ 教程(进程和线程)
- 女博士7年不毕业,她破解了“量子计算最基础问题”
- dubbo-go 中如何实现路由策略功能
- Java中“最终类”的意义是什么?
- redis面试题简义
- 在centos上安装nginx
- 韩顺平循序渐进学java 第18讲 查找
- iOS修改手游服务器数据,iOS 教你修改运动步数(基于Healthkit)
- 一年Java的阿里电话面试全纪录
- python入门之函数结构第二关_Python入门二:函数
- JavaScript制作网页动画
- h5锁屏提醒-锁横屏和锁竖屏
- 【笔记】H.265/HEVC 视频编码(四)——预测编码
热门文章
- 基于asp.net公司文档资料管理系统
- 毕业论文系统设计类图
- 苏东坡书法美学思想浅谈
- [251]Redis Scard 命令、Spop 命令
- metal slug java_【进化史】合金弹头进化史 Metal Slug Games (1996-2020)
- 全面了解H5重要入口“微信小游戏”,LayaAir引擎支持一键发布!
- 077. Zookeeper 集群相关信息
- 中国石油大学《计算机应用基础#》第二阶段在线作业
- 支付宝直付通实现合单支付完整Demo
- 为什么计算机无法关机,电脑为什么总是关不了机_电脑无法正常关机的处理办法...