python爬虫获取数据失败请稍后访问_Python爬取微博评论数据,竟被反爬封号了!...
import requests
import json
from tqdm import tqdm
import datetime
import time
import random
import csv
# 一条主微博链接部分评论, 需要构造参数max_id获取全部ajax
up_main_url = 'https://m.weibo.cn/comments/hotflow?id=4596226979532970&mid=4596226979532970&max_id_type=0'
headers = {
# ua代理
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75',
# 登录信息
'cookie': 'SINAGLOBAL=5702871423690.898.1595515471453; SCF=Ah2tNvhR8eWX01S-DmF8uwYWORUbgfA0U3GnciJplYvqE1sn2zJtPdkJ9ork9dAVV8G7m-9kbF-PwIHsf3jHsUw.; SUB=_2A25NDifYDeRhGeBK7lYS9ifFwjSIHXVu8UmQrDV8PUJbkNANLRmlkW1NR7rne18NXZNqVxsfD3DngazoVlT-Fvpf; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WhhI1TcfcjnxZJInnV-kd405NHD95QcSh-Xe0q41K.RWs4DqcjQi--ciK.RiKLsi--Ni-24i-iWi--Xi-z4iKyFi--fi-2XiKLhSKeEeBtt; wvr=6; _s_tentry=www.sogou.com; UOR=,,www.sogou.com; Apache=9073188868783.379.1611369496580; ULV=1611369496594:3:3:3:9073188868783.379.1611369496580:1611281802597; webim_unReadCount=%7B%22time%22%3A1611369649613%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A63%2C%22msgbox%22%3A0%7D'
}
response = requests.get(url=up_main_url, headers=headers)
if response.status_code == 200:
text = response.text.encode("gbk", "ignore").decode("gbk", "ignore") # 解决报错双重严格限制
content = json.loads(text) # 将文本转为json格式
try:
data = content['data']['data'] # 获取评论列表
for comment in tqdm(data, desc='花花评论爬取加载进度--->!'):
time.sleep(random.random())
text = str(comment['text']) # 获取文本信息
# 卧槽,我房子又塌了
# 处理文本信息,find函数找到
if text.find('
text = text[:text.find('
create_time = comment['created_at'] # 发布时间
# 格林威治时间格式字符串 Wed Jul 10 20:00:09 +0800 2019 转换为好理解的标准时间格式 2019-07-10 20:00:09
# Fri Jan 22 17:56:48 +0800 2021 转换为标准时间格式 2021/1/22 17:56:48
std_transfer = '%a %b %d %H:%M:%S %z %Y' # 转换的一个格式
std_create_time = datetime.datetime.strptime(create_time, std_transfer)
user_name = comment['user']["screen_name"] # 用户姓名
user_id = comment['user']['id'] # 用户id
user_followers_count = comment['user']['followers_count'] # 该用户粉丝数
user_follow_count = comment['user']['follow_count'] # 该用户关注数
user_gender = comment['user']['gender'] # 用户性别
total_number = comment["total_number"] # 总回复数
like_count = comment["like_count"] # 点赞数
flag_id = comment["id"] # 二级评论url构造所需id
print('')
# print(f'内容: {text}')
# print(f'用户名: {user_name}')
# print(f'评论时间: {std_create_time}')
# print(f'id:{user_id}')
# print(f'关注人数: {user_follow_count}')
# print(f'粉丝: {user_followers_count}')
# print(f'性别: {user_gender}')
# print(f'回复数量: {total_number}')
# print(f'点赞数: {like_count}')
# print(f'cid: {flag_id}')
#print('成功保存信息!')
except:
print("啊这,今晚是上分局!被反爬了")
pass
python爬虫获取数据失败请稍后访问_Python爬取微博评论数据,竟被反爬封号了!...相关推荐
- 【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据(免登陆)到生成词云
[Python爬虫实例学习篇]--5.[超详细记录]从爬取微博评论数据(免登陆)到生成词云 个人博客地址:ht/tps://www.asyu17.cn/ 精彩部分提醒: (1)微博评论页详情链接为一个 ...
- 简单爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页
爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页 1.什么是ajax异步数据交换网页 2.用到的工具模块和简单解释 3.网页内容解析 4.代码实现及解释 1.什么是ajax异步数据交换网页 ...
- python爬取微博评论数据的github链接_GitHub - guozifeng91/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
- python爬取微博评论数据的github链接_GitHub - DABOLUO111/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
- python爬取微博评论数据的github链接_GitHub - 13633825898/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 本程序需要设置用 ...
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...
- python爬取微博评论(无重复数据)
python爬取微博评论(无重复数据) 前言 一.整体思路 二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址 三.获取主评论 四.获取子评论 1.解析子评论2.获 ...
- python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- python爬虫微博评论图片_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
最新文章
- Django Request对象3.3
- 遍历页面上的所有控件
- Spark的RDD持久化
- 【.Net Micro Framework PortingKit – 14】TinyCLR编译与测试
- 作用域变量 var
- 数据库系统概念总结:第三章 SQL
- 事业单位计算机技术岗工资,事业单位新入职的人员在管理岗位和技术岗位工资待遇是否有区别?...
- wordpress acf字段 不同样式_提升wordpress执行效率二次开发实录
- 智伴机器人三级分销模式_企业选择微信三级分销定制开发原因?
- 报“parseSdkContent failed java.lang.NullPointerException”的错误。
- 使用QHttp与C#编写的服务端交互(编译环境mingw)
- webpack5打包普通html项目,webpack打包其他资源
- 网络请求的null值处理
- 如何管理你的客户?别用会员卡积分打折了,把客户变成粉丝
- grpc编译问题:“C++ versions less than C++11 are not supported.
- 【读书笔记】之蔡康永的说话之道2
- LeetCode | 347. Top K Frequent Elements
- jquery滚动条滚动事件_滚动条和jQuery –使用航点的事件处理
- linux账号延期,Linux用户密码过期延期
- 三种伺服电机控制方式总结
热门文章
- 湖北湖南广州计算机科学大学排行,校友会2018中国大学计算机类专业排名
- 【Yolov5】训练自己的yolov5模型并集成到安卓应用中【上】——模型训练
- 【Yolov5】训练yolov5模型并集成到安卓应用中(中)——模型转化
- Linux 系统中的用户管理
- 笔记本连接显示器后没有声音_电脑连接HDMI显示器后没声音的解决办法
- python怎么判断质数和合数_用java如何写代码去判断质数和合数
- 用Python分析《都挺好》中的人物关系
- PBR 前言 颜色理论:色度、色域与色彩空间
- 【QT】FillRect填充的区域实现部分区域透明
- 解决 Cannot uninstall 'ipython'. It is a distutils installed project and thus we cannot accurately det