import requests

import json

from tqdm import tqdm

import datetime

import time

import random

import csv

# 一条主微博链接部分评论, 需要构造参数max_id获取全部ajax

up_main_url = 'https://m.weibo.cn/comments/hotflow?id=4596226979532970&mid=4596226979532970&max_id_type=0'

headers = {

# ua代理

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75',

# 登录信息

'cookie': 'SINAGLOBAL=5702871423690.898.1595515471453; SCF=Ah2tNvhR8eWX01S-DmF8uwYWORUbgfA0U3GnciJplYvqE1sn2zJtPdkJ9ork9dAVV8G7m-9kbF-PwIHsf3jHsUw.; SUB=_2A25NDifYDeRhGeBK7lYS9ifFwjSIHXVu8UmQrDV8PUJbkNANLRmlkW1NR7rne18NXZNqVxsfD3DngazoVlT-Fvpf; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WhhI1TcfcjnxZJInnV-kd405NHD95QcSh-Xe0q41K.RWs4DqcjQi--ciK.RiKLsi--Ni-24i-iWi--Xi-z4iKyFi--fi-2XiKLhSKeEeBtt; wvr=6; _s_tentry=www.sogou.com; UOR=,,www.sogou.com; Apache=9073188868783.379.1611369496580; ULV=1611369496594:3:3:3:9073188868783.379.1611369496580:1611281802597; webim_unReadCount=%7B%22time%22%3A1611369649613%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A63%2C%22msgbox%22%3A0%7D'

}

response = requests.get(url=up_main_url, headers=headers)

if response.status_code == 200:

text = response.text.encode("gbk", "ignore").decode("gbk", "ignore") # 解决报错双重严格限制

content = json.loads(text) # 将文本转为json格式

try:

data = content['data']['data'] # 获取评论列表

for comment in tqdm(data, desc='花花评论爬取加载进度--->!'):

time.sleep(random.random())

text = str(comment['text']) # 获取文本信息

# 卧槽,我房子又塌了

# 处理文本信息,find函数找到

if text.find('

text = text[:text.find('

create_time = comment['created_at'] # 发布时间

# 格林威治时间格式字符串 Wed Jul 10 20:00:09 +0800 2019 转换为好理解的标准时间格式 2019-07-10 20:00:09

# Fri Jan 22 17:56:48 +0800 2021 转换为标准时间格式 2021/1/22 17:56:48

std_transfer = '%a %b %d %H:%M:%S %z %Y' # 转换的一个格式

std_create_time = datetime.datetime.strptime(create_time, std_transfer)

user_name = comment['user']["screen_name"] # 用户姓名

user_id = comment['user']['id'] # 用户id

user_followers_count = comment['user']['followers_count'] # 该用户粉丝数

user_follow_count = comment['user']['follow_count'] # 该用户关注数

user_gender = comment['user']['gender'] # 用户性别

total_number = comment["total_number"] # 总回复数

like_count = comment["like_count"] # 点赞数

flag_id = comment["id"] # 二级评论url构造所需id

print('')

# print(f'内容: {text}')

# print(f'用户名: {user_name}')

# print(f'评论时间: {std_create_time}')

# print(f'id:{user_id}')

# print(f'关注人数: {user_follow_count}')

# print(f'粉丝: {user_followers_count}')

# print(f'性别: {user_gender}')

# print(f'回复数量: {total_number}')

# print(f'点赞数: {like_count}')

# print(f'cid: {flag_id}')

#print('成功保存信息!')

except:

print("啊这,今晚是上分局!被反爬了")

pass

python爬虫获取数据失败请稍后访问_Python爬取微博评论数据,竟被反爬封号了!...相关推荐

  1. 【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据(免登陆)到生成词云

    [Python爬虫实例学习篇]--5.[超详细记录]从爬取微博评论数据(免登陆)到生成词云 个人博客地址:ht/tps://www.asyu17.cn/ 精彩部分提醒: (1)微博评论页详情链接为一个 ...

  2. 简单爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页

    爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页 1.什么是ajax异步数据交换网页 2.用到的工具模块和简单解释 3.网页内容解析 4.代码实现及解释 1.什么是ajax异步数据交换网页 ...

  3. python爬取微博评论数据的github链接_GitHub - guozifeng91/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

  4. python爬取微博评论数据的github链接_GitHub - DABOLUO111/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

  5. python爬取微博评论数据的github链接_GitHub - 13633825898/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 本程序需要设置用 ...

  6. python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据

    python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...

  7. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  8. python爬取微博评论(无重复数据)

    python爬取微博评论(无重复数据) 前言 一.整体思路 二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址 三.获取主评论 四.获取子评论 1.解析子评论2.获 ...

  9. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  10. python爬虫微博评论图片_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

最新文章

  1. Django Request对象3.3
  2. 遍历页面上的所有控件
  3. Spark的RDD持久化
  4. 【.Net Micro Framework PortingKit – 14】TinyCLR编译与测试
  5. 作用域变量 var
  6. 数据库系统概念总结:第三章 SQL
  7. 事业单位计算机技术岗工资,事业单位新入职的人员在管理岗位和技术岗位工资待遇是否有区别?...
  8. wordpress acf字段 不同样式_提升wordpress执行效率二次开发实录
  9. 智伴机器人三级分销模式_企业选择微信三级分销定制开发原因?
  10. 报“parseSdkContent failed java.lang.NullPointerException”的错误。
  11. 使用QHttp与C#编写的服务端交互(编译环境mingw)
  12. webpack5打包普通html项目,webpack打包其他资源
  13. 网络请求的null值处理
  14. 如何管理你的客户?别用会员卡积分打折了,把客户变成粉丝
  15. grpc编译问题:“C++ versions less than C++11 are not supported.
  16. 【读书笔记】之蔡康永的说话之道2
  17. LeetCode | 347. Top K Frequent Elements
  18. jquery滚动条滚动事件_滚动条和jQuery –使用航点的事件处理
  19. linux账号延期,Linux用户密码过期延期
  20. 三种伺服电机控制方式总结

热门文章

  1. 湖北湖南广州计算机科学大学排行,校友会2018中国大学计算机类专业排名
  2. 【Yolov5】训练自己的yolov5模型并集成到安卓应用中【上】——模型训练
  3. 【Yolov5】训练yolov5模型并集成到安卓应用中(中)——模型转化
  4. Linux 系统中的用户管理
  5. 笔记本连接显示器后没有声音_电脑连接HDMI显示器后没声音的解决办法
  6. python怎么判断质数和合数_用java如何写代码去判断质数和合数
  7. 用Python分析《都挺好》中的人物关系
  8. PBR 前言 颜色理论:色度、色域与色彩空间
  9. 【QT】FillRect填充的区域实现部分区域透明
  10. 解决 Cannot uninstall 'ipython'. It is a distutils installed project and thus we cannot accurately det