python抓取取微博评论简单示例

使用python中的requests以及re库对人民日报的一篇新冠疫苗文章前30页评论进行抓取。抓取微博评论使用的是微博的移动端网页。具体代码如下

import requests
import re
import time
import pandas as pddata = pd.DataFrame(columns=['用户评论'])  # 创建DataFrame用于存储评论url = 'https://m.weibo.cn/comments/hotflow?'header = {'Referer': 'https://m.weibo.cn/status/K9nlrqOa7?from=page_1002062803301701_profile&wvr=6&mod=weibotime','cookie': 'WEIBOCN_FROM=1110006030; SUB=_2A25NaHmIDeRhGeNI7FEZ9ybMzz-IHXVukwfArDV6PUJbkdAfLRTBkW1NSCLugpy2B0l2GHcHM-YPQW7Aaxu7g6jc; _T_WM=62217879831; MLOGIN=1; XSRF-TOKEN=2f83ea; M_WEIBOCN_PARAMS=from%3Dpage_1002062803301701_profile%26oid%3D4622346936389355%26luicode%3D20000061%26lfid%3D4622346936389355%26uicode%3D20000061%26fid%3D4622346936389355','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Mobile Safari/537.36'
}# 设置第一次爬虫参数
param = {'id': '4622346936389355','mid': '4622346936389355','max_id_type': '0'
}# 抓取前三十页
for n in range(30):resp = requests.get(url,headers=header,params=param)resp.encoding = 'utf-8'dic = resp.json()regex = re.compile(r'<span.*?</span>|<a.*?/a>',re.S)  # 正则表达式提取表情# 获得下次爬虫的url参数max_id = dic['data']['max_id']max_id_type = dic['data']['max_id_type']page = dic['data']['data']for i in range(len(page)):data.loc[page[i]['user']['screen_name']] = regex.sub('',page[i]['text'])param = {'id':'4622346936389355','mid':'4622346936389355','max_id':str(max_id),'max_id_type': str(max_id_type)}print(f'第{n}页')time.sleep(3)
data.to_csv('新冠疫苗接种评论.csv')  # 保存数据
resp.close()

python抓取取微博评论简单示例相关推荐

  1. 中国女足绝地大逆转,爬取了微博评论区,评论很精彩

    昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转. 打开微博一看,WC,微博推给我的第一条就是一篇瓜文. 这几天正好有的瓜,于是就爬了一下微博 ...

  2. 备忘1:爬取热门微博评论

    '''python3''' '''2018/04/03''' import requests import os import re import csv import time import jso ...

  3. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  4. 王校长撩妹不成反被锤爆?再有钱的舔狗也只是舔狗【Python爬虫实战:微博评论采取】

    大家好,我是辣条呀~ 正如标题所示,想必这两天大家被王校长的瓜轰炸了吧,微博上都上了几轮热搜了,我也是吃的津津有味,难得看王校长在女生面前吃瘪呀.加上和一个朋友聊到了微博评论采集遇到的问题,有感而发写 ...

  5. python处理excel-python处理Excel的简单示例

    这篇文章主要为大家详细介绍了python处理Excel的简单示例,具有一定的参考价值,可以用来参考一下. 对python这个高级语言感兴趣的小伙伴,下面一起跟随512笔记的小编两巴掌来看看吧! Pyt ...

  6. python矩阵拼接_numpy数组拼接简单示例_python

    这篇文章主要介绍了numpy数组拼接简单示例,涉及对numpy数组的介绍,numpy数组的属性等内容,具有一定借鉴价值,需要的朋友可以参考下. NumPy数组是一个多维数组对象,称为ndarray.其 ...

  7. python计算器总结_Python 计算器的简单示例

    这篇文章主要为大家详细介绍了Python 计算器的简单示例,具有一定的参考价值,可以用来参考一下. 对python这个高级语言感兴趣的小伙伴,下面一起跟随512笔记的小编两巴掌来看看吧! 简介 在这篇 ...

  8. python3爬取微博评论api情感分析_如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析...

    param = (comment_id,user_name,created_at,text,likenum,source) try: A = cur.execute(sql,param) conn.c ...

  9. python入门第一课_入门第一课 Python入门涉及的问题及简单示例

    很多初学者都在问:我想自学Python,该怎样入门?入门选择哪些书籍? 下面,我以自己的理解作出解答. 1.先说明大体的学习进度. Python确实入门较为容易,语法清晰易懂.一旦入了门再想提高就和其 ...

最新文章

  1. @override注解可以不写吗
  2. boost::swap_ranges相关的测试程序
  3. php传二维数组,JS用POST怎么传送二维数组给PHP
  4. 初识linux 命令(一)
  5. Java 算法 一元一次方程
  6. abcdefg顺序Java打印,全国2012年10月自考JAVA语言程序设计(一)试题及答案
  7. functools.partial
  8. linux测试进程内存,怎么测试进程运行时的内存用量
  9. Gradle删除本地库文件
  10. [成功] vscode使用微软编译器 vs编译器
  11. bypassing waf's in sql injection
  12. Python+Selenium程序执行完,chrome浏览器自动关闭解决方案
  13. (网络)网络层:IP协议解析、地址管理(IP地址、子网掩码)、路由选择
  14. 证书服务器 过期,iis7服务器证书过期如何换新的以及证书服务器
  15. USB 为什么一般选择48MHz
  16. 逻辑电路是计算机学的吗,逻辑电路可以使计算机具备什么能力 计算机具有逻辑判断能力,主要取决于( )。...
  17. B站首页(推荐页)分析
  18. c语言 ascii码转成字符串,ASCII码与字符串的相互转换
  19. 数据安全运营体系建设
  20. 别被忽悠了,程序员告诉你个人所得税年度汇算那些事

热门文章

  1. 税务ukey错误代码09d122
  2. 【原创】基于JavaWeb的社区物业管理系统(Web物业管理系统毕业设计)
  3. 自学实现SSM开发房屋租赁系统
  4. 错误解决:expected ‘=’, ‘,’, ‘;’, ‘asm’ or ‘__attribute__’ before ‘<’ token
  5. python冲击二级---基本库turtle,海龟绘图详解,史上最全,没有之一
  6. PhotonServer介绍
  7. 射频功放学习之ADS-MATLAB联合仿真(一)
  8. 轻松上手使用gs_dump和gs_dumpall命令导出数据
  9. Tableau新手教程!第一个仪表盘!Tableau初学者
  10. 计算机系统基础(一)