python爬取微博评论数据_Python爬虫之微博评论爬取!
原标题:Python爬虫之微博评论爬取!
提交Cookie信息模拟微博登录
需要爬取登录之后的信息,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录微博,首先,我们找到某明星的微博网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端,你会发现,你点击网址会自动跳转到登录微博的界面(没有跳转的注销掉自己的账号),如下图所示:
然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星微博网址的请求头即可。
异步加载数据如何爬取
我在网上看过移动端的微博数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条微博和评论的js包。我们只需请求这个js数据,然后利用json库即可提取我们所需的评论数据。
代码
爬取的数据导入数据库后又导出为csv格式进行分析
词云制作及分析
可以说支持的评论更多一些:例如爱你,喜欢,坚强等等;不过也有不少的恶意评论:黑,恶心,讨厌等。
总结
1、Cookie提交是一个简单不错的选择,但Cookie信息隐藏着隐私,大家千万别暴露在外面,以防外人所利用。
2、异步加载不可怕,找包有技巧,有id,vid等字段的嫌疑最大,多练习就行。返回搜狐,查看更多
责任编辑:
python爬取微博评论数据_Python爬虫之微博评论爬取!相关推荐
- python爬虫微博粉丝数据_Python爬虫:微博粉丝列表
importrequestsimportre tmpt_url= 'https://weibo.com/p/1005051678105910/follow?page=%d#Pl_Official_Hi ...
- python爬虫爬取58网站数据_Python爬虫,爬取58租房数据 字体反爬
Python爬虫,爬取58租房数据 这俩天项目主管给了个爬虫任务,要爬取58同城上福州区域的租房房源信息.因为58的前端页面做了base64字体加密所以爬取比较费力,前前后后花了俩天才搞完. 项目演示 ...
- python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
- python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的 从网上获 ...
- python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法
爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...
- python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据
学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息 首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...
- python爬取贴吧数据_Python爬虫——抓取贴吧帖子
原博文 2016-11-13 23:13 − 抓取百度贴吧帖子 按照这个学习教程,一步一步写出来,中间遇到很多的问题,一一列举 首先, 获得 标题 和 贴子总数 # -*- coding:utf-8 ...
- python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例
本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...
- python下载百度云盘中的数据_python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情...
在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...
最新文章
- #圆的周长和面积面向对象_数学实验 | 圆的面积公式推导
- MQTT发布消息核心流程之一
- 给插店一个成功案例给自己一次机会
- 通过Dapr实现一个简单的基于.net的微服务电商系统(九)——一步一步教你如何撸Dapr之OAuth2授权-百度版...
- javafx爬取网页并且初始化网页数据
- 从javaScript数据类型开始了解垃圾回收机制
- 53-C++ CH08 01
- C++:类的构造函数
- ASP.NET MVC Preview 2新特性
- Mybatis一对一和一对多配置
- 整理一些css在使用中的小技巧(进行中)
- 解决Shape数据形状数与表记录数不一致的问题
- 分享一个模拟真实热带雨林环境的有声动态屏保。呵护一下眼睛
- MySQL命令行登录数据库
- python 批量修改文件夹和子文件夹的名称
- cin.get()的用法
- 【seo】seo网站优化过程
- 第十一届蓝桥杯大赛软件类决赛(2020javaB国赛)
- python头像转卡通_Python实现将照片变成卡通图片的方法【基于opencv】
- 【科普向】谁都能看懂的CRC(循环冗余校验)原理