在360浏览器(这里之所以没用chrome,是因为在调试模式中,谷歌浏览器不能查到页面的关键词,而360却可以)中找到#周杰伦超话#页面,然后调出调试窗口,改为手机模式,然后过滤请求,只查看异步请求,查看返回数据格式,找到微博内容所在


F12打开调试模式,只看xhr的一部请求,点击帖子选项卡,在弹出的请求中右键在新的选项卡中打开
也可以直接在调试模式中搜索,是否能看到页面中显示的元素来确认请求地址是否准确,这里我搜索的是“告白气球”,如果不能找到就在请求的地址中,选择在新标签页打开,然后搜索关键词
可以看到请求的地址是https://m.weibo.cn/api/container/getIndex?containerid=1008087a8941058aaf4df5147042ce104568da_-feed&extparam=%E5%91%A8%E6%9D%B0%E4%BC%A6&luicode=10000011&lfid=1008087a8941058aaf4df5147042ce104568da-feed
将页面向下滚动,会发现有新的请求地址,是https://m.weibo.cn/api/container/getIndex?containerid=1008087a8941058aaf4df5147042ce104568da
-feed&extparam=%E5%91%A8%E6%9D%B0%E4%BC%A6&luicode=10000011&lfid=1008087a8941058aaf4df5147042ce104568da-_feed&since_id=4403309069065553
通过在线的地址比对工具进行比对http://tool.oschina.net/diff/
可以看到新产生的请求多了一个参数since_id,分析第一个请求和第二个请求,可以看到第一个请求有1个since_id,第二次请求有2个since_id
查找这个属性的值
在图片中又发现了mblog中的id属性值
每次请求中都会有多个"card_type": "9"属性,但是这个是最后一个。没有规律可以找到
去微博的开放平台看看吧https://open.weibo.com/wiki/Statuses/mentions,通过查找关键词since_id看到这样一段话:若指定此参数,则只返回ID比since_id大的提到当前登录用户的微博消息(比since_id发表时间晚)。那就找到id最大的评论,然后作为since_id参数作为拼接就可以了。但是实际再看所有id参数,又是相反的,通过分析,得到我们要找到id最小的,然后作为since_id参数传递,以此来得到更早的评论信息。
通过for循环,不断调用定义的函数即可实现不停的向早期爬取评论。
我们要获取的是评论人的信息,以此来分析粉丝的分布
点击评论人的头像,在链接地址可以看到uid,查找这个uid值,可以看到
通过百度,得知获取用户信息的地址为https://weibo.cn/用户id/info,之所以没用用户详细信息的页面,是因为这个页面的规律没找到。。。
之后就可以通过这个id来获取到用户的信息了,当然为了数据的准确性,也可以去重
想要查看用户信息是需要登录的,这里通过requests.Session()来保存登录状态。
在导出csv之后,就可以通过pyechart来生成分析图了
pyecharts的地址是https://github.com/pyecharts/pyecharts

分析周杰伦超话爬虫思路相关推荐

  1. vc6怎么看错误在哪_周杰伦超话第一!微博超话在哪进入签到?怎么看排名?不会来看!...

    周杰伦超话排第一了,这一次可以说是引起了很多人的参与,除了一般的粉丝,还有很多明星也是纷纷参与,足以看到周杰伦的地位以及号召力. 但是这个活动发起的并不是周杰伦亲自发起的,而是由于有人质疑周杰伦现在的 ...

  2. 爬取新浪微博某超话用户信息,进行EDA分析

    文章目录 Sina_Topic_Spider: 技术难点总结: 1.爬取微博超话用户信息 1. 查看网页数据 2. 模拟请求数据,提取微博内容. 3. 遍寻找分页参数技巧 4. 爬取用户信息 5. 保 ...

  3. python爬微博超话图片_Python爬虫:《庆余年》人物图谱和微博传播路径

    利用Python分析<庆余年>人物图谱和微博传播路径 庆余年电视剧终于在前两天上了,这两天赶紧爬取微博数据看一下它的表现. 庆余年 <庆余年>是作家猫腻的小说.这部从2007年 ...

  4. Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?

    微博爬虫可以不借助selenium,直接用Chrome下的手机端模式打开,找到其封装的json数据,即可爬取,具体步骤如下. 分析过程 以东野圭吾超话为例,网址为微博超话.进入页面后,使用Chrome ...

  5. 周杰伦粉丝赢了超话大战

    这场由网友对周杰伦"没有流量"的质疑引发.周杰伦粉丝发起.微博各路大V以及网友参与的事件,可以说得上是"一场对流量时代大型嘲讽的行为艺术". #周杰伦需要做数据 ...

  6. 超话显示服务器有点累,周杰伦新歌1小时900万,服务器崩溃!但这12个彩蛋你绝对没注意...

    不用我说,大家的朋友圈昨天应该被周杰伦的新歌刷爆了吧,我都不用开朋友圈就知道,百分之八十的人都在分享杰伦的新歌<说好不哭>.我没想到的是,QQ这位旁友,居然在这么关键的时刻,被网友们挤爆了 ...

  7. Python爬虫自学之第(零)篇——爬虫思路和request模块使用

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 爬虫思路 无思路不成器,如果 ...

  8. 微博“超话”幻灭之后

    周杰伦靠"夕阳红粉丝团"坐实了"顶流"咖位,蔡徐坤粉丝宣布从此退出微博数据榜--至此,声势浩大.为期一周的"超话攻防战"落下帷幕. 然而吃瓜 ...

  9. 微博“超话”幻灭之后 AI内容生产能重新定义追星规则?

    周杰伦靠"夕阳红粉丝团"坐实了"顶流"咖位,蔡徐坤粉丝宣布从此退出微博数据榜--至此,声势浩大.为期一周的"超话攻防战"落下帷幕. 然而吃瓜 ...

最新文章

  1. shell中遍历目录
  2. Java虚拟机学习(6):对象访问
  3. vue的数组如何存储数据
  4. 2018.11.03-dtoj-3130-流浪者(rover)
  5. PHP中多维数组var_dump展示不全
  6. 【体系结构】shared pool的个人理解
  7. mysql 中文字符 函数_MySQL基础之字符函数-Go语言中文社区
  8. ueditor去掉本地保存功能
  9. java_web基本概念
  10. MATLAB 2016a 安装包以及安装破解教程
  11. 训练集,验证集,测试集分别是什么
  12. 【预测模型】基于遗传算法优化最小二乘支持向量机lssvm实现数据预测matlab代码
  13. 【夏虫语冰】visio2013安装出错,无法打开注册表,错误码1402
  14. “变态”的JavaScript——JavaScript的发明人--布兰登·艾奇(Brendan Eich)
  15. 蓝桥杯2014java_【图片】2014-2016蓝桥杯java本科B组省赛题_蓝桥杯吧_百度贴吧
  16. 写剧本、模仿声音、制造笑点,机器学习进军好莱坞
  17. software_reporter_tool 进程关闭的优雅法子
  18. android 钉钉考勤日历,Flutter仿钉钉考勤日历
  19. Mysql组复制(MGR)——操作
  20. docker 安装clickhouse(springboot mybatisplus clickhouse 整合)

热门文章

  1. 《明日边缘》生死轮回,像上帝一样活
  2. 使用cocos2dx+lua改造《剑魂之刃》的经验总结
  3. leetcode:java.T018_4Sum---给定一个整数数组,找出a + b + c + d = target的唯一解,不能有重复元素组
  4. StarGAN-VC语音音色转换
  5. HTML基础的回顾复习(基本标签,简单的一个登陆验证)
  6. 安卓开发者的 17 年总结
  7. 无线通信网知识点笔记
  8. 难道天才都容易罹患精神疾病?还是西方医学不知道风邪所犯?
  9. 常见软件系统的供应商
  10. Bonobo Git Server的使用