新浪微博大v博客信息抓取与活跃度清博指数BCI分析Python
1.清博指数BCI介绍
介绍链接:http://www.gsdata.cn/site/usage-2
清博指数简单来说就是衡量用户的知名度、活跃度,以便广告商了解一个微博账号是否值得投放广告
2.新浪微博用户数据抓取思路分析
首先根据清博指数我们要抓取7个关键字段:
发博数X1、原创微博数X2、转发数X3、评论数X4、原创微博转发数X5、原创微博评论数X6、点赞数X7。
我一开始试过,直接爬取用户能访问到的界面根本爬不出真实数据(新浪微博也是有一定的反爬虫技术的)
经过无数次的探索后,我终于找到的真正的数据入口:
weibo_url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=’ + bozhu_id + ‘&containerid=’ + containerid + ‘&page=’ + str(i)
其中,博主id是图片中的oid

containerid是每条信息对应的id,要先有博主id,才能爬取信息id
这些都能分析出来后就能对应json数据,之后就是json解析与数量计算了
3.结果展示

4.后记
想要借鉴源码的评论留言

新浪微博大v博客信息抓取与活跃度清博指数BCI分析Python相关推荐

  1. [Pyhon疫情大数据分析] 三.新闻信息抓取及词云可视化、文本聚类和LDA主题模型文本挖掘

    思来想去,虽然很忙,但还是挤时间针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫.可视化分析.GIS地图显示.情感分析.舆情分析.主题挖掘.威胁情报溯源.知识图谱.预测预警及AI和NL ...

  2. 爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取

    文章目录 前言 一.增量爬虫是什么? 二.python数据存储到数据库 三.多级页面的跳转获取 四:遇到的问题以及解决 五:代码 总结 前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是 ...

  3. 使用scrapy抓取博客信息

    使用scrapy抓取博客信息 本文使用python的爬虫工具scrapy获取博客园发布的文档的信息. 创建cnblog爬虫项目: scrapy startproject cnblog 创建爬虫cnbl ...

  4. 如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间

    如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间 如何控制Yahoo! Slurp蜘蛛的抓取频度 2009年08月13日 星期四 5:56 上周末豆瓣的阿北给我电话:最近你们雅 ...

  5. 开发记录_自学Python写爬虫程序爬取csdn个人博客信息

    每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...

  6. Atitit.web的自动化操作与信息抓取 attilax总结

    Atitit.web的自动化操作与信息抓取 attilax总结 1. Web操作自动化工具,可以简单的划分为2大派系: 1.录制回放 2.手工编写0 U' z; D! s2 d/ Q! ^1 2. 常 ...

  7. 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)

    转自原文 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...

  8. Python基础之12306车票信息抓取案例

    Python基础之12306车票信息抓取案例 注:12306上请求网址链接经常变化,需要随时检查更改(我已经修改三遍了),请求的数据也有小几率发生变动,所以也需要检查更改 2018-10-22 第四遍 ...

  9. 网页信息抓取进阶 支持Js生成数据 Jsoup的不足之处

    转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...

  10. python——爬虫实现网页信息抓取

    首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...

最新文章

  1. 比MySQL快6倍 深度解析国内首个云原生数据库POLARDB的“王者荣耀”
  2. MySQL -通过调整索引提升查询效率
  3. android ichartjs 曲线图,C#中利用LightningChart绘制曲线图表
  4. FreeMarker(一)初识
  5. 如何在macOS Monterey 中开启对焦模式?
  6. paip.声音按键音延迟的解决
  7. 用友t+畅捷通使用方法_【财务人员必看干货】用友财务软件使用方法和快捷键大全!...
  8. 史上最全phpwind版本,从phpwind1.0到phpwind8所有版本和升级补丁包
  9. 联想7400打印机如何与手机连到一起_想买一台打印机自己印书看,是买激光的还是喷墨的?...
  10. 板载RAID、RAID卡与RAID控制器
  11. 卧槽,泪目了!二哥被读者的深情告白了感动哭了!!!!
  12. netbackup 备份oracle,Netbackup 6 备份 oracle 9.2
  13. Nexus的安装和使用
  14. Java 多线程面试题及回答
  15. 【程序设计】定时任务调度平台需求说明书
  16. 教你如何一眼认出英语单词的意思
  17. 计算机wlan打不开怎么回事,笔记本电脑wlan打不开怎么回事
  18. 「团队训练赛」2021 Jiangsu Collegiate Programming Contest题解
  19. 大数据是什么?发展前景怎么样
  20. MT5 EA交易期货-市价单开仓平仓

热门文章

  1. 诺基亚9300手机开发的有关资料
  2. 十六进制 转 二进制方法汇总
  3. VTK系列57_VTK对几何体网格细化(多分辨率处理)
  4. afuwin64教程_华硕主板BIOS降级强刷教程
  5. CEikEdwin 助手
  6. rar压缩包加密以及rar密码破解的教程
  7. 最新Oreo易支付源码开源版
  8. 惠普m128fn中文说明书_惠普M128fw说明书
  9. html5 3d gallery,使用jQuery制作3d画廊房间
  10. android8.0源码下载