最近朋友告诉我她的微博粉丝数涨了很多,好奇的我去翻看了下,看了下动态也没有发现她发了什么能能快速吸粉的内容呀。粉丝怎么一下涨那么多,我也是一直在玩微博的,但是确实很少涨粉,粉丝基本都是一些认识的朋友,除非是“僵尸粉”。微博里的僵尸粉超级多的,很多人花钱就可以买到“关注”,有名无实的微博粉丝,是由系统自动产生的恶意注册的用户,不过大家应该都不喜欢有很多僵尸粉吧,毕竟都希望粉丝是真实的。
说的僵尸粉我就想到那些明星,动不动就是百万千万的粉丝,真的好奇喜欢他们的人到底有多少,又有多少是僵尸粉呢?关于微博的数据之前也采集过不少,但是关于粉丝这个没有研究过。一般要检测粉丝到底是不是僵尸粉,可以通过粉丝的粉丝数量、微博动态数这些数据去分析,那么我们今天就通过朋友的微博去检测下,流程不难,篇幅有点多,而且关于微博最近真的风控的也很烦,所以我还买了付费代理才获取到数据。获取到的粉丝url: url_fans = "https://weibo.com/7399148775/fans?from=100505&wvr=6&mod=headfans&current=fans#place"大体的代码信息如下,因为是挂了代理的,所以重点分享下挂代理的部分

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class Demo
{// 代理验证信息final static String ProxyUser = "16EDEWIU";final static String ProxyPass = "205517d";// 代理服务器(产品官网 www.16yun.cn)final static String ProxyHost = "t.16yun.cn";final static Integer ProxyPort = 31111;// 设置IP切换头final static String ProxyHeadKey = "Proxy-Tunnel";public static String getUrlProxyContent(String url){Authenticator.setDefault(new Authenticator() {public PasswordAuthentication getPasswordAuthentication(){return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());}});// 设置Proxy-TunnelRandom random = new Random();int tunnel = random.nextInt(10000);String ProxyHeadVal = String.valueOf(tunnel);Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));try{// 处理异常、其他参数Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();if(doc != null) {System.out.println(doc.body().html());}}catch (IOException e){e.printStackTrace();}return null;}public static void main(String[] args) throws Exception{// 要访问的目标页面String targetUrl = "https://weibo.com/7399148775/fans?from=100505&wvr=6&mod=headfans&current=fans#place";getUrlProxyContent(targetUrl);}
}

通过获取到的数据分析大概是这样的,有些僵尸粉是广告营销的,有些是转发别人的,还有一些就是真的僵尸粉,最让我震惊的是朋友一千多的粉丝结果只有200个是正常的,这打击有点大呀。还有就是如果你的有收到官博发一些涨粉的消息,那你一定要注意了吗,说不定一大堆僵尸粉即将来袭。还有通过这次的数据分析我们可以想象,那些号称几千万粉丝的明星实际的粉丝估计也就那样。最后写文不易,欢迎大家来点赞交流哦

利用爬虫技术清理微博“僵尸粉”相关推荐

  1. 爬虫侵入计算机系统,【探讨】利用“爬虫技术”获取数据行为的刑事考量 ——以一起非法获取计算机信息系统数据案为例...

    在本案中最为主要的争议焦点是"公开的信息"是否属于非法获取计算机信息系统数据中的犯罪对象.非法获取计算机信息系统数据罪的保护法益是计算机信息系统安全和数据安全.那么信息是否等同于数 ...

  2. 利用爬虫技术构建Nifty Gateway的NFT数据分析平台

    摘要: 本文将介绍如何利用爬虫技术构建Nifty Gateway的NFT数据分析平台.首先,我们将对Nifty Gateway进行简要介绍,并解释爬虫技术在NFT领域的重要性.然后,我们将详细阐述如何 ...

  3. RE:利用爬虫技术制作一个看动漫新番的APP

    作者:hwj3747 转载请注明 简介 在看动漫追番的时候,发现每一季度的新番都是被优酷,爱奇艺,哔哩哔哩,PPTV等各大视频厂商买了版权,导致我在手机上要装各种软件,并且很多番更是直接被广电禁掉了, ...

  4. python爬虫技术可以干什么-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

    很久之前就看到老爬虫 @何明科 的回答,在后续的几年里面,一致在思考和践行爬虫赋能业务运营的结合点和场景.爬虫是虾米东东?真的是盗取数据的不法之徒吗? 真相却恰恰相反,而且很多场景下都能极大的赋能业务 ...

  5. python爬虫可以做哪些好玩的_利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

    可以批量下载抖音小姐姐的视频啊!!!https://www.zhihu.com/video/1007643517610475520 可以查看微信好友撤回了什么消息啊!!!Python查看微信撤回消息​ ...

  6. 爬虫python能做什么外国人-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

    知乎十二小时内发布最受关注话题 ') cl_list = [' ', ' ', ' ', ' '] for i in listss: number = random.choice(cl_list) f ...

  7. java 获取邮编_java利用爬虫技术抓取(省、市(区号\邮编)、县)数据

    /** * @param var 城市名称 * @returnstring数组.0表示邮编1表示区号 */ @SuppressWarnings("deprecation") pri ...

  8. 爬虫技术做到哪些很酷很有趣很有用的事情

    能利用爬虫技术做到哪些很酷很有趣很有用的事情? 准备学习python爬虫.各位大神都会用爬虫做哪些有趣的事情? 今天突然想玩玩爬虫,就提了这个问题.跟着YouTube上的一个tutor写了个简单的程序 ...

  9. python自动保存图片_Python学习笔记:利用爬虫自动保存图片

    兴趣才是第一生产驱动力. Part 1 起先,源于对某些网站图片浏览只能一张一张的翻页,心生不满.某夜,冒出一个想法,为什么我不能利用爬虫技术把想看的图片给爬下来,然后在本地看个够. 由此经过一番初尝 ...

  10. 【K哥爬虫普法】蓄意突破反爬虫技术,爬取牌照信息

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...

最新文章

  1. 【校招面试 之 C/C++】第16题 C++ new和delete的实现原理
  2. OGG 跳过事务(转)
  3. 重温java中的String,StringBuffer,StringBuilder类
  4. windows7下darknet配置yolov3训练及测试完整教程
  5. hadoop学习4 调测错误备案
  6. 研究死锁–第5部分:使用显式锁定
  7. Python高级用法总结
  8. 《Science》日本科学家利用干细胞诱导成功了大鼠生殖细胞
  9. C#操作SQL Server数据库
  10. 一步一步学习SignalR进行实时通信_5_Hub
  11. js动态产生对象push进数组,发现数组所有元素(element or object)一样
  12. linux 修改密码和端口号_WINDOWS/LINUX系统修改管理员密码方法
  13. CODEVS 3027 线段覆盖2
  14. beini奶瓶-无线网络蹭网破解-简明说明
  15. 【记录】凯酷84说明书
  16. CSDN学习相关页面探讨
  17. go语言工作目录都有什么?GOPATH下的目录结构
  18. 怎样取消老毛桃软件赞助商---只需在输入框中输入老毛桃官网网址“laomaotao.org”...
  19. 使用R语言从网易财经批量获取股票数据并进行整合的方法
  20. int 等数据类型的含义

热门文章

  1. [js高手之路]Node.js模板引擎教程-jade速学与实战1-基本用法
  2. windows美化指南秒变mac风格
  3. mac本常用快捷键大全
  4. sketchup 草图 大师 使用笔记
  5. Johnson算法PlantSimulation解决两机器多作业排版问题
  6. Android Studio 下载ndk
  7. Gliffy 一款很不错的在线作图工具[可代替visio]
  8. 阿里巴巴编程考试认证java编程规范+考试分享
  9. 异速联(E-SoonLink)标准版
  10. 商品管理系统——Java实现