源码链接:https://pan.baidu.com/s/1oOAxJqSMCyVJPNv-iAYW7A
提取码:1co9

Java+Jsoup爬虫小红书,微博,B站

爬取地址:https://weibo.com/1234692083/Ixnp6nuPk
目标:抓取文章的转发量,评论量,点赞量

1.F12分析下页面

2.使用Jsoup进行抓取
这里发现,毛都没有取到,找了半天没线索

在使用get请求试一下

这啥玩意???
问下度娘,原来这是(新浪访客系统),想要获取到微博的静态页面,需要在请求头里埋入Cookie
感谢大佬提出的思路让我少走了很多弯路:微博爬虫之:无需账号获取微博weibo的Cookie

如何获取Cookie?
请求俩接口得到必要的参数就ok了
接口1:https://passport.weibo.com/visitor/genvisitor?cb=gen_callback(返回tid)
接口2:https://passport.weibo.com/visitor/visitor?a=incarnate&t=接口1里的tid&w=3&c=100&cb=cross_domain&from=weibo(返回sub和subp)
Cookie:Sub=接口2的sub; SUBP=接口2的subp

之后使用Jsoup,Cookie带入请求头,获取微博静态页面析出需要的值即可

分析了一下,数据在js里,需要解析出来

我们需要的值在这里的html属性下,想尽一切方法,取出来就行,如何取出

分析了一下后,我决定用正则方式删选出要的数据,在替换掉前后符号,在转为json,调出对应值即可

开头:FM.view(
结尾:)

就可以遍历,拿到所有符合这个规则的数据

替换前:FM.view(
替换后:

替换前:)
替换后:

转为json格式

遍历:ns==pl.content.weiboDetail.index的html属性取出

字符串转为Jsoup
Jsoup.parseBodyFragment(html)

分析结构,解析数据

获取.WB_row_line下的span.S_line1下的第二个em
.WB_row_line span.S_line1 em:nth-child(2)
将4个em存入list集合
取2,3,4即可

Java+Jsoup爬虫微博相关推荐

  1. Java+Jsoup爬虫小红书

    源码链接:https://pan.baidu.com/s/1oOAxJqSMCyVJPNv-iAYW7A 提取码:1co9 Java+Jsoup爬虫小红书,微博,B站 爬取地址:https://www ...

  2. Java JSOUP爬虫学习分享

    昨天从狂神大佬那学习了如何用jsoup爬去网站数据,现在整理了一下给大家分享一下. 先创建一个名叫JsoupPojo的实体类用来装入数据. @Data public class JsoupPojo { ...

  3. Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中

    Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中 一.资源 EasyExcel使用教程 Jsoup爬虫教程 二.代码 xml依赖 ...

  4. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  5. 详解用Java实现爬虫:HttpClient和Jsoup的介绍及使用(请求方式、请求参数、连接池、解析获取元素)

    一.介绍:何为爬虫 网络爬虫(Web crawler)也叫做网络机器人 可以代替人 自动地在互联网中进行数据信息的采集和整理 是一种按照一定的规则 自动地抓取万维网信息的程序或者脚本 可以自动采集所有 ...

  6. java jsoup 网络爬虫 jsoup解析html Java爬虫 Jsoup爬虫 jsoup例子

    java jsoup 网络爬虫 java jsoup 网络爬虫 学习例子(一)抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫 学习例子(二)只抓取豆瓣电影5星(力荐)电影名称 java j ...

  7. java jsoup 多线程爬虫Miner

    java jsoup 多线程爬虫Miner 需要配置项: 1.URL包含关键字. 2.存储方式:DB-数据库存储;FILE-文件存储. 3.爬取页面最大深度. 4.下载页面线程数. 5.分析页面线程数 ...

  8. java毕业设计——基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码)——网络新闻分析系统

    基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络 ...

  9. java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS

    java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS /** filename getHtml.js* phantomjs.exe 2.0.0* author InJa ...

最新文章

  1. 并不对劲的bzoj2820:p2257:YY的GCD
  2. 对分查找的最多次数_Java数据结构与算法:多路查找树
  3. 2. getline()和get()
  4. ValueError: Found array with dim 4. Estimator expected和ValueError: Expected 2D array, got 1D array i
  5. asp.net接受表单验证格式后再提交数据_看滴普科技大前端如何玩转el-form-renderer 表单渲染器1.14.0
  6. Ubuntu:查询计算机软硬件信息
  7. 建立一个lstm_基于LSTM的双色球预测(一)
  8. centos 程序 mysql数据库文件位置_Centos mysql数据库存放位置更换
  9. java运行matlab代码
  10. 在Eclipse上用JAVA连接数据库
  11. Win10系统电脑连接打印机的操作方法教学
  12. 基于JavaScript实现的网页版贪吃蛇
  13. Unity 在编辑模式下退出游戏
  14. 浙江省测绘与地理信息局异地备份和容灾项目
  15. php 英文单词 数,php实现单词统计功能
  16. T7983 大芳的逆行板载
  17. python:talib 计算 OBV
  18. 【Linux】解压缩命令
  19. 抑郁症自我测试皮肤软件,39健康自测_中国最大的在线健康自测平台
  20. 【计算机毕业设计】基于微信小程序的驾校学车预约服务系统

热门文章

  1. 在 ML2 中 enable local network - 每天5分钟玩转 OpenStack(79)
  2. oracle替换子字符串,oracle字符/字符串替换
  3. 高德地图之路线规划 多点路线规划路线最短原则之二 TSP算法
  4. 3款软件分享,感兴趣的快快码住呀
  5. Could not resolve placeholder 'redis.maxIdle' in string value ${redis.maxIdle}
  6. 编写shell脚本-sftp上传文件
  7. Windows8系统中JAVA环境变量的配置
  8. 实现Python构造函数重载效果
  9. sspanel进阶——修改属于自己的sspanel站点(二)
  10. 运维有趣项目:搭建个人博客安全版(Appache2.4防盗链与防泄漏,防盗链httpd.conf无Load,include版)