源代码:https://gitee.com/my-zstu/myzstu/blob/develop/myzstu-spyder/src/main/java/club/zstuca/myzstu/spyder/misc/WeiboTopSpyder.java

解决方案

package club.zstuca.myzstu.spyder.misc;import club.zstuca.myzstu.spyder.misc.entity.WeiboTopItem;
import club.zstuca.myzstu.utils.http.HttpUtil;
import org.apache.http.HttpResponse;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.util.ArrayList;
import java.util.List;public class WeiboTopSpyder {public String url = "https://s.weibo.com/top/summary";public List<WeiboTopItem> run(){try {HttpResponse response = HttpUtil.doGet(url);String content = EntityUtils.toString(response.getEntity());if (content == null || content.isEmpty()) {return null;}Document document = Jsoup.parse(content);Elements elements = document.select("#pl_top_realtimehot").select("tbody").select("tr");List<WeiboTopItem> list  = new ArrayList<>();elements.forEach(item->{WeiboTopItem topItem = new WeiboTopItem();Element element = item.select("td").get(1).select("a").first();if (element == null) {return;}topItem.setName(element.text());topItem.setUrl("https://s.weibo.com" + element.attr("href"));list.add(topItem);});return list;}catch (Exception e){e.printStackTrace();}return null;}
}

JAVA——微博热搜爬虫相关推荐

  1. 定时获取微博热搜爬虫连接MySQL(项目)

    前言 这个项目的第三篇博客,增加了定时爬取和日志写入,解决了一些稳定性的问题. 代码设计 # -*- encoding: utf-8 -*- # --------------------------- ...

  2. 练手:微博热搜小爬虫

    写在前面: 此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 微博热搜爬虫小工具 太闲了写格爬虫练练手 写了一个比较简单的 ...

  3. 微博热搜榜爬虫2.0

    微博热搜榜爬虫2.0 6月份出了一个微博热搜爬虫,在我电脑上设置了自动化12点爬取,结果到了9月份,执行不了. 一直没时间弄,今天来更新一下: 解决了两个问题, 1 >之前的话请求头比较单一,只 ...

  4. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  5. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

  6. python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

    在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...

  7. Python爬虫爬取微博热搜保存为 Markdown 文件

    微博热搜榜python爬虫,仅供学习交流 源码及注释: # -*- coding=UTF-8 -*- #!usr/bin/env pythonimport os import time import ...

  8. 从零到一学爬虫-爬取微博热搜示例

    爬取微博热搜榜-简单示例 使用爬虫模拟浏览器向微博热搜的服务器发送请求,得到响应,然后将响应的信息进行打印. 当我们直接打开浏览器,输入https://s.weibo.com/top/summary, ...

  9. Python网络爬虫之爬取微博热搜

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

最新文章

  1. window路径和linux路径变换,从linux样式路径转换时,Docker装入的卷将; C添加到Windows路径的末尾...
  2. WCF服务编程(4):《WCF服务编程》第3版中文版翻译结束,即将出版
  3. iOS 获取屏幕最上层window以及响应者
  4. oracle 内置函数(三)日期函数
  5. Java实现大数乘法_java实现大数加法、乘法(BigDecimal)
  6. 末端物流 | 快递驿站的产品逻辑
  7. Gauss-Newton算法学习
  8. android filehelper,为AndroidStudio开发mvp插件(MvpHelper)
  9. golang 复制对象的正确做法
  10. java harris corner_Harris Corner Detection
  11. 三十、在实践中培养和选拔干部(第1版)
  12. 2022年中科院信工所考研杂记
  13. Cosmos 是什么? 一文了解Cosmos的来龙去脉
  14. 重庆小飞龙前端第一天----了解html
  15. c/s模型和b/s模型
  16. 地质灾害防治网格化管理平台
  17. https请求连接超时
  18. 每日站立会议个人博客(冲刺周)-Saturday
  19. VMware安装win10系统的心路历程
  20. php shao.dll,修复phpshao.dll

热门文章

  1. phpstudy php+apache 环境PHP多版本环境配置
  2. Android Studio做登录界面
  3. iOS开发中plist文件的创建与简单读取
  4. 大学生电子设计竞赛总结
  5. 概念模型 - Conceptual Data Model
  6. 用java定义中国象棋的棋子_中国象棋棋子定义代码java
  7. 2022年cfa一级二级三级网课资源
  8. 【正点原子FPGA连载】 第一章 MPSoC简介 摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0
  9. 江苏省苏州市工业园与市区医保公积金合并线上操作指南
  10. OID夯实数据基础 保障数据安全 王希平教授受聘为圣笛数控专家顾问委员会委员