文章目录

  • 分析
    • html分析
  • 代码
    • 下包
    • python代码

看系列教程可以进我的个人主页
本教程使用Chrome浏览器

分析

打开热搜网,URL:

https://s.weibo.com/top/summary?cate=realtimehot

F12搜索:

每条都在tbody标签下

html分析

  • 找到tbody下每个tr标签(第一个排除)

    • tr标签内的class为td-02的td标签存放热搜标题
    • tr标签内的class为td-02的td标签内span标签存放热搜热度

代码

下包

pip install requests
pip install beautifulsoup4
pip install retry

python代码

import retry
import requests
from bs4 import BeautifulSoup
@retry.retry()  # 使用retry(因为我的老请求错误)
def hot_search(headers=None, parser='html.parser', encoding='utf-8'):url = 'https://s.weibo.com/top/summary?cate=realtimehot'if headers is None:headers = {'User-Agent': ('Mozilla/5.0 (Windows NT 10.0; WOW64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/75.0.3770.100 Safari/537.36')}  # 伪装请求头response = requests.get(url, headers=headers)  # 请求response.encoding = encodingsoup = BeautifulSoup(response.text, parser)  # beautifulsoup解析div = soup.find('div', attrs={'class': 'm-main'})div = div.find('div', attrs={'class': 'data'})table = div.find('table')tbody = table.find('tbody')items = tbody.find_all('tr')    hots = []numbers = []for index, tr in enumerate(items):if index == 0:continuetd = tr.find('td', attrs={'class': 'td-02'})  # 获取class为td-02的tda = td.find('a')span = td.find('span')hots.append(a.string)numbers.append(int(span.string))    return hots, numbers

结果:

(['侯志慧夺下第二金', '王璐瑶仍是浙江了不起的姑娘', '看侯志慧拿起保温杯就知道稳了', '吴京是东京奥运会场外最忙的人', '杨倩摘得东京奥运首金', '侯志慧格局', '王霜打入女足东京奥运首球', '奥运会金牌 保研', '侯志慧闻风油精 东方的神秘力量', '比利时举重选手哭了', '江浙沪连发196个气象灾害预警', '杨倩回应比心', '侯志慧举起94公斤妈妈爆哭', '教练说没考虑破纪录', '南京三次核酸呈阴性可恢复绿码', '杨洋恭喜杨倩夺冠', '许佳琪洗肥肠洗到上头', '朱亚文易烊千玺中国医生花絮', '奥运冠军说生娃后武功全废', '妈妈说杨倩还是大学生要努力学习', '奥运会金牌都是黄金做的吗', '贵人鸟 捐款', '王霜帽子戏法', '吴静钰无缘四强', '鸿星尔克7月23日销量增长超52倍', 'iPhone13进入量产备货期', '郑州7名牺牲党员干部名单公布', '南京新冠肺炎感染者增至53例', '洛阳第一时间修复龙门石窟', '许海峰说中国队YYDS', '杨倩为祖国送上了最好的礼物', '北京极端通勤人口比重最高', '救灾英雄买饼付钱大姐霸气拒收', '背奶妈妈有多难', '东京奥运会首次出现完赛选手确诊新冠', '中国女足丢球', '天龙山佛首回归山西故土', '萧山河道水流湍急漫出河道', '云南一停泊船倾覆3人失联', '熊猫队长奥运加油表情包', '抗洪官兵完成护堤任务夜间无声撤离', '淇县两水库即将大流量泄洪', '医美投诉量5年间增长近14倍', '群众站在洪水中为抗洪官兵当路标', '直升机空投物资驰援新乡', '郑州地铁救人医生被爸爸手拉手接走', '2021中国主要城市通勤报告', 'BBC 造谣', '6岁男孩14天挣108元捐给河南', '庞伟获得10米气手枪铜牌'], [6677204, 5148744, 2177428, 2124133, 2051133, 1855390, 1795134, 1719456, 1507188, 1470746, 1337964, 1317019, 1090828, 1069861, 998924, 974399, 963423, 949322, 945517, 934910, 923993, 923190, 914640, 881314, 870413, 864819, 784078, 739133, 738295, 734824, 733925, 731229, 729227, 726197, 723934, 722858, 719218, 718704, 715441, 714119, 712110, 709242, 706367, 703756, 703016, 700199, 697297, 696893, 696082, 696079])

python 爬取热搜网教程 (上)相关推荐

  1. python 爬取热搜网教程 (下)

    看系列教程可以进我的个人主页 本教程使用pyecharts可视化: pip install pyecharts def show(hot_search_data: tuple, save_path=' ...

  2. Python爬取热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天,你又是如何 ...

  3. 关于Python爬取热搜的另一种方法

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.BeautifulSoup是什么? 二.使用步骤 1.引入库 2.读入数据 总结 前言 本文主要介绍使用Beaut ...

  4. python爬取热搜神器

    代码部分 编辑于2020/3/29 步骤是:从热搜神器上获取数据,此时数据是有很多无用信息的(比如一些超链接),对数据进行处理,导出到excel. ** 获取数据** 使用的是requests包,先定 ...

  5. Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘

    更多详情请查看Honker Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘 给大家推荐一款超好用的壁纸下载网站-- wallhaven 第一次知道这个网站的时候,惊为天 ...

  6. 用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件

    转自丘壑博客,转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...

  7. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  8. python 爬取https://wall.alphacoders.com上的壁纸(入门级别)

    python 爬取https://wall.alphacoders.com上的壁纸 0,环境 python3.7 库:requests,BeautifulSoup4 1,目标 https://wall ...

  9. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  10. 粉丝让我爬取热搜话题,结果做成了实时热搜『跑马灯』可视化

    大家好,我是阿辰. PS:(这里跟读者说一下,以后本公众号推文更新时间段是13:00~14:00,默认是13:00) 之前有粉丝让我爬取网上热搜话题,根据粉丝的这个提议,我想到了爬取不同平台的热搜话题 ...

最新文章

  1. api.dll自己的理解
  2. ubuntu 修改environment导致无法启动
  3. 将大型项目从Ant迁移到Maven
  4. Matplotlib - 散点图 scatter() 所有用法详解
  5. c 修改mysql数据库_c 修改mysql数据库
  6. linux的idle命令,DBA 常用Linux命令
  7. 学习JDK源码(一):String
  8. 【linux C】C语言中常用的几个函数的总结【二】
  9. php和python-一个身居中国的法国程序员谈Python与PHP
  10. 写一简单kernel心得
  11. Centos7/8 Oracle11g R2 图形化部署
  12. 一个有意思的VMP破解 旺旺吧上网经营管理系统
  13. Arduino基础入门篇(认识开发板和面包板)
  14. Hexo+next主题配置踩的坑
  15. Linux截图和屏幕视频录制软工具Kazam使用攻略
  16. CSS模块化基本思想
  17. 新东方托福词汇(List 36 ~ List 40)
  18. Ubuntu-18.04安装
  19. MySQL DBA必读:万字归总表设计与SQL编写技巧
  20. ansible第一次使用模块报错

热门文章

  1. 简述RAID 0,1,5,10区别
  2. cdrx8如何批量导出jpg_Coreldraw/CDR X8 存低版本打开问题 – 数码打印破图 – Coreldraw/CDR软件崩溃 – 渐变导位图角度变了...
  3. matlab菲涅尔衍射光强分布,矩孔菲涅耳衍射的光强分布.pdf
  4. linux spyder 安装,Python开发环境Spyder安装方法(示例代码)
  5. WIN10下的ios开发
  6. 解扩matlab,(完整版)BPSK调制的MATLAB仿真
  7. 基于SSM 的图书馆管理系统
  8. AMS1117-3.3电源芯片损坏分析
  9. css如何修改行内样式
  10. 利用oc门或od门实现线与_TTL,CMOS,OC门,OD门的理解