作者:长行

时间:2020.05.25

实现目标

本案例通过图文详细介绍网络请求和解析的方法,其目标实现的需求为:通过网络请求,获取微博热搜榜中的前50条热搜的关键词,并将结果打印到控制台中。

实现过程

总体来说,数据采集爬虫的实现过程包括如下步骤:

  • 确定数据所在的Url
  • 执行网页请求并解决请求中出现的问题
  • 解析网页,获取格式化数据
  • 存储数据(当前案例中不需要)

下面我们按着以上步骤来依次完成。

确定数据所在Url

打开微博热搜榜,即Url为:https://s.weibo.com/top/summary

首先,我们需要判断目标数据是存在于页面上,还是通过Ajax加载的。我们可以在浏览器(建议使用Chrome浏览器)中右键,选择“查看网页源代码”。

此时浏览器会打开新的页面,其Url(网页地址)前增加了view-source部分,在网页中显示的关键词就是当前网页的源代码。

我们使用快捷键Ctrl+F打开搜索框,在网页源代码中搜索热搜榜页面上显示的文字,例如热搜排名第一的”北宋古墓发现过仙桥“,可以发现网页源代码中存在该关键词,这就说明热搜榜是直接加载在页面中,而不是通过Ajax加载的,此时我们只要直接请求网页的Url即可获得热搜榜数据。

网页请求

下面我们使用requests模块执行网页请求,并打印请求的结果,其代码如下:

import requestsif __name__ == "__main__":response = requests.get("https://s.weibo.com/top/summary")print(response.content.decode())

在打印出的内容中,我们再一次通过搜索找到了”北宋古墓发现过仙桥“,说明我们的请求成功获得了热搜榜数据,并没有出现任何问题。

网页解析

再次回到浏览器,右键,选择“检查”,打开浏览器控制台(或直接使用快捷键F12也可以打开控制台)。

选中元素选取工具。

在元素选取模式下(元素选取工具的小箭头为蓝色),点击我们需要采集的信息。

此时,浏览器控制台将定位到目标信息所在的标签。

我们在该标签上右键,选择“Copy“,再选择”Copy Selector“,复制标签的CSS Selector路径,这个路径是用来定位到当前标签的。例如,第一条热搜关键词所在标签的CSS Selector为:

#pl_top_realtimehot > table > tbody > tr:nth-child(2) > td.td-02 > a

其中#pl_top_realtimehot表示ID为pl_top_realtimehot的标签,即下图中第一行的div标签;> table表示当前标签下一层的table标签,即下图中第二行的table标签;tr:nth-child(2)表示当前标签下的第二个tr标签,即下图中被选中的tr标签。

通过对于网络结构的观察,我们可以发现每条热搜都是tbody标签下的一个独立的tr标签;因此,要同时获取不同热搜的关键词,我们只需要不再限制指定的tr标签即可,即将CSS selector路径中tr:nth-child(2)中的:nth-child(2)删除即可。

#pl_top_realtimehot > table > tbody > tr > td.td-02 > a

在浏览器控制台的Elements标签中,使用Ctrl+F快捷键打开搜索框,在搜索框中搜索修改后的CSS Selector路径,可以得到51个结果,说明修改后的CSS Selector已经可以同时匹配所有热搜的关键词了。

下面我们使用Python的第三方模块——BeautifulSoup模块(pip安装命令 : pip install BeautifulSoup4)实现解析,包含请求的代码如下:

import requests
from bs4 import BeautifulSoupif __name__ == "__main__":response = requests.get("https://s.weibo.com/top/summary")bs = BeautifulSoup(response.content.decode(), 'lxml')for keyword_label in bs.select("#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"):print(keyword_label.text)

运行结果已经可以将所有热搜打印到控制台中,实现了当前需求。

10个关键词把握2020中国经济走势
北宋古墓发现过仙桥
香港各界发起联署支持国家安全立法
马路惊现非洲雄狮
澳门所有大中小学升国旗唱国歌全覆盖
......

本系列案例采集的一切数据仅可用于学习、研究用途!

对于案例需求的说明 : 因此微博热搜榜是实时更新的,所以一个相对完整的采集需求如下:每3分钟采集一次微博热搜榜中的前49条热搜(忽略第3条的广告信息),并将结果存储到数据库中,数据库应至少包含采集时间、排名(rank)、关键词(keyword)、热度(hot)、类型(type)等字段。完整案例将在后续内容中讲解。

对于案例讲解的说明 : 作为第一个案例,本文通过图文详细讲解了每一个步骤,后续的案例将以讲解思路为主。

Python数据采集案例(1):微博热搜榜采集相关推荐

  1. c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜

    本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

  2. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  3. python热搜排行功能_用Python做一个微博热搜榜的语音播报

    微博是一个社交平台,有高效的信息流,几乎所有人能在这上面找到自己感兴趣的内容.经常使用微博的小伙伴,大家对微博热搜榜应该都不会很陌生.每天发生了什么新闻呢,谁谁谁又上热搜了. 在这个信息社会,每天发生 ...

  4. python热搜排行功能_手把手教你用Python+Pyecharts让微博热搜榜动起来

    今天教大家如何用pyecharts制作微博热搜榜动态展示视频,先上视频看看效果: 教程主要有2部分: 一是python爬取微博热搜内容 二是用pyecharts制作动态视频 下面给大家详细介绍一下 一 ...

  5. Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜. 热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的 ...

  6. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

  7. python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...

    一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...

  8. python微博涨粉_如何用 Python 让微博热搜榜动起来

    今天教大家如何用 Pyecharts 制作微博热搜榜动态展示视频 先上视频看看效果: 教程主要有2部分: 一是 Python 爬取微博热搜内容 二是用 pyecharts 制作动态视频 下面给大家详细 ...

  9. python热搜排行功能_摸鱼神器——使用Python自制微博热搜榜

    呀呀呀呀呀~今天的小分享貌似只通过新浪微博涉猎热点...于是我就在想,如果大家上班摸鱼[先声明,我从不摸鱼!],又不方便打开新浪那么大的logo界面八卦,就可以通过命令行一键实时观察我们的热搜榜.嘻嘻 ...

最新文章

  1. Java项目:家居购物商城系统(java+html+jdbc+mysql)
  2. DBSCAN的两个核心参数是什么?如何获取最佳参数?如何可视化获取的过程?
  3. WebService调用(基于KSOAP2)
  4. 华为鸿蒙系统强势来袭,呼之欲出的华为神作——鸿蒙2.0 强势来袭
  5. Linux 本地密码正确无法登录,记一次无法正常本地登陆Linux服务器(确定密码正确)...
  6. jboss架构_检查Red Hat JBoss BRMS部署架构的规则和事件(第二部分)
  7. 明白了为什么java方法上面为什么要加个@符号
  8. 【sql那些事】时间处理的一揽子事
  9. avast从隔离区恢复后,仍无法打开被误杀文件的解决方案
  10. JavaScript基础之'script'Tag的使用
  11. Java程序员月薪三万,需要技术达到什么水平?
  12. 【Oracle】分区表中索引状态为N/A
  13. NYOJ 608 508筹划工程 HDU 1232 畅通工程
  14. 还不知道切图吗,工作实战手把手教你PS切图,0基础轻松掌握
  15. js学习小计5-零宽断言
  16. VS Code 基础入门使用(配置)教程
  17. 有意思的文章 - 语音相关 - list
  18. 简体繁体转换JS(JavaScript)脚本
  19. php implode explode,[PHP源码阅读]explode和implode函数
  20. 七个最佳 GitHub 代码库,让你成为更好的 JavaScript 程序员

热门文章

  1. 趣玩网 爬虫开发笔记
  2. 高德地图628一元购狂欢节——O2O 不是说说而已
  3. 谷歌L3到L7扎堆升职,股票refresh多过别人年薪!
  4. 【Matlab】用程序制作简单音乐
  5. FinClip 2021 年 12 月产品大事记
  6. android小米手机拍照功能介绍,小米手机使用手册
  7. C#,使用office组件Microsoft.Office.Interop.Word,将网页内容下载为word的demo及权限配置要点。
  8. JavaScript的起源故事
  9. Qt Xlsx使用教程、Qt操作Excel、Qt生成Excel图表、跨平台不依赖Office
  10. ubuntu18.04安装vim