hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中。
开始学习吧!

学习目录

  • 1. 数据包抓取
  • 2. 编写代码

1. 数据包抓取

打开CSDN首页,再打开检查(或为审查元素,各大浏览器不同,笔者用的是FireFox浏览器),点击“网络”(或是Network),再点击搜索框,可以看到出现了4个请求:
经过分析,发现网址为:

https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word?channel_name=pc_hot_word&size=10&user_name=wangzirui32&platform=pc&imei=10_19279376140-1610717024696-925673

返回的数据为:
看来,这就是热搜数据的原地址,但是,我们先不着急编写代码,前面说了url是很长的,但是我们可以删减url参数,毕竟有些url的参数是用来迷惑各位爬虫程序员的,删减后的url为:

https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word?size=10

看见没,url只剩下了一个参数,不仅降低了编写网页参数字典的难度,还可以控制爬取热搜的数量(size参数),岂不妙哉!

2. 编写代码

import requests
from fake_useragent import UserAgent"""
fake_useragent库安装:pip install fake-useragent
fake_useragent库是用来生成请求头中的User-Agent信息
"""headers = {"User-Agent": UserAgent().random,"Host": "silkroad.csdn.net",
}url = "https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word"params = {"size": "10",
}
print("获取数据...")
r = requests.get(url, params=params, headers=headers)print("解析数据...")
json_data = r.json()['data']['items']hot_content_list = []# 从json数据中提取热搜内容并存储到列表中
for i in json_data:hot_content = i["productId"]hot_content_list.append(hot_content)print("保存数据...")
with open("CSDN-Hot.txt", "w") as f:num = 1 # 序号for i in hot_content_list:f.write(str(num) + " " + i + "\n")num += 1print("爬取结束!热搜数据已经保存到CSDN-Hot.txt文件中!")

运行代码,打开CSDN-Hot.txt文件,可以看到:

1 QQ读取用户浏览记录
2 SQL注入漏洞防护
3 程序员离职小技巧
4 2021美赛数学建模
5 linux命令行大全
6 python新手练习题
7 高质量自学网站
8 eclipse安装教程
9 Linux常用命令大全
10 机器学习

好了,今天的课程就到这里,感兴趣的可以点个赞和收藏,我们下次再见!

Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中相关推荐

  1. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  2. python网络爬虫-爬取虎扑步行街数据

    前言 由于虎扑页面的限制,因为访问虎扑步行街的第11个页面就需要用户进行登录,鉴于此时技术还没有学全,只能爬取1到10的页面. 抓取什么数据 帖子名称 帖子链接 发帖人 发帖人链接 发帖时间 帖子回复 ...

  3. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

  4. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  5. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  6. python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  7. Python:网络爬虫爬取某表情包网站

    Python:网络爬虫爬取某表情包网站 参考: 爬虫基础知识点汇总(html文件基础和4个常用库 超级详细长文预警) [爬虫教程]吐血整理,最详细的爬虫入门教程~ HTML的简单介绍 HTML的全称为 ...

  8. Python网络爬虫爬取虎扑步行街爆照区话题

    Python网络爬虫爬取虎扑步行街爆照区话题 作者:郜科科 最近的任务挺多的,但是心情很烦躁,想做一些自己喜欢的东西,前些时候感觉Python爬虫很好玩,就自学了一下.本人比较喜欢逛街--虎扑步行街, ...

  9. 用python网络爬虫爬取英雄联盟英雄图片

    用python爬虫爬取lol皮肤. 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时学了下就一直放在这儿,现在又才拿出来,再加上马上要考二级挺忙的.),代码基本上是没改, ...

最新文章

  1. Python 修改终端输入字体颜色值
  2. SAP ABAP常用正则表达式大全
  3. linux可以生成pdb调试信息吗,Linux通过使用pdb简单调试python计划
  4. python items() 函数的使用(一分钟读懂)
  5. PHP的单引号和双引号
  6. docker的核心原理-cgroup
  7. cocos2d-x 源码分析 总目录
  8. java合并多个Excel文件
  9. mysql实现分组查询每个班级的前三名、每门课程的前三名
  10. 如何使用hMailServer+云服务器搭建个人邮箱
  11. 英语十大词性之四 - 副词
  12. android der 编码,关于android:使用现有DER / PEM密钥的Javascript中的RSA加密
  13. 假如有这样一种生活……
  14. 怎么提高编程能力?逻辑思维能力?
  15. 通信科技人员职业道德
  16. 软件中的banner是什么意思??
  17. 一本通 1335:【例2-4】连通块
  18. 在 Jupyter Notebook 中使用R语言
  19. model.predict_classes(test) 和model.predict(test) 区别
  20. 三节课产品经理P1 学习总结

热门文章

  1. 笔记本安装固态涉及到的注意事项
  2. MSHR(Miss Status Handling Register)
  3. 这可能是史上最好用的PickerView库了
  4. echarts模拟迁徙图
  5. 【MySQL综合练习1】
  6. 使用Gitmoji进行git commit的快速查阅指南
  7. Andriod 电池检测NTC电阻值的软件设定
  8. iOS 作为蓝牙外设广播信息
  9. jsp页面的iframe的用法
  10. Matlab绘图------特殊图形------直方图