Weibo_Hot_Search

都说互联网人的记忆只有七秒钟,可我却想记录下这七秒钟的记忆。

项目已部署在服务器,会在每天的上午 11 点和晚上11 点定时爬取微博的热搜榜内容,保存为 Markdown 文件格式,然后上传备份到 GitHub 你可以随意下载查看。

不要问我为什么选择 11 这两个时间点,因为个人总感觉这两个时间点左右会有大事件发生。

不管微博热搜上是家事国事天下事,亦或是娱乐八卦是非事,我只是想忠实的记录下来...

运行环境

Python 3.0 +

pip install requests

pip install lxml

pip install bs4

或者执行

pip install -r requirements.txt

进行安装运行所需的环境

运行

请确保你已准备好所需的运行环境

运行方法(任选一种)

在仓库目录下运行 weibo_Hot_Search_bs4.py(新增) 或 weibo_Hot_Search.py

在cmd中执行 python weibo_Hot_Search_bs4.py(新增) 或 python weibo_Hot_Search.py

自动运行:利用 Windows 或 Linux 的任务计划程序实现即可

scrapy版本运行

项目的结构如下

>├── hotweibo

│   ├── __init__.py

│   ├── items.py

│   ├── middlewares.py

│   ├── pipelines.py

│   ├── __pycache__

│   │   ├── __init__.cpython-38.pyc

│   │   ├── items.cpython-38.pyc

│   │   ├── pipelines.cpython-38.pyc

│   │   └── settings.cpython-38.pyc

│   ├── settings.py

│   ├── spiders

│   │   ├── hot.py

│   │   ├── __init__.py

│   │   └── __pycache__

│   │   ├── hot.cpython-38.pyc

│   │   └── __init__.cpython-38.pyc

│   └── TimedTask.py # 可以运行此文件直接启动爬虫

└── scrapy.cfg

请确保准备好 MongoDB 环境和 Scrapy 环境

推荐使用 Docker 安装 MongoDB

数据库和集合不需要预先创建

TimedTask.py 用于执行定时爬取,默认为每分钟爬取一次

在linux下可以在TimedTask脚本所在目录执行

nohup python Timer.py >/dev/null 2>&1 &

具体用法可参考这里

生成文件

运行结束后会在当前文件夹下生成以时间命名的文件夹,如下:

2019年11月08日

并且会生成以具体小时为单位的具体时间命名的 Markdown 文件,如下:

2019年11月08日23点.md

接口来源

更新日志

2020年08月08日:

1.将原有保存的 Markdown 文件数据进行整理,保存至新开仓库 weibo_Hot_Search_Data 此仓库以后用作代码更新及保存,不再在此存放数据内容。

声明

本项目的所有数据来源均来自 新浪微博 数据内容及其解释权归新浪微博所有。

License

GNU General Public License v3.0

python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。...相关推荐

  1. python每天定时爬取微博热搜并保存到本地(表格、数据库)

    微博热搜网站:https://s.weibo.com/top/summary/ 就是这个样子: pyquery提取: 保险起见headers里加个UA- from pyquery import PyQ ...

  2. 使用 Nodejs 实现定时爬取微博热搜榜

    The summer is coming " 我知道,那些夏天,就像青春一样回不来.- 宋冬野 青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 看完本文的收获 ctrl + c ctr ...

  3. python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

    在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...

  4. Python爬取微博热搜并定时发送邮件,及时了解最新动态!

    一.前言 微博热搜榜每天都会更新一些新鲜事,但是自己处于各种原因,肯定不能时刻关注着微博,为了与时代接轨,接受最新资讯,就寻思着用Python写个定时爬取微博热搜的并且发送QQ邮件的程序,这样每天可以 ...

  5. 爬取微博实时热搜数据可视化分析

    文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...

  6. python微博爬虫实战_爬虫实战(一):爬取微博用户信息

    前言 最近做课设,是一个有关个人隐私安全的课题,在网上找了很多论文,最后上海交通大学的一篇硕士论文<面向社会工程学的SNS分析和挖掘>[1] 给了我很多灵感,因为是对个人隐私安全进行评估, ...

  7. python爬取微博数据存入数据库_python爬取微博并且存入数据库

    由于平时喜欢刷微博,追星,所以写了想要写一个爬取微博的爬虫,在老师的建议下选择从移动端爬取,因为移动端页面元素简洁,易于爬取.在看微博时发现有比移动端更加简单的一个版本....老年机版?就是分页式的. ...

  8. 围观微博网友发起的美胸比赛学习爬取微博评论内容

    网友:看看胸 女:滚 网友:美胸比赛 女:[图片消息] ​​​​ 继上次知乎话题 拥有一副好身材是怎样的体验? 解析了知乎回答内容之后,这次我们来解析一下微博内容,以微博网友发起的美胸大赛为例: ht ...

  9. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  10. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

最新文章

  1. 【基本常识1】图像处理opencv
  2. linux-awk的简单应用
  3. acmug 2016 mysql年会_2017年第2次MariaDB开发者大会(深圳,中国)相关安排
  4. webpack.config.js====插件purifycss-webpack,提炼css文件
  5. Spring JTA multiple resource transactions in Tomcat with Atomikos example--转载
  6. c语言二维数组参数传入,C语言二维数组、参数传递的理解
  7. 微云存照片会变模糊吗_手机自带微云台防抖,VivoX50系列不一般
  8. 10.15. TUI
  9. vs2017可以写python_『vs python 使用教程』怎么用VS2017写一个最简单的Python程序,比如hello world?...
  10. .NET :在Visual Studio的不同Tab之间切换
  11. python pandas 之drop()函数
  12. 谈谈如何正确的送领土
  13. DXperience-7.1.1 Sources 源代下载
  14. 安卓12使用VNET免ROOT抓包微信小程序
  15. 小程序获取微信运动步数
  16. JVM(四)--垃圾收集器
  17. 如何规划局域网IP地址
  18. php验证码无法验证问题,php无法显示验证码
  19. 基于R语言的聚类分析(k-means,层次聚类)
  20. 群晖NAS误删30T数据成功恢复全过程

热门文章

  1. 装饰模式【设计模式学习-03】
  2. java的英文文献综述_java英文参考文献.doc
  3. linux下分析prn文件,Linux文件的管理
  4. PDF文件在线合并如何操作
  5. 【预测模型】基于麻雀算法改进ELMAN神经网络实现数据预测 matlab代码
  6. 迅雷Chrome插件引发的Uncaught ReferenceError: xl_chrome_menu is not defined
  7. 未找到uniwebview_UniWebView.dll
  8. BubbleSort C#
  9. handwritten dataset手写体数据集(IAM,RIMES,CVL)
  10. ToStringBuilder学习