大家好,我是小小明。

今天大家期待已久的热榜追踪神器上线了,包含历史热榜搜索器和近两日热榜排名等。

历史热榜追踪数据搜索:http://120.78.229.124:8000/static/search.html

热榜涨粉榜top50:http://120.78.229.124:8000/rankfollow/

热榜追踪程序演示

下面我们分别来看看这两个网页:

历史热榜追踪数据搜索

打开网页后界面如下:

该网页默认展示最近上榜的20条数据,我们可以通过搜索找到我们需要的数据。

例如我们想查看昵称中包含java的用户上榜情况,可以再昵称输入框输入java后回车:

可以看到上榜时间,小时数,以及在热榜期间的涨粉量都一目了然。我们可以通过表格组件对查询结果进行二次排序:

这就是按涨粉量排序后的结果。

当前目前我截图的数据热度链接比较长,我目前已经更新按照万为单位保留一位小数进行追加。

还可以搜索近20条标题包含python的上榜数据,多个条件也支持组合查询。

关于排名有一些搜索小技巧,这里的排名是根据排名链接进行搜索的,我们可以根据条件,1,搜索近期上过榜一的文章(不包含仅一上榜就到榜1的):

注意:上榜时长为null表示该条数据当前还在热榜中。

我们还可以通过_搜索上过榜前9的数据:

最后根据日期我们可以搜索指定日期上榜的数据,例如搜索11月4号上过榜前9的数据:

热榜追踪热榜涨粉top50

在另一个页面http://120.78.229.124:8000/rankfollow/则显示今日热榜的涨粉top50:

继续往下划还可以看到昨日热榜涨粉top50:

然后可以看到历史热榜涨粉top50:

目前历史涨粉榜情况不佳是因为数据库重建后,采集程序昨天下午2点才重新启动。再过一星期,相信大家都能看到一个完全不一样的历史涨粉热榜。

最下面还有一个模块近10天上榜次数与涨粉量top50

不过从昨天下午两点到现在还没有人能连续两次上榜,相信过两天后,我们能够看到上榜次数超过2次的用户出现。

热榜追踪程序的开发思路

采集程序开发

相信很多小伙伴更好奇该程序如何开发,那么下面我简单介绍一下该程序的开发思路与代码。

思路:有一个采集程序每小时执行一次,每次执行都获取当前热榜和历史热榜进行差异比较,划分为三类:

  • 同时存在当前热榜和历史热榜中,说明是正在热榜的数据
  • 不在当前热榜均在历史热榜中,说明是已下榜的数据
  • 在当前热榜不在历史热榜中,说明是新上榜的数据

对于这三类数据,有不同的处理策略:

  • 对正在热榜的数据追加更新排名链路和热度链路
  • 对已下榜的数据,根据链接逐条采集当前粉丝数,填入下榜粉丝数字段中;同时根据当前时间更新下榜时间。
  • 对于新上榜的数据,根据当前时间填入上榜时间,采集当前粉丝数填入上榜粉丝数字段中。

对于新上榜的每条数据,使用文章ID作为主键进行存储。

下面是以上思路的完整代码:

from sqlalchemy import create_engine
import pandas as pd
from datetime import datetimefrom check_func import pares_url
from database import databasesuri = f'mysql+pymysql://{databases["USER"]}:{databases["PASSWORD"]}@{databases["HOST"]}:{databases["PORT"]}/{databases["NAME"]}'
engine = create_engine(uri)# 更新当前热榜链条
sql = """UPDATE hot_rank_circle a,(SELECTdistinct n.id,CONCAT(h.`排名链路`,',',n.`排名`) 排名链路,CONCAT(h.`热度链路`,',',ROUND(n.热度/10000,1)) 热度链路
FROM hot_rank n JOIN hot_rank_circle h ON n.id=h.id
WHERE SUBSTRING_INDEX(h.热度链路,',',-1)!=n.热度) b
SET a.排名链路=b.排名链路,a.热度链路=b.热度链路 WHERE a.id=b.id;"""
engine.execute(sql)# 更新下榜时的粉丝数
sql = """SELECT id,链接 FROM hot_rank_circle
WHERE id NOT IN (SELECT DISTINCT id FROM hot_rank)
AND 下榜时间 IS NULL;"""
id2url = pd.read_sql(sql, engine)
if id2url.shape[0] != 0:fan_nums = []for url in id2url.链接.values:data = pares_url(url)# print(url, data)fan_nums.append(data.get('粉丝'))id2url['链接'] = fan_numsid2url.to_sql(name="tmp", con=engine, if_exists="replace", index=False)sql = "UPDATE hot_rank_circle, tmp SET hot_rank_circle.下榜粉丝数=tmp.链接 WHERE hot_rank_circle.id=tmp.id;"engine.execute(sql)# 更新下榜时间
sql = """UPDATE hot_rank_circle SET 下榜时间=NOW()
WHERE id NOT IN (SELECT distinct id FROM hot_rank)
AND 下榜时间 IS NULL;"""
engine.execute(sql)# 增加新上榜数据
sql = """SELECT distinct n.昵称, n.标题, n.链接, n.排名 排名链路, ROUND(n.热度/10000,1) 热度链路
FROM hot_rank n
LEFT JOIN hot_rank_circle h
ON n.id=h.`id`
WHERE h.id IS NULL;"""
hot_rank = pd.read_sql(sql, engine)
idx = hot_rank.链接.apply(lambda s: s[s.rfind("/") + 1:]).astype("int")
hot_rank.insert(0, "id", idx)
# hot_rank.热度链路 = (hot_rank.热度链路 / 10000).round(1)
# date = str(datetime.now())[5:13]
hot_rank["上榜时间"] = datetime.now()
hot_rank["下榜时间"] = None
fan_nums = []
for url in hot_rank.链接.values:data = pares_url(url)# print(url, data)fan_nums.append(data.get('粉丝'))
hot_rank['上榜粉丝数'] = fan_nums
hot_rank['下榜粉丝数'] = None
hot_rank.to_sql(name="hot_rank_circle", con=engine, if_exists="append", index=False)

数据查询页开发

restful接口开发:

def rank_follow_search(request):if request.method == "POST":return HttpResponse("不支持的请求类型")args = []name = request.GET.get("name", "").replace("'", "").replace('"', "").replace(";", "")if name:args.append(f"昵称 LIKE '%%{name}%%'")title = request.GET.get("title", "").replace("'", "").replace('"', "").replace(";", "")if title:args.append(f"标题 LIKE '%%{title}%%'")rank = request.GET.get("rank", "").replace("'", "").replace('"', "").replace(";", "")if rank:args.append(f"排名链路 LIKE '%%{rank}%%'")date = request.GET.get("date", "").replace("'", "").replace('"', "").replace(";", "")if date:args.append(f"上榜时间 LIKE '%%{date}%%'")args = " AND ".join(args)if not args:args = "1=1"# print(args)sql = f"""SELECT 昵称,标题,链接,排名链路,热度链路,SUBSTRING(上榜时间,6,8) 上榜时间,(TO_DAYS(下榜时间)-TO_DAYS(上榜时间))*24+HOUR(下榜时间)-HOUR(上榜时间) 上榜时长,上榜粉丝数,下榜粉丝数-上榜粉丝数 涨粉量 FROM hot_rank_circleWHERE {args}ORDER BY 上榜时间 DESC,上榜粉丝数 DESC LIMIT 20;"""try:df = pd.read_sql(sql, engine)df.fillna("null", inplace=True)return JsonResponse(df.to_dict(orient="records"), safe=False)except Exception as e:return JsonResponse({'status': -1, 'msg': str(e)})

虽然本程序完全无所谓SQL注入,但是防SQL注入还是得养成习惯,这里我就简单粗暴的采用了去掉查询条件中引号和分号来达到防SQL注入的目的。当然这种方法也可能一些特殊的方案防不住,期待大佬们能够指出。

前端展示页开发:

<!DOCTYPE html>
<html lang="zh">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>热榜追踪数据搜索</title><link href="/static/css/bootstrap.min.css" rel="stylesheet"><link rel="stylesheet" type="text/css" href="/static/css/demo.css"><link rel="stylesheet" href="/static/dist/excel-bootstrap-table-filter-style.css"/><script type="text/javascript" src="/static/js/jquery-1.11.0.min.js"></script><script src="/static/js/vue.min.js"></script><script type="text/javascript" src="/static/dist/excel-bootstrap-table-filter-bundle.js"></script>
</head>
<body><div class="container"><div class="row"><div class="col-md-12"><h4>作者主页:<a href='https://xxmdmst.blog.csdn.net/' target="_blank">@小小明-代码实体</a></h4><h2>历史热榜追踪数据搜索</h2><h4>(最大只显示最近上榜的前20条数据,可以通过下面链接查看当前热榜)</h4><h4>数据来源:<a href="/hotrank/all/" target="_blank">全站综合热榜(含热榜标题词云)</a></h4><h4>今日热榜追踪:<a href="/rankfollow/" target="_blank">今日热榜追踪</a></h4><div id="in"><p>昵称:<input id="name">标题:<input id="title"></p><p>排名:<input id="rank">时间:<input id="date"></p></div><p><button id="run">搜索</button></p></div></div><table id="table1" class="table table-bordered table-intel"><thead><tr><th class="no-filter">昵称</th><th class="no-sort no-filter">标题</th><th class="no-sort no-filter">排名链路</th><th class="no-sort no-filter">热度链路</th><th class="no-filter">上榜时间</th><th class="no-filter">上榜时长</th><th class="no-filter">上榜粉丝数</th><th class="no-filter">涨粉量</th></tr></thead><tbody><tr v-for="row in rows"><td>{{ row.昵称 }}</td><td><a href='{{ row.链接 }}' target="_blank">{{ row.标题 }}</a></td><td>{{ row.排名链路 }}</td><td>{{ row.热度链路 }}</td><td>{{ row.上榜时间 }}</td><td>{{ row.上榜时长 }}</td><td>{{ row.上榜粉丝数 }}</td><td>{{ row.涨粉量 }}</td></tr></tbody></table>
</div><script type="text/javascript">$(function () {$('#table1').excelTableFilter({'captions': {a_to_z: '升序排列', z_to_a: '降序排列', search: '搜索', select_all: '全部选择'}});});$(function () {var vm = new Vue({el: '#table1',data: {rows: []}});window.vm = vm;$.get("/api/rank_follow_search/", function (data) {vm.rows = data;});});let func = function () {let name = $('#name').val();let title = $('#title').val();let rank = $('#rank').val();let date = $('#date').val();var url = `/api/rank_follow_search/?name=${name}&title=${title}&rank=${rank}&date=${date}`;console.log(url)$.get(url, function (data) {vm.rows = data;});};$("#in").keypress(function (even) {if (even.which == 13) {func()}});$('#run').click(func);
</script>
</body>
</html>

这里我使用了vue进行数据绑定,这样就可以大幅度简化代码,原本几十行JavaScript代码才是实现的动态数据修改变成了vm.rows = data;这一行。而且HTML部分的代码也变得和后端模板渲染的代码类似,非常方便。

排名页面开发

排名页面的写法比较简单粗暴,直接模板渲染。后端视图代码:

def rank_follow(request):context = {}context["date"] = str(date.today())# 今日涨粉top50sql = """SELECT 昵称,LEFT(标题,40) `标题(最大展示前40字)`,链接,排名链路,热度链路,SUBSTRING(上榜时间,6,8) 上榜时间,(TO_DAYS(下榜时间)-TO_DAYS(上榜时间))*24+HOUR(下榜时间)-HOUR(上榜时间) 上榜时长,上榜粉丝数,下榜粉丝数-上榜粉丝数 涨粉量 FROM hot_rank_circleWHERE TO_DAYS(上榜时间)=TO_DAYS(CURDATE()) AND 下榜时间 IS NOT NULLORDER BY 涨粉量 DESCLIMIT 50;"""df = pd.read_sql(sql, engine)context["today"] = df.values.tolist()# 昨日涨粉top50...# 历史涨粉榜top50...# 近7天上榜次数与涨粉量top50(过滤掉上榜时间低于2小时的数据)sql = """SELECT 昵称,COUNT(标题) `上榜次数`,GROUP_CONCAT(SUBSTRING(上榜时间,6,8)) 上榜时间汇总,GROUP_CONCAT((TO_DAYS(下榜时间)-TO_DAYS(上榜时间))*24+HOUR(下榜时间)-HOUR(上榜时间)) 上榜小时数汇总,MAX(下榜粉丝数)-MIN(上榜粉丝数) 涨粉量FROM hot_rank_circleWHERE (TO_DAYS(下榜时间)-TO_DAYS(上榜时间))*24+HOUR(下榜时间)-HOUR(上榜时间)>2AND TO_DAYS(上榜时间)>=TO_DAYS(DATE_SUB(CURDATE(), INTERVAL 9 DAY)) AND 下榜时间 IS NOT NULLGROUP BY 昵称HAVING COUNT(标题)>1ORDER BY 上榜次数 DESC,涨粉量 DESCLIMIT 50;"""df = pd.read_sql(sql, engine)context["recent"] = df.values.tolist()return render(request, 'rank_follow.html', context)

四个SQL获取了四个部分的数据,然后模块渲染代码大致都是如下格式:

<table id="table1" class="table table-bordered table-intel"><thead><tr><th class="no-filter">昵称</th><th class="no-sort no-filter">标题(最大展示前40字)</th><th class="no-sort no-filter">排名链路</th><th class="no-sort no-filter">热度链路</th><th class="no-filter">上榜时间</th><th class="no-filter">上榜时长</th><th class="no-filter">上榜粉丝数</th><th class="no-filter">涨粉量</th></tr></thead><tbody>{% for obj in today %}<tr><td>{{ obj.0 }}</td><td><a href='{{ obj.2 }}' target="_blank">{{ obj.1 }}</a></td><td>{{ obj.3 }}</td><td>{{ obj.4 }}</td><td>{{ obj.5 }}</td><td>{{ obj.6 }}</td><td>{{ obj.7 }}</td><td>{{ obj.8 }}</td></tr>{% endfor %}</tbody>
</table>

这就是上面程序的完整开发思路和代码。

CSDN热榜排名追踪工具上线,随时查看热榜链路数据相关推荐

  1. Python爬虫与信息提取(五)爬虫实例:爬取新浪微博热搜排名

    经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果: 2.制作过程中遇到的问题: (1)一开始研究微博热搜页面的源代码时忽略了<tbod ...

  2. python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...

    一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...

  3. qt listwidget 关键字颜色_关键字排名优化工具方案

    关键字排名j67745优化工具方案,企业经常采用SEO优化,以获得更好的排名和更好的流量自己的网站.搜索引擎优化有哪些方法?或者什么更有效? 北京seo优化如何稳定网站排名,seo优化首先需要做好内容 ...

  4. Python爬虫与信息提取(八)将新浪热搜排名导入数据库

    python爬取新浪热搜排名并导入数据库 上一篇文章简单介绍了如何使用python爬取新浪微博的热搜排名: 爬虫实例:爬取新浪微博热搜排名 如果了解清楚原理的话是非常容易懂的,但是这样单纯的进行查询结 ...

  5. jaeger,zipkin,datadog,skywalking等分布式追踪工具

    OpenTracing APM全称Application Performance Management应用性能管理,目的是通过各种探针采集数据,收集关键指标,同时搭配数据呈现以实现对应用程序性能管理和 ...

  6. 如何增加自己的文章在csdn的曝光量-参考CSDN博主排名更新公告

    前言 不知不觉已经在CSDN上3年,但是本人也是刚刚在CSDN上创作文章,成为博主没几天,我看了这几天文章的浏览数据不尽人意,时常开始反思是不是自己的文章不够好.毕竟都是理工科出身,文采水平有限,但是 ...

  7. 观其关键字排名查询工具_seo常用工具统计

    网站优化常用工具有哪些? 一般站长都用利用这些工具,可以让你的优化更省时省力,所有工具,用相关的名称,在搜索引擎中均可以搜索得到,这里就不提供下载的链接了. 1. 分析工具 受欢迎的一款网站优化工具, ...

  8. Paimei安装及使用 Paimei---指令追踪工具

    课程需要安装了一整天,在xp里完美使用,所需的支持环境较多,我已经打包好了,需要的可以来下载. 戳这里下载 Paimei---指令追踪工具 指令追踪工具的工作流程: (1)将目标PE文件反汇编,按照指 ...

  9. php 查询数组中某条记录的排名,百度排名查询工具:PHP里的array_search()使用很痛苦...

    为什么写这样1个题目呢.其实最近一直在做一款就这儿工具,就这儿百度收录排名查询工具:http://shoulu.jzask.com/.问题就是在这里产生的的. 这个工具主要2方面的功能.第一,批量查询 ...

最新文章

  1. Spring Security教程 Vol 9. AccessDecisionManager组件介绍
  2. python 打包自己得到的结果
  3. python怎么用圆周率_Python语言中,如何使用圆周率?
  4. Unity3D 异步加载
  5. android微信朋友圈背景图片渐变,【图】怎么生成朋友圈背景?微信朋友圈背景图生成器推荐...
  6. ESP-IDF的下载,设置,编译,烧录和监控
  7. 实战一:爬取拉勾网职位信息
  8. Linux 命令 —— tree
  9. java面向对象-抽象类和接口
  10. ArcGIS地图数据资源
  11. 谷胱甘肽(GSH)修饰的CdTe/CdS量子点(GSH-CdTe/CdSQDs)|PEG修饰水溶性量子点ZnS:Mn
  12. linux可以下编辑器吗,在Ubuntu系统上也可以下载安装深度编辑器
  13. 计算机保存图片找不到桌面,保存的图片在桌面但是找不到怎么办? 爱问知识人...
  14. oracle计算数据导出,oracle 数据导出
  15. 计算机系统讲解(软件设计师考试内容)
  16. 可视化篇:R可视化--迁徙/通勤图
  17. FileManage
  18. 【题解7海亮集训】复赛前夕——day 2 专项练习 搜索
  19. SAP 配置应收应付重分类
  20. 重磅 | 小程序模板消息能力调整,长期性订阅消息终于来了

热门文章

  1. 化妆品和香水玻璃瓶行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  2. 计算机图形学头歌实训平台作业OpenGL立方体三维观察
  3. 计算机报错英语,电脑报错中英文对照
  4. OSG中响应键盘事件
  5. element ui select 远程搜索 选中之后清空输入框
  6. java 分组报表_【Java】分组报表怎么做,积木报表十分钟搞定!
  7. OM:Over-ship Tolerance
  8. Facebook 低调开发 AI 技术工具:自动扫描代码找漏洞
  9. 集简云助力企业实现账务管理数智化,招银云直联无代码对接企业自研系统
  10. mysql中flush什么意思_mysql - Flush语法