爬取微博热搜

import schedule
import pandas as pd
from datetime import datetime
import requests
from bs4 import BeautifulSoupurl = "https://s.weibo.com/top/summary?cate=realtimehot&sudaref=s.weibo.com&display=0&retcode=6102"
get_info_dict = {}
count = 0def main():global url, get_info_dict, countget_info_list = []print("正在爬取数据~~~")html = requests.get(url).textsoup = BeautifulSoup(html, 'lxml')for tr in soup.find_all(name='tr', class_=''):get_info = get_info_dict.copy()get_info['title'] = tr.find(class_='td-02').find(name='a').texttry:get_info['num'] = eval(tr.find(class_='td-02').find(name='span').text)except AttributeError:get_info['num'] = Noneget_info['time'] = datetime.now().strftime("%Y/%m/%d %H:%M")get_info_list.append(get_info)get_info_list = get_info_list[1:16]df = pd.DataFrame(get_info_list)if count == 0:df.to_csv('datas.csv', mode='a+', index=False, encoding='gbk')count += 1else:df.to_csv('datas.csv', mode='a+', index=False, header=False, encoding='gbk')# 定时爬虫
schedule.every(1).minutes.do(main)while True:schedule.run_pending()

pyecharts数据分析

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar, Timeline, Grid
from pyecharts.globals import ThemeType, CurrentConfigdf = pd.read_csv('datas.csv', encoding='gbk')
print(df)
t = Timeline(init_opts=opts.InitOpts(theme=ThemeType.MACARONS))  # 定制主题
for i in range(int(df.shape[0]/15)):bar = (Bar().add_xaxis(list(df['title'][i*15: i*15+15][::-1]))  # x轴数据.add_yaxis('num', list(df['num'][i*15: i*15+15][::-1]))  # y轴数据.reversal_axis()  # 翻转.set_global_opts(  # 全局配置项title_opts=opts.TitleOpts(  # 标题配置项title=f"{list(df['time'])[i * 15]}",pos_right="5%", pos_bottom="15%",title_textstyle_opts=opts.TextStyleOpts(font_family='KaiTi', font_size=24, color='#FF1493')),xaxis_opts=opts.AxisOpts(  # x轴配置项splitline_opts=opts.SplitLineOpts(is_show=True),),yaxis_opts=opts.AxisOpts(  # y轴配置项splitline_opts=opts.SplitLineOpts(is_show=True),axislabel_opts=opts.LabelOpts(color='#DC143C'))).set_series_opts(  # 系列配置项label_opts=opts.LabelOpts(  # 标签配置position="right", color='#9400D3')))grid = (Grid().add(bar, grid_opts=opts.GridOpts(pos_left="24%")))t.add(grid, "")t.add_schema(play_interval=1000,  # 轮播速度is_timeline_show=False,  # 是否显示 timeline 组件is_auto_play=True,  # 是否自动播放)t.render('时间轮播图.html')

利用python爬取微博热搜并进行数据分析相关推荐

  1. 用python爬虫爬微博_利用python爬取微博热搜

    1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box 2.打 ...

  2. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  3. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  4. python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql

    python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...

  5. python爬取微博热搜榜教程,python爬取微博热搜并存入表格

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  6. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

  7. Python爬取微博热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...

  8. python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

    在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...

  9. python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...

    一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...

最新文章

  1. paperclip的id partition功能还是相当的给力,省得我们实现了,这个功能之前连想都没想到,...
  2. Angular ActivatedRouteSnapshot
  3. 开机的时候重新设置密linux管理员的密码
  4. 跟我一起学.NetCore之中间件(Middleware)简介和解析请求管道构建
  5. P4619 [SDOI2018]旧试题
  6. jlink怎么调试linux程序_纯Linux下的 ARM裸机调试环境搭建(GDB + JLink)
  7. [设计模式] ------ 策略模式
  8. 百度推出海外版网盘:竟免费不限速
  9. logistics模型的训练
  10. python无法在终端运行程序_pycharm的Python console不能调试当前程序的解决方案
  11. SAP 批量下载表数据到EXCEL中
  12. Fresco · 基本使用及Gif和webP播放及循环播放详解
  13. Mysql 错误1366, Incorrect string value: '\\xE6\\xB7\\xB1\\xE5\\x85\\xA5...' for column '
  14. poodle attack
  15. 青箬笠,绿蓑衣,斜风细雨不须归
  16. GoLand:Cannot resolve symbol
  17. 2021年化工自动化控制仪表考试题及化工自动化控制仪表考试试卷
  18. iOS控件设置虚线框
  19. Excel2010中安装MegaStat插件 MegaStat for Excel2010(2007也适用)
  20. 安装file sync 工具 出现问题,报错提示点raw.githubusercontent.com

热门文章

  1. python小玩意——星座表程序
  2. 金山发布毒霸V及网镖V新品 坚持高定价策略
  3. ORACLE中CLOB介绍及使用
  4. 项目的本质是信息差,这也是项目成功的终极门道
  5. Hank的无线802.11学习笔记--2
  6. html padding顺序,html中padding用法
  7. NASM: Register 寄存器
  8. 【Altium Designer学习】:排针类元件模型的创建以及阵列式粘贴方法
  9. clock_gettime获取系统时间
  10. Kanzi制作的应用能在鸿蒙系统中运行吗?