Python爬取新浪微博实时热搜榜、名人热搜榜、热点热搜榜和潮流热搜榜四大板块。这些板块都是不需要登录的,所以爬起来还是比较简单的。不过频繁的爬取会出现验证码。

作用爬取四大榜单的关键词和热搜指数并存到excel里。

下面上代码:

#coding=utf8
import requests
import re
import xlrd
import xlwt
import time
from bs4 import BeautifulSoup
myfile=xlwt.Workbook()
table1=myfile.add_sheet(u"实时热搜榜",cell_overwrite_ok=True)
table1.write(0,0,u"热搜关键词")
table1.write(0,1,u"热搜指数")table2=myfile.add_sheet(u"热点热搜榜",cell_overwrite_ok=True)
table2.write(0,0,u"热搜关键词")
table2.write(0,1,u"热搜指数")table3=myfile.add_sheet(u"名人热搜榜",cell_overwrite_ok=True)
table3.write(0,0,u"热搜关键词")
table3.write(0,1,u"热搜指数")table4=myfile.add_sheet(u"潮流热搜榜",cell_overwrite_ok=True)
table4.write(0,0,u"热搜关键词")
table4.write(0,1,u"热搜指数")user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
#print soup.prettify()
class sousuo():def __init__(self,url,table):self.url=urlself.table=tabledef chaxun(self):url = self.urlr=requests.get(url,headers=headers)html=r.textsoup=BeautifulSoup(html)#print soup.prettify()#获取热搜名称i=1for tag in soup.find_all(href=re.compile("Refer=top"),target="_blank"):if tag.string is not None:print tag.stringself.table.write(i,0,tag.string)i+=1#获取热搜关注数j=1for tag in soup.find_all(class_="star_num"):if tag.string is not None:print tag.stringself.table.write(j,1,tag.string)j+=1s1=sousuo('http://s.weibo.com/top/summary?cate=realtimehot',table1)
s1.chaxun()
s2=sousuo('http://s.weibo.com/top/summary?cate=total&key=all',table2)
s2.chaxun()
s3=sousuo('http://s.weibo.com/top/summary?cate=total&key=person',table3)
s3.chaxun()
s4=sousuo('http://s.weibo.com/top/summary?cate=total&key=films',table4)
s4.chaxun()
filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"weibo.xlsx"
myfile.save(filename)
print u"完成%s的微博热搜备份"%time.strftime('%Y%m%d%H%M%S',time.localtime())

Python爬取新浪微博热搜榜相关推荐

  1. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  2. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

  3. python爬取微博热搜榜教程,python爬取微博热搜并存入表格

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  4. python爬取微博热搜显示到折线图_Python爬取新浪微博热搜榜-Go语言中文社区

    我们如何爬取这50条热搜呢?今天写一个简单的方法供感兴趣的朋友们参考! 引用库: requests json lxml.etree bs4.BeautifulSoup引用方法如下: 如果没有下载的需要 ...

  5. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

  6. python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...

    一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...

  7. c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜

    本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

  8. 爬取新浪微博热搜排行

    爬取新浪微博热搜排行 1.1 爬虫基本原理解析 什么是爬虫 通过编写程序模拟浏览器上网 在互联网抓取数据的过程 分类 通用爬虫 搜索引擎用的爬虫系统 尽可能把互联网的所有网页下载 放到本地服务器形成备 ...

  9. 爬虫—爬取微博热搜榜

    1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...

最新文章

  1. Engineering:王军和张发明组发表人体肠道菌群的原位重建及昼夜节律的研究
  2. 找到一本不错的Linux电子书,附《Linux就该这么学》章节目录
  3. 在C#中使用XML指南之读取XML
  4. vlc集成c#_C# Winform开发程序调用VLC播放器控件播放视频.
  5. pytorch 冻结层操作 + 学习率超参数设置
  6. Android4.0.3 USB OTG底层插入上报过程分析(1)
  7. 微软宣布推出Windows Embedded Compact 2013正式版
  8. was、ihs、 mq、 db2的版本查询
  9. GeneralUpdate实现应用程序更新
  10. 在 Gitee 上使用 GPG公钥(Beta版)
  11. linux协议栈劫持,Linux系统优化之TCP协议栈优化-基本篇1
  12. 靠打麻将赢来800万!开家烂店天天跟顾客对着干,年赚569亿!
  13. Codejock 19.x 定制Crack Version
  14. 定制ATP-EMTP电力系统仿真模型程序修改代做
  15. 【Java】使用ScriptEngine动态执行代码(附Java几种动态执行代码比较)
  16. Jenkins骚操作第十三章之基于Kubernetes/K8S构建Jenkins持续集成平台(上)
  17. android 小米imei 空,[教程]小米2s IMEI刷机造成的丢失 恢复及写入教程 【申精】
  18. 传智播客asp.net基础视频免费分享
  19. Python html.parser库学习小结
  20. C语言编程我爱你心形,用c语言写出变色的心形图案

热门文章

  1. WORD中如何删除掉某几页的页眉和页脚
  2. 2021年复旦大学961真题回顾
  3. 一切还算顺利,远方的你还好吗?
  4. mui框架手机端APP开发
  5. 深入浅出ES6:模板字符串(`和‘)
  6. 蒲公英企服平台对话奈学教育CEO孙玄——旨在让每一个人都有逆袭的机会。
  7. Split()拆分字符串与StringTokenizer拆分字符串
  8. Collider组件与Rigidbody组件杂谈
  9. Hank的无线802.11学习笔记--part 1
  10. 2020宁波市多校赛训练biu~