Python爬取新浪微博实时热搜榜、名人热搜榜、热点热搜榜和潮流热搜榜四大板块。这些板块都是不需要登录的,所以爬起来还是比较简单的。不过频繁的爬取会出现验证码。

作用爬取四大榜单的关键词和热搜指数并存到excel里。

下面上代码:

#coding=utf8

import requests

import re

import xlrd

import xlwt

import time

from bs4 import BeautifulSoup

myfile=xlwt.Workbook()

table1=myfile.add_sheet(u"实时热搜榜",cell_overwrite_ok=True)

table1.write(0,0,u"热搜关键词")

table1.write(0,1,u"热搜指数")

table2=myfile.add_sheet(u"热点热搜榜",cell_overwrite_ok=True)

table2.write(0,0,u"热搜关键词")

table2.write(0,1,u"热搜指数")

table3=myfile.add_sheet(u"名人热搜榜",cell_overwrite_ok=True)

table3.write(0,0,u"热搜关键词")

table3.write(0,1,u"热搜指数")

table4=myfile.add_sheet(u"潮流热搜榜",cell_overwrite_ok=True)

table4.write(0,0,u"热搜关键词")

table4.write(0,1,u"热搜指数")

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers = { 'User-Agent' : user_agent }

#print soup.prettify()

class sousuo():

def __init__(self,url,table):

self.url=url

self.table=table

def chaxun(self):

url = self.url

r=requests.get(url,headers=headers)

html=r.text

soup=BeautifulSoup(html)

#print soup.prettify()

#获取热搜名称

i=1

for tag in soup.find_all(href=re.compile("Refer=top"),target="_blank"):

if tag.string is not None:

print tag.string

self.table.write(i,0,tag.string)

i+=1

#获取热搜关注数

j=1

for tag in soup.find_all(class_="star_num"):

if tag.string is not None:

print tag.string

self.table.write(j,1,tag.string)

j+=1

s1=sousuo('http://s.weibo.com/top/summary?cate=realtimehot',table1)

s1.chaxun()

s2=sousuo('http://s.weibo.com/top/summary?cate=total&key=all',table2)

s2.chaxun()

s3=sousuo('http://s.weibo.com/top/summary?cate=total&key=person',table3)

s3.chaxun()

s4=sousuo('http://s.weibo.com/top/summary?cate=total&key=films',table4)

s4.chaxun()

filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"weibo.xlsx"

myfile.save(filename)

print u"完成%s的微博热搜备份"%time.strftime('%Y%m%d%H%M%S',time.localtime())

python爬去新浪微博_Python爬取新浪微博热搜榜相关推荐

  1. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  2. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

  3. c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜

    本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

  4. 爬虫—爬取微博热搜榜

    1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...

  5. 爬取某热搜榜,headers添加Cookie应对反爬

    今天利用xpath爬取某热搜榜相关数据.首先导入相关模块,设定url和请求头,获取html字符串. from lxml import etree import requests import char ...

  6. 新浪微博被约谈下架“热搜榜”事件舆情监测报告

    27日,网信办约谈新浪微博引发热议, 网页相关舆情信息数量较多 艾媒大数据舆情监控系统数据显示,自1月27日,北京互联网信息办公室官方微信公众号发出了公告:"北京市网信办依法约谈新浪微博 热 ...

  7. python根据关键字爬取微博_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  8. python爬取微博热搜_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  9. Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜. 热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的 ...

  10. python爬取微博热搜榜教程,python爬取微博热搜并存入表格

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

最新文章

  1. 华为路由器qos car+nat+dhcp+vlan配置心得
  2. UML 类图. 对象图. 接口图. 用例图 .包,参与者. 依赖关系. 泛化/继承关系. 关联关系 .聚合/聚集关系. 实现关系 组合关系。
  3. First iOS App_Troubleshooting and Reviewing the Code
  4. SAP-PM 的工具管理篇
  5. python批量处理txt_浅谈Python批处理文件夹中的txt文件
  6. STL迭代器iterator
  7. QuartusII-项目工程的时序仿真
  8. html5漂亮的登录与注册界面设计,翻转式用户登录注册界面设计
  9. F轮融资3.6亿美元,Keep能撑起20亿美元的估值吗?
  10. Typora中插入分页符
  11. 不用计算机做客户画像,描绘客户画像(有电脑的同学可做,完成加平时分2分)...
  12. 全新织梦DEDE CMS模板-精仿qq技术导航网站源码
  13. Android自定义实现九宫格抽奖功能
  14. .net core 使用阿波罗配置中心
  15. maven仓库的优先级,profile的优先级
  16. 搞笑决战水源之巅收藏六 师傅
  17. Azure 进阶攻略 | 上云后的系统,「门禁」制度又该如何实现?
  18. LaTeX公式编辑和希腊字母
  19. linux安装php-java-bridge
  20. 大二JavaWeb课程设计——图书管理系统(可以很好的应付老师的作业)

热门文章

  1. android 6.0 讯飞TTS
  2. 影子系统PowerShadow v2.6.0511中文破解版
  3. java ajax教程_JAVA AJAX教程第一章—初识AJAX
  4. 如何用photoshop做24色环_PS色相环制作方法和教程
  5. MarkDown学习手册
  6. 智能音箱中采用的数字音频功放
  7. 编译 libstring.so lib库 libstring.c libstring.h makefile
  8. SwiftUI HealthKit 基础教程
  9. sqlite3数据库-常用命令
  10. 基于时空图卷积网络预测交通流