python爬取微博热搜神器，微博历史数据

步骤是：从热搜神器上获取数据，此时数据是有很多无用信息的（比如一些超链接），对数据进行处理，导出到excel。

网址为：https://weibo.zhaoyizhe.com

** 获取数据**
使用的是requests包，先定义对目标网站访问时发出的请求中包含的部分信息，包括url，headers等，以下省去了与本机相关的信息，这些在浏览器中可以查看。

# 调用要使用的包
from datetime import datetime,timedelta
import re
from openpyxl import Workbook
import requestsworkbook = Workbook()
url = 'https://weibo.zhaoyizhe.com'
headers = {'User-agent':'*****',"Cookie":"*****","Connection":"close"}
proxies = {"http": "47.1.40.143:16819"}#获取要爬取的日期列表
def gen_dates(b_date, days):day = timedelta(days=1)for i in range(days):yield b_date + day*i
def get_date_list():"""获取日期列表:param start: 开始日期:param end: 结束日期:return:"""start = datetime.strptime("2019-12-31", "%Y-%m-%d").date()#.date()可以只截取日期end = datetime.now().date()datelist = []for d in gen_dates(start, (end-start).days):datelist.append(d)return datelist#获取数据的文字部分（热搜词条）
def GetMiddleStr(content,startStr,endStr):patternStr = r'%s(.+?)%s'%(startStr,endStr)p = re.compile(patternStr,re.IGNORECASE)m= re.match(p,content)if m:return m.group(1)#导出数据到excel
def export(result_list):excel = open('微博热搜历史备用.xlsx', 'w', encoding='gbk')for a in result_list:excel.write(a.replace(u'\xa0', u' '))excel.write('\n')excel.close()#两个循环，外层是日期，内层是热搜
i = 0
j = 0
#存储结果的列表
final_list = []while i<len(get_date_list()):date_str = str(get_date_list()[i].year)+'/'+str(get_date_list()[i].month)+'/'+str(get_date_list()[i].day)data = {'type': 'realTimeHotSearchList','t': '1513e084','accessToken': 'HYfcS6EQ3JyJCSxU6P/erLIm4qbIxRCEInE6RIr4TnHJtYG0F2ZOCqIjuWiQkhLjXVPYoQPGUKlpyvVfg==','date': date_str}r = requests.get(url, proxies=proxies, headers=headers)# 发送post请求r = requests.post(url, data=data, headers=headers)result = r.content.decode('utf-8')print(i)#获取到的字符串进行分片，此时result由一长串字符串变成列表result = result.split('},{')#去除首部两个字符以便后面的正则匹配result[0] = result[0].strip('[{')j = 0while j<len(result):final_list.append(GetMiddleStr(result[j], '"keyword":"','","url"'))j+=1i+=1
export(final_list)

python爬取微博热搜神器，微博历史数据相关推荐

Python爬取新浪微博热搜榜
Python爬取新浪微博实时热搜榜.名人热搜榜.热点热搜榜和潮流热搜榜四大板块.这些板块都是不需要登录的,所以爬起来还是比较简单的.不过频繁的爬取会出现验证码. 作用爬取四大榜单的关键词和热搜指数并存 ...
php采集百度热搜,python 爬取百度热搜
###导入模块 import requests from lxml import etree import requests,json ###网址 url="http://top.baidu ...
Python爬虫爬取新浪微博热搜
Python爬虫爬取新浪微博热搜文章目录 Python爬虫爬取新浪微博热搜网页分析数据爬取数据存储全部代码网页分析找到热搜的排名,标题和热度,发现它们在同一路径数据爬取 impor ...
Python网络爬虫：爬取CSDN热搜数据并保存到本地文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取打开CS ...
python爬取百度标题_Python爬取百度热搜和数据处理
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取百度热搜 2.主题式网络爬虫爬取的内容与数据特征分析:百度热搜排行,标题,热度 3.主题式网络爬虫设计方案概述:先搜索网站,查找数据并比对然后再 ...
爬取新浪微博热搜排行
爬取新浪微博热搜排行 1.1 爬虫基本原理解析什么是爬虫通过编写程序模拟浏览器上网在互联网抓取数据的过程分类通用爬虫搜索引擎用的爬虫系统尽可能把互联网的所有网页下载放到本地服务器形成备 ...
Python爬取豆瓣热映电影
Python爬取豆瓣热映电影 # encoding: utf-8import requests from lxml import etree# 1. 将目标网站上的页面抓取下来 headers = { ...
爬取某热搜榜，headers添加Cookie应对反爬
今天利用xpath爬取某热搜榜相关数据.首先导入相关模块,设定url和请求头,获取html字符串. from lxml import etree import requests import char ...
Python爬虫与信息提取（五）爬虫实例：爬取新浪微博热搜排名
经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果: 2.制作过程中遇到的问题: (1)一开始研究微博热搜页面的源代码时忽略了<tbod ...

python爬取微博热搜神器，微博历史数据

python爬取微博热搜神器，微博历史数据相关推荐

最新文章

热门文章