Python实现微博热搜推送

一. 写在前面的话

最近项目忙得差不多了，要开始准备毕业论文了，所以我想把一些国外论文的pdf，以及一些英语相关的新闻推送到我的pad上面，这样就不用到处找了，直接保存就行。当然不能光看论文啊，也要放松一下啊（说实话，纯英文的文章很枯燥）。然后就想到把微博热搜也顺便推送到我的邮箱里面，好了废话不多说了，代码敲起（

）

二. 抓取微博热搜首页

进入热搜首页，只有10条阅读量最高的微博，我们就是要把标题和链接抓取，最后写成html的格式发给邮箱，让邮箱里面可以点击。如果你用Python的requests库去请求，你会发现返回的html里面body是空的，没错就是空的。这里会有一个bug，新浪并没有把网页的源码直接返回给你，而是把源码放到了<script>标签里，我猜他这么做也是为了防爬。我们看看倒数第二个<script>标签会发现里面几乎是一个字典数据，里面有一个html的key，我们只要将它取出来再去解析，基本就ok了。

具体的抓取规则见下：我已经写了注释，这里用的是requests和xpath，个人感觉xpath比较好用，最后我只用了标题和链接。

三. 邮箱配置以及发送邮件

这里我用的是QQ邮箱，我们去邮箱的设置里面打开SMTP服务就可以了，开启成功后会给你一个授权码，这个授权码就相当于我们邮箱的密码，一定要保存好。具体操作如下：

1. 进入邮箱的设置界面

2. 点击“账户”这个tab，然后去打开SMTP服务

然后我们就可以使用SMTP服务了，下面开始写发邮件的函数：

四. 定时获取热搜并发送

我们可以用一个定时器Timer，让它在后台自己运行，比如每隔半个小时就去发一次邮件，当然时间我们可以自己定。也可以设定多个联系人，推送到多个邮箱。

五. 最后效果以及代码

我们可以直接点击进入热搜的详情界面，效果如下：

具体代码如下：

import requests
from lxml import etree
import json
from email.message import Message
import smtplib
from threading import Timerclass Weibo:# 初始化 （发件人邮箱，发件人邮箱密码，收件人邮箱）def __init__(self, sender, password, receiver):self.sender = senderself.password = passwordself.receiver = receiver      # 处理爬取的信息def handle(self):url = 'http://s.weibo.com/top/summary?cate=homepage'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.5; rv:10.0.1) Gecko/20100101 Firefox/10.0.1 SeaMonkey/2.7.1'}response = requests.get(url, headers=headers)result = response.texthtml = etree.HTML(result)# html内容content = html.xpath('//script/text()')[-2]# 得到网页的字典数据,利用json解析start = content.find('(')substr = content[start+1:-1]dict_data = json.loads(substr)# 解析出来的html数据html_data = etree.HTML(dict_data['html'])# 热搜榜排名order = html_data.xpath('//tr/td[1]/span/em/text()')# 热搜榜标题title = html_data.xpath('//tr/td[2]/div/p/a/text()')# 热搜榜链接url = html_data.xpath('//tr/td[2]/div/p/a/@href')# 热搜榜访问量view = html_data.xpath('//tr/td[3]/p/span/text()')return title, url# 发送邮件，这里直接用html方式发送def sendEmail(self):t, u = self.handle()html_content = '''<html><body><a href=" ''' + 'http://s.weibo.com' + u[0] + ' ">' + t[0] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[1] + ' ">' + t[1] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[2] + ' ">' + t[2] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[3] + ' ">' + t[3] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[4] + ' ">' + t[4] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[5] + ' ">' + t[5] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[6] + ' ">' + t[6] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[7] + ' ">' + t[7] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[8] + ' ">' + t[8] + '''</a></p><br><a href=" ''' + 'http://s.weibo.com' + u[9] + ' ">' + t[9] + '''</a></p><br></body></html>'''msg = Message()# 邮件标题msg['Subject'] = '微博实时热搜'# 邮件发送者msg['From'] = self.sender# 邮件接受者msg['To'] = self.receiver# 邮件内容格式msg.set_type('text/html')# 邮件内容msg.set_payload(html_content, 'utf-8')try:smtp = smtplib.SMTP_SSL('smtp.qq.com', 465)smtp.login(self.sender, self.password)smtp.sendmail(self.sender, self.receiver, msg.as_string())smtp.quit()print('发送成功！')except smtplib.SMTPException:print('发送失败')# 每隔半小时发送邮件（定时任务）def run_task(self):self.sendEmail()task = Timer(1800, self.run_task)task.start()      if __name__ == '__main__':w = Weibo('你的QQ邮箱', '授权码', '接受者邮箱')task = Timer(1, w.run_task)task.start()

六. 结束语

学习Python已经有大半年了，总是想用来做点什么，随着越来越深入，不得不说我爱Python，真的很强大。大家可以用这个给自己喜欢的男神或者女神推送一些感兴趣的东西，或者去了解他们的一些东西推送到自己邮箱里，哈哈。