Python微博奔驰事件爬虫

工具：Pycharm，Win10，Python3.6.4

最近奔驰漏油事件成为大家讨论的热点，也频上热搜。我就来做了一下微博评论爬虫，看看大家对这件事情的看法。

微博移动端相对好爬一些，且评论数据差不多，所以我们主要是针对微博移动端进行信息采集。

我们打开网址看到如下信息

评论量还是挺多的，所以我们要先获取该微博的链接，然后通过该微博去获取评论页。可以看到微博是动态加载的，你不断往下翻就会有新的微博内容出现，此时我们应该考虑是动态加载

可以看到每次会产生10条微博数据，我们要获取这10条数据中的idstr去构造每条微博的详情链接。

找到了我们要的idstr之后我们观察微博详情链接的网页规则发现https://m.weibo.cn/detail/+idstr，详情页有着这样的规则，那么对我们来说很容易构造。有了详情页链接我们就要获取详情页中的微博内容和评论数据。通过分析发现微博内容实在详情页的源码中，这个很好获取。但是微博内容常常带着超链接，这影响数据的实用性，我们需要用一个正则去匹配中文内容。评论内容同样是动态加载，注意，我这边只考虑一级评论。

在获取评论的时候有个注意点，评论不像我们之前我们所接触的翻页，直接page加一就能获取下一页的评论内容，他是在上一页的评论中有一个id，然后通过这个id去构造下一页的评论页，如此往复。

下面贴出代码

import requests
import json
import re
import csv
import timeheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','cookie':'换上自己的cookie',
}def get_html(url):response = requests.get(url, headers=headers)response.encoding = response.apparent_encodinghtml = response.textreturn htmldef parse_index_html(html):html = json.loads(html)idstr = []for i in html['data']['cards'][0]['card_group']:idstr.append(i['mblog']['idstr'])return idstrdef parse_detail_html(html):text_pattern = re.compile('"text":(.*?)"textLength"', re.S)text = re.findall(text_pattern, html)text_process_pattern = re.compile('[\u4e00-\u9fa5|，、“”‘’：！~@#￥【】*（）——+。；？]+', re.S)text_process = re.findall(text_process_pattern, text[0])text = ''.join(text_process)return str('内容') + textdef parse_comment_html(html):html = json.loads(html)comments = []max_id = html['data']['max_id']# print(max_id)for i in html['data']['data']:text_process_pattern = re.compile('[\u4e00-\u9fa5|，、“”‘’：！~@#￥【】*（）——+。；？]+', re.S)text_process = re.findall(text_process_pattern, i['text'])text = ''.join(text_process)write2csv(text)# comments.append(text)return max_iddef write2csv(content):with open('info1.csv','a',encoding='utf-8-sig',newline='') as f:writer = csv.writer(f)writer.writerow([content])
if __name__ == '__main__':max_id = '0'for page in range(2,10):print('第几页 '+str(page))url = 'https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D60%26q%3D%23%E5%A5%94%E9%A9%B0%E5%A5%B3%E8%BD%A6%E4%B8%BB%E5%93%AD%E8%AF%89%E7%BB%B4%E6%9D%83%23%26t%3D0&page_type=searchall&page='+str(page)index_html = get_html(url)idstr = parse_index_html(index_html)for id in idstr:print('内容ID '+str(id))detail_text_url = 'https://m.weibo.cn/detail/' + str(id)detail_html = get_html(detail_text_url)text = parse_detail_html(detail_html)write2csv(text)for i in range(5):try:time.sleep(3)print('评论页码 '+str(i))# 'https://m.weibo.cn/comments/hotflow?id=4362541104634930&mid=4362541104634930&max_id_type=0'comment_url = 'https://m.weibo.cn/comments/hotflow?id=' + str(id) + '&mid=' + str(id) + '&max_id=' + str(max_id) + '&max_id_type=0'print(comment_url)comment_html = get_html(comment_url)# print(comment_html)max_id = parse_comment_html(comment_html)print('max_id '+str(max_id))if str(max_id) == '0':breakexcept:continue

Python 微博奔驰事件爬虫相关推荐

python线程监控配置文件_一日一技：Python多线程的事件监控
一日一技:Python多线程的事件监控设想这样一个场景: 你创建了10个子线程,每个子线程分别爬一个网站,一开始所有子线程都是阻塞等待.一旦某个事件发生:例如有人在网页上点了一个按钮,或者某人在命令 ...
微博热点事件背后数据库运维的“功守道”
作者 | 张冬洪责编 | 仲培艺 [导语] 微博拥有超过3.76亿月活用户,是当前社会热点事件传播的主要平台.而热点事件往往具有不可预测性和突发性,较短时间内可能带来流量的翻倍增长,甚至更大.如何快 ...
Python 实现简单的爬虫
Python 是一种跨平台的计算机程序设计语言,面向对象动态类型语言,Python是纯粹的自由软件,源代码和解释器cpython遵循 GPL(GNU General Public License)协议 ...
python很全的爬虫入门教程
python很全的爬虫入门教程一.爬虫前的准备工作首先,我们要知道什么是爬虫 1.什么是网络爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁 ...
python 微博自动点赞软件_Python微博工具人，每日一句英语自动发
原标题:Python微博工具人,每日一句英语自动发关注来源 | 萝卜大杂烩(ID:luobodazahui) 如若转载请联系原公众号最近在研究用 Python 来制作各个类别的机器人,今天先来分 ...
python微博评论情感分析_基于Python的微博情感分析系统设计
2019 年第 6 期信息与电脑 China Computer & Communication 软件开发与应用基于 Python 的微博情感分析系统设计王欣周文龙 (武汉工程大学邮电 ...
【期刊】基于 Python 的新浪微博数据爬虫
来源:Journal of Computer Applications 作者:周中华,张惠然,谢江 0 引言计算机技术的进步使人们的生活方式逐渐发生改变,社交网络就是一个非常突出的例子.越来越多 ...
python微博文本分析_基于Python的微博情感分析系统设计
基于 Python 的微博情感分析系统设计王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...
Python之Selenium自动化爬虫
文章目录 Python之Selenium自动化爬虫 0.介绍 1.安装 2.下载浏览器驱动 3.实例 4.开启无头模式 5.保存页面截图 6.模拟输入和点击 a.根据文本值查找节点 b.获取当前节点的 ...

Python 微博奔驰事件爬虫

Python微博奔驰事件爬虫

Python 微博奔驰事件爬虫相关推荐

最新文章

热门文章