Python爬取0复仇者联盟3:无限战争0评论并写入Excel
由漫威电影公司出品的科幻电影<复仇者联盟3:无限战争>,于2018年5月11日在中国大陆上映,得到了观众的广泛好评,今天我们一起来看看网友们看完后的心得.
下面是爬取到的部分数据:
下面是完整代码:
环境:Python3.6
import requests
import re
import time
import os
import xlsxwriter# 用于记录写入数据的条数
data_cursor = 1# 创建工作文件
def write_data():# 删除文件if os.path.exists('./复仇者联盟3评论信息.xlsx'):os.remove('复仇者联盟3评论信息.xlsx')# 创建工作文件workbooke = xlsxwriter.Workbook('复仇者联盟3评论信息.xlsx')# 创建工作表worksheet = workbooke.add_worksheet()# 写标题worksheet.write(0, 0, '是否有用')worksheet.write(0, 1, '是否看过')worksheet.write(0, 2, '作者')worksheet.write(0, 3, '时间')worksheet.write(0, 4, '内容')return workbooke, worksheetdef main():global data_cursortry:page_num = int(input("请输入页数:"))# 创建excel文件workbooke, worksheet = write_data()for page in range(page_num):# 评论url地址# url = "https://movie.douban.com/subject/4920389/comments?start=" + str(# page * 20) + "&limit=20&sort=new_score&status=P&percent_type="url = "https://movie.douban.com/subject/24773958/comments?start=" + str(page * 20) + "&limit=20&sort=new_score&status=P&percent_type="# 获取网页源代码html = requests.get(url)html.encoding = 'utf-8'html = html.text# 正则匹配得到需要的数据result = re.findall(r'<a href="javascript:;" class="j a_show_login" onclick="">(.*?)</a>'r'.*?<a href="https://www.douban.com/.*?" class="">(.*?)</a>'r'.*?<span>(.*?)</span>'r'.*?<span class="comment-time " title="(.*?)">.*?</span>'r'.*?<p class=""> (.*?)</p>',html, re.S)# print(result, len(result))for index, item in enumerate(result):# 用用 作者 看过 时间 评论内容# print(item[0], item[1], item[2], item[3], item[4].strip(''))# 写入数据worksheet.write(data_cursor, 0, item[0])worksheet.write(data_cursor, 1, item[2])worksheet.write(data_cursor, 2, item[1])worksheet.write(data_cursor, 3, item[3])worksheet.write(data_cursor, 4, item[4])data_cursor += 1print('第{}页完成...'.format(page + 1))# 每一页之间间隔1秒time.sleep(1)except Exception as e:print(e)finally:# 关闭文件对象workbooke.close()if __name__ == '__main__':main()
Python爬取0复仇者联盟3:无限战争0评论并写入Excel相关推荐
- Python爬取京东书籍信息(包括书籍评论数、简介等)
Python爬取京东书籍信息(包括书籍评论数.简介等) 一. 工具 二. 准备爬取的数据 三. 内容简述 四. 页面分析 (一) 寻找目录中商品所在标签 (二) 寻找页面中能爬取到的所有数据 (三) ...
- Python爬取京东iphone8的异步加载评论
运行环境 Python 3.X 寻找评论信息地址 我们打开京东商城,搜索iphone8 iphone8虽然买不起,但是看看也欢迎 我们点击进去查看详情 往下翻,找到商品评价,点击 不仅有评论,而且还有 ...
- 使用Python爬取中国Mooc网讨论区内所有评论
最近受朋友委托,写了一个爬取中国Mooc往讨论区所有评论的程序 ,他需要这些数据写论文. 如下: 他需要爬取这些板块里所有的评论. 俗话说的好 六月七月爬虫热 因为这段时间许多的大学生都毕业了 特此写 ...
- 超细致通用,python爬取豆瓣游戏短评——以王者荣耀评论为例
超细致通用,爬取豆瓣游戏短评--以王者荣耀评论为例 写在前面 一.介绍 二.步骤 1.观察 1.1网页结构 1.2网页层次逻辑 2.准备 2.1引入库 2.2获取html文件并且解析 3.选取 3.1 ...
- Python爬取笔趣阁小说2.0版
之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...
- 用python爬取《龙岭迷窟》评论,看看比同系列鬼吹灯作品以及《盗墓笔记》好在哪里?
大家好,我是朱小五 最近不知道大家发现没有,新出了几部国产好剧,其中小五比较喜欢的就是鬼吹灯系列的<龙岭迷窟>. 自从开播以来,获得好评无数,豆瓣评分开播8.4分,目前有所回落,维持在8. ...
- 用python爬取《龙岭迷窟》评论,看看比同系列鬼吹灯作品以及《盗墓笔记》好在哪里?...
作者:朱小五 来源:凹凸数据 最近不知道大家发现没有,新出了几部国产好剧,其中小五比较喜欢的就是鬼吹灯系列的<龙岭迷窟>. 自从开播以来,获得好评无数,豆瓣评分开播8. ...
- 用python爬取《龙岭迷窟》评论,制作词云,看看与《盗墓笔记》的区别在哪里
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...
- Python爬取网易云音乐1万条评论
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 ...
- Python爬取网易云音乐1万条评论,感受到疫情下的真情
一.前言 昨天打开网易云音乐被这条视频刷屏了⬇️ 致敬所有疫情前线的工作人员!music.163.com 1600万+的播放量,1.3万+的评论 那么今天我们用python看看这些评论里留下了哪些感 ...
最新文章
- Oracle技术之实例恢复的顺序
- ELK:kibana使用的lucene查询语法
- MyBatis 实践
- 了解关联、聚合和组合
- php查询ip归属地api接口_【php】利用新浪api接口与php获取远程数据的方法,获取IP地址,并获取相应的IP归属地...
- 【世间万象】五甲万科董事长孙凯歌:五甲有红旗情节
- 【1、雅思听力】何琼雅思听力最新版必考词汇
- Python | Path 让文件路径提取变得简单(含代码)
- 油田智能化远程监控系统_油田远程无线监控系统
- ETL工具kettle实现数据同步
- xss--跨站脚本攻击
- Smartbi电子表格创建查询条件
- 建设智慧城市和智慧园区的必要性和趋势是什么?
- mac连接android手机存储,Android安卓设备连接Mac的方法
- win10照片应用打不开的解决方法
- AS 5637.1跟AS 3837是什么关系?
- 模型量化论文阅读#1----综述:A Survey of Quantization Methods for Efficient Neural Network Inference
- LeNet实现手写数字识别
- 孤尽班第22天 -- 系统安全规约
- 2011年11月1日(梁)