由漫威电影公司出品的科幻电影<复仇者联盟3:无限战争>,于2018年5月11日在中国大陆上映,得到了观众的广泛好评,今天我们一起来看看网友们看完后的心得.

下面是爬取到的部分数据:

下面是完整代码:

环境:Python3.6

import requests
import re
import time
import os
import xlsxwriter# 用于记录写入数据的条数
data_cursor = 1# 创建工作文件
def write_data():# 删除文件if os.path.exists('./复仇者联盟3评论信息.xlsx'):os.remove('复仇者联盟3评论信息.xlsx')# 创建工作文件workbooke = xlsxwriter.Workbook('复仇者联盟3评论信息.xlsx')# 创建工作表worksheet = workbooke.add_worksheet()# 写标题worksheet.write(0, 0, '是否有用')worksheet.write(0, 1, '是否看过')worksheet.write(0, 2, '作者')worksheet.write(0, 3, '时间')worksheet.write(0, 4, '内容')return workbooke, worksheetdef main():global data_cursortry:page_num = int(input("请输入页数:"))# 创建excel文件workbooke, worksheet = write_data()for page in range(page_num):# 评论url地址# url = "https://movie.douban.com/subject/4920389/comments?start=" + str(#     page * 20) + "&limit=20&sort=new_score&status=P&percent_type="url = "https://movie.douban.com/subject/24773958/comments?start=" + str(page * 20) + "&limit=20&sort=new_score&status=P&percent_type="# 获取网页源代码html = requests.get(url)html.encoding = 'utf-8'html = html.text# 正则匹配得到需要的数据result = re.findall(r'<a href="javascript:;" class="j a_show_login" onclick="">(.*?)</a>'r'.*?<a href="https://www.douban.com/.*?" class="">(.*?)</a>'r'.*?<span>(.*?)</span>'r'.*?<span class="comment-time " title="(.*?)">.*?</span>'r'.*?<p class=""> (.*?)</p>',html, re.S)# print(result, len(result))for index, item in enumerate(result):#       用用      作者      看过      时间      评论内容# print(item[0], item[1], item[2], item[3], item[4].strip(''))# 写入数据worksheet.write(data_cursor, 0, item[0])worksheet.write(data_cursor, 1, item[2])worksheet.write(data_cursor, 2, item[1])worksheet.write(data_cursor, 3, item[3])worksheet.write(data_cursor, 4, item[4])data_cursor += 1print('第{}页完成...'.format(page + 1))# 每一页之间间隔1秒time.sleep(1)except Exception as e:print(e)finally:# 关闭文件对象workbooke.close()if __name__ == '__main__':main()

Python爬取0复仇者联盟3:无限战争0评论并写入Excel相关推荐

  1. Python爬取京东书籍信息(包括书籍评论数、简介等)

    Python爬取京东书籍信息(包括书籍评论数.简介等) 一. 工具 二. 准备爬取的数据 三. 内容简述 四. 页面分析 (一) 寻找目录中商品所在标签 (二) 寻找页面中能爬取到的所有数据 (三) ...

  2. Python爬取京东iphone8的异步加载评论

    运行环境 Python 3.X 寻找评论信息地址 我们打开京东商城,搜索iphone8 iphone8虽然买不起,但是看看也欢迎 我们点击进去查看详情 往下翻,找到商品评价,点击 不仅有评论,而且还有 ...

  3. 使用Python爬取中国Mooc网讨论区内所有评论

    最近受朋友委托,写了一个爬取中国Mooc往讨论区所有评论的程序 ,他需要这些数据写论文. 如下: 他需要爬取这些板块里所有的评论. 俗话说的好 六月七月爬虫热 因为这段时间许多的大学生都毕业了 特此写 ...

  4. 超细致通用,python爬取豆瓣游戏短评——以王者荣耀评论为例

    超细致通用,爬取豆瓣游戏短评--以王者荣耀评论为例 写在前面 一.介绍 二.步骤 1.观察 1.1网页结构 1.2网页层次逻辑 2.准备 2.1引入库 2.2获取html文件并且解析 3.选取 3.1 ...

  5. Python爬取笔趣阁小说2.0版

    之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...

  6. 用python爬取《龙岭迷窟》评论,看看比同系列鬼吹灯作品以及《盗墓笔记》好在哪里?

    大家好,我是朱小五 最近不知道大家发现没有,新出了几部国产好剧,其中小五比较喜欢的就是鬼吹灯系列的<龙岭迷窟>. 自从开播以来,获得好评无数,豆瓣评分开播8.4分,目前有所回落,维持在8. ...

  7. 用python爬取《龙岭迷窟》评论,看看比同系列鬼吹灯作品以及《盗墓笔记》好在哪里?...

         作者:朱小五      来源:凹凸数据 最近不知道大家发现没有,新出了几部国产好剧,其中小五比较喜欢的就是鬼吹灯系列的<龙岭迷窟>. 自从开播以来,获得好评无数,豆瓣评分开播8. ...

  8. 用python爬取《龙岭迷窟》评论,制作词云,看看与《盗墓笔记》的区别在哪里

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  9. Python爬取网易云音乐1万条评论

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 ...

  10. Python爬取网易云音乐1万条评论,感受到疫情下的真情

    一.前言 昨天打开网易云音乐被这条视频刷屏了⬇️ 致敬所有疫情前线的工作人员!​music.163.com 1600万+的播放量,1.3万+的评论 那么今天我们用python看看这些评论里留下了哪些感 ...

最新文章

  1. Oracle技术之实例恢复的顺序
  2. ELK:kibana使用的lucene查询语法
  3. MyBatis 实践
  4. 了解关联、聚合和组合
  5. php查询ip归属地api接口_【php】利用新浪api接口与php获取远程数据的方法,获取IP地址,并获取相应的IP归属地...
  6. 【世间万象】五甲万科董事长孙凯歌:五甲有红旗情节
  7. 【1、雅思听力】何琼雅思听力最新版必考词汇
  8. Python | Path 让文件路径提取变得简单(含代码)
  9. 油田智能化远程监控系统_油田远程无线监控系统
  10. ETL工具kettle实现数据同步
  11. xss--跨站脚本攻击
  12. Smartbi电子表格创建查询条件
  13. 建设智慧城市和智慧园区的必要性和趋势是什么?
  14. mac连接android手机存储,Android安卓设备连接Mac的方法
  15. win10照片应用打不开的解决方法
  16. AS 5637.1跟AS 3837是什么关系?
  17. 模型量化论文阅读#1----综述:A Survey of Quantization Methods for Efficient Neural Network Inference
  18. LeNet实现手写数字识别
  19. 孤尽班第22天 -- 系统安全规约
  20. 2011年11月1日(梁)

热门文章

  1. CSS系列之美化网页/span标签和div标签/字体样式/文本样式
  2. 数学不好,可以当程序员么?
  3. 【安卓笔记】如何设置模拟器的IP
  4. java植物大战僵尸_植物大战僵尸java游戏
  5. 是计算机程序设计语言的是,计算机设计语言
  6. 峰哥教你如何在B站学大数据(建议收藏)
  7. Android 交流分享汇总
  8. 一眼“看穿破绽”,3D视觉成锂电池“智造”降本增效利器
  9. 抖音怎么注销账号?操作流程步骤有哪些?
  10. IEEE期刊LaTeX模板