Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

我们可以看到影评比较长,需要展开才能完整显示。但是在网页源码中是没有显示完整影评的。所以我们考虑到这部分应该是异步加载的方式显示。所以打开网页的开发者选项,可以看到点击展开之后,多了一条full的网页。这个网页就包含了完整评论。
我们观察到全部评论所在的网址为https://movie.douban.com/j/review/9593388/full

获取索引页https://movie.douban.com/review/best/?start=0,索引页只需要改变start=0,20,40即可访问下一页
解析索引页,把索引页中的10个评论的ID获取到
通过获取到的ID构建完整评论网址https://movie.douban.com/j/review/’ + str(id) + '/full
解析评论页,获取评论者姓名和评论内容,写入txt文件
附上源码:

import urllib.request
import re
comment = 'bais.txt'
T='<span content=".*?" class=".*?">.*?</span>'
for i in range(10):print("获取第"+str(i+1)+"页")url = "https://movie.douban.com/subject/30331149/reviews?start="+str(i*20)  # 确定要爬取的入口链接 # 模拟成浏览器并爬取对应的网页 谷歌浏览器headers = {'User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}opener = urllib.request.build_opener()opener.addheaders = [headers]data = opener.open(url).read().decode('utf8')time_pattern = re.compile('<span content=".*?" class=".*?">(.*?)</span>', re.S)time = re.findall(time_pattern, data)id_pattern= re.compile('<h2><a href="https://movie.douban.com/review/(.*?)/', re.S)id= re.findall(id_pattern, data)for j in range(len(id)):html = 'https://movie.douban.com/j/review/' + str(id[j]) + '/full'data = opener.open(html).read().decode('utf8')html = datacontent_pattern = re.compile('data-original(.*?)main-author', re.S)content = re.findall(content_pattern, html)text_pattern = re.compile('[\u4e00-\u9fa5|,、“”‘’:!~@#¥【】*()——+。;?]+', re.S)text = re.findall(text_pattern, content[0])text = ''.join(text)name_pattern = re.compile('data-author=.*?"(.*?)"', re.S)name = re.findall(name_pattern, html)with open(comment, 'a', encoding='utf-8-sig') as f:f.write(name[0].strip('\\') + '\n')f.write(time[j]+'\n')f.write(str(text) + '\n')f.write('\n')f.close()

一个认识的朋友发现了一个地方写错了 现已修改 完全可以使用 原来报错找不到id 是我写错了 现在代码已修正 可以使用

Python爬虫爬取豆瓣电影评论内容,评论时间和评论人相关推荐

  1. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  2. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  3. python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  4. Python爬虫爬取豆瓣电影Top250

    爬虫爬取豆瓣Top250 文章目录 爬虫爬取豆瓣Top250 完整代码 第一步获取整个网页并以html来解析 正则表达式来匹配关键词 所有信息写入列表中 存入Excel中 效果如图 本文学习自B站UP ...

  5. 用Python爬虫爬取豆瓣电影、读书Top250并排序

    更新:已更新豆瓣电影Top250的脚本及网站 概述 经常用豆瓣读书的童鞋应该知道,豆瓣Top250用的是综合排序,除用户评分之外还考虑了很多比如是否畅销.点击量等等,这也就导致了一些近年来评分不高的畅 ...

  6. python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息

    hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...

  7. python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析

    #1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

  8. PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜

    代码前准备: 1.使用Eclipse进行开发,关于eclipse搭建python的环境见:https://www.cnblogs.com/telwanggs/p/7016803.html 2.使用bs ...

  9. php爬虫爬取豆瓣电影top250内容

    查看豆瓣api文档 这是豆瓣开放的api中电影部分的文档 https://developers.douban.com/wiki/?title=movie_v2 我们直接选择top250之后往下翻阅可以 ...

最新文章

  1. 调试模式和定时器,看门狗和嘀嗒定时器
  2. 从CVPR 2013看计算机视觉的研究领域和趋势 [CVPR 2013] Three Trending Computer Vision Research Areas
  3. 搭建K8s集群(平台规划和部署方式介绍)
  4. 一文详解 Prometheus 的高可用方案:Thanos
  5. linux故障排查书籍,Linux系统故障排查和修复技巧.docx
  6. mysql数据库中文乱码解决
  7. 【HAVENT原创】NodeJS 短网址开发(调用第三方接口)
  8. 跟我一起写 Makefile ---转
  9. Python库-pandas详解
  10. PS怎样删除文字成为背景颜色
  11. 腾讯实习生招聘失败经历分享
  12. linux下redis设置密码登录(简单易懂)
  13. 数据挖掘之缺失数据缺失的各种插补算法比较
  14. Holoview--Introduction
  15. (-2147483648 0)?
  16. Oh My Zsh和Oh My Posh
  17. 表达式求值(sscanf用法)(stack练习)(第四届河南省大学生程序设计竞赛)
  18. ts 实现 抓娃娃 状态机
  19. Python常见加密方式总结和实现
  20. 通用预约小程序,可广泛应用于医疗、政务、教育、培训、体育、金融、生活服务等行业领域,基于腾讯小程序云开发,无须服务器和域名

热门文章

  1. 确定性随机数发生器测试向量——DRBG-HASH-SHA1
  2. FR607-ASEMI快恢复二极管FR607
  3. OpenCore关闭开启macOS SIP
  4. 一道题而已 opj 9271
  5. Maching Learning 学习资料
  6. Vue中使用 class 类样式的方式
  7. 小程序新人领取优惠券
  8. html+css商城主页面
  9. 用于ECharts的全国省市区县乡镇街道级的行政区划边界数据(GeoJSON格式)
  10. 【华人学者风采】陈卫 亚洲微软研究院