Python爬虫爬取豆瓣电影评论内容，评论时间和评论人

我们可以看到影评比较长，需要展开才能完整显示。但是在网页源码中是没有显示完整影评的。所以我们考虑到这部分应该是异步加载的方式显示。所以打开网页的开发者选项，可以看到点击展开之后，多了一条full的网页。这个网页就包含了完整评论。
我们观察到全部评论所在的网址为https://movie.douban.com/j/review/9593388/full

获取索引页https://movie.douban.com/review/best/?start=0，索引页只需要改变start=0,20,40即可访问下一页
解析索引页，把索引页中的10个评论的ID获取到
通过获取到的ID构建完整评论网址https://movie.douban.com/j/review/’ + str(id) + '/full
解析评论页，获取评论者姓名和评论内容，写入txt文件
附上源码：

import urllib.request
import re
comment = 'bais.txt'
T='<span content=".*?" class=".*?">.*?</span>'
for i in range(10):print("获取第"+str(i+1)+"页")url = "https://movie.douban.com/subject/30331149/reviews?start="+str(i*20)  # 确定要爬取的入口链接 # 模拟成浏览器并爬取对应的网页 谷歌浏览器headers = {'User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}opener = urllib.request.build_opener()opener.addheaders = [headers]data = opener.open(url).read().decode('utf8')time_pattern = re.compile('<span content=".*?" class=".*?">(.*?)</span>', re.S)time = re.findall(time_pattern, data)id_pattern= re.compile('<h2><a href="https://movie.douban.com/review/(.*?)/', re.S)id= re.findall(id_pattern, data)for j in range(len(id)):html = 'https://movie.douban.com/j/review/' + str(id[j]) + '/full'data = opener.open(html).read().decode('utf8')html = datacontent_pattern = re.compile('data-original(.*?)main-author', re.S)content = re.findall(content_pattern, html)text_pattern = re.compile('[\u4e00-\u9fa5|，、“”‘’：！~@#￥【】*（）——+。；？]+', re.S)text = re.findall(text_pattern, content[0])text = ''.join(text)name_pattern = re.compile('data-author=.*?"(.*?)"', re.S)name = re.findall(name_pattern, html)with open(comment, 'a', encoding='utf-8-sig') as f:f.write(name[0].strip('\\') + '\n')f.write(time[j]+'\n')f.write(str(text) + '\n')f.write('\n')f.close()

一个认识的朋友发现了一个地方写错了现已修改完全可以使用原来报错找不到id 是我写错了现在代码已修正可以使用

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人相关推荐

Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录爬虫爬取豆瓣Top250 完整代码第一步获取整个网页并以html来解析正则表达式来匹配关键词所有信息写入列表中存入Excel中效果如图本文学习自B站UP ...
用Python爬虫爬取豆瓣电影、读书Top250并排序
更新:已更新豆瓣电影Top250的脚本及网站概述经常用豆瓣读书的童鞋应该知道,豆瓣Top250用的是综合排序,除用户评分之外还考虑了很多比如是否畅销.点击量等等,这也就导致了一些近年来评分不高的畅 ...
python爬虫爬取豆瓣电影信息城市_python爬虫，爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
python爬虫爬取豆瓣电影排行榜，并写进csv文件，可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜
代码前准备: 1.使用Eclipse进行开发,关于eclipse搭建python的环境见:https://www.cnblogs.com/telwanggs/p/7016803.html 2.使用bs ...
php爬虫爬取豆瓣电影top250内容
查看豆瓣api文档这是豆瓣开放的api中电影部分的文档 https://developers.douban.com/wiki/?title=movie_v2 我们直接选择top250之后往下翻阅可以 ...

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人相关推荐

最新文章

热门文章