目标链接:https://movie.douban.com/subject/4920389/comments?start=0&limit=20&sort=new_score&status=P

来看看我们要爬哪些数据吧

  1. 作者
  2. 评论内容
  3. 时间
  4. 有用数

打开浏览器 F12查看源码 看看我们要获取的数据在哪里

我们获取到id为comments下的每一个class为comment-item的div 然后解析其中的内容就可以啦

下面是代码部分:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/6 11:17
# @Author  : Xi.He
# @Desc    : 爬取豆瓣电影 头号玩家短评
import requests
import json
from pyquery import PyQuery as pqheaders = {'proxy': 'https: 59.57.151.126:37749','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36'' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}def get_page(url):"""发送请求获得源码"""r = requests.get(url)return r.textdef parse(text):"""解析数据 获得内容"""doc = pq(text)items = doc('div#comments div.comment-item').items()for item in items:scope = {}scope['name'] = item.find('span.comment-info a').text() # 作者scope['time'] = item.find('span.comment-time').text()   # 发表时间scope['speak'] = item.find('span.short').text() #评论scope['votes'] = item.find('span.votes').text() #有用数result_list.append(scope)return result_listdef write_json(result):"""将数据保存成json文件"""s = json.dumps(result, indent=4, ensure_ascii=False)with open('头号玩家评论.json', 'w', encoding='utf8') as f:f.write(s)print('写入完成!')if __name__ == '__main__':result_list = []# 获取10页链接for i in range(11):url = 'https://movie.douban.com/subject/4920389/comments?start={}' \'&limit=20&sort=new_score&status=P'.format(i * 20)text = get_page(url)result = parse(text)write_json(result)

运行程序:这里我们获取到的是10页的信息

爬取豆瓣头号玩家短评相关推荐

  1. python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

    前言 对于爬虫很不陌生,而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了,今天小编就介绍一下如果爬取豆瓣上面电影影评,以<我不是药神>为例. 基本环境配置 版本:Python3.6 相关模 ...

  2. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  3. python项目开发案例集锦 豆瓣-Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评...

    前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...

  4. 爬取豆瓣电影短评并使用词云简单分析top50

    先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...

  5. python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

    目的:爬取豆瓣[红海行动]电影的首页短评 步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...

  6. 批量爬取豆瓣短评并批量生成词云

    批量爬取豆瓣短评并批量制作为词云 我分为两步实现获取短评和制作词云 1.批量爬取豆瓣短评 from bs4 import BeautifulSoup import requests import th ...

  7. python爬取豆瓣短评_Python爬取豆瓣指定书籍的短评

    Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...

  8. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

  9. 爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)

    由于本人爬取豆瓣影评的时候,我想爬取的比较完善,因为我看大多都是爬取短评而已,本人想爬取其他内容所以写下这篇,希望对大家有帮助. 一.pip对库的调用 下载命令 pip install -i http ...

最新文章

  1. java visualvm远程监控_深入理解JVM虚拟机12:JVM性能管理神器VisualVM介绍与实战
  2. 李志飞:想在中国复制 Echo 的成功,肯定都不靠谱
  3. 返回子串CF 312A(Whose sentence is it?-strstr(s,p))
  4. c语言程序段的流程图怎么画,大家帮我看看这个程序的流程图怎么画,谢了
  5. Flash的层叠顺序问题(z-index)
  6. 44response对象
  7. 函数计算如何访问 PostgreSQL 数据库
  8. bugku——普通的二维码(进制转换)
  9. 企业级实际性能测试案例与经验分享
  10. 美国专利复审程序中Claim Construction标准变更带来的可能影响
  11. linux 压缩除去某些文件夹,Linux tar压缩时 排除某个文件/文件夹
  12. 机器翻译模型简介(一)
  13. 【好题分享】适合c++初学者(从易到难)
  14. 红帽子安装oracle,红帽子AS4安装oracle9i
  15. 2023秋招大厂经典面试题及答案整理归纳(101-120)校招必看
  16. 轻奢消费人群画像报告
  17. YouBank数字钱包
  18. JAVA仓库管理系统(附源码+调试)
  19. 用计算机弹天空之城谱子,最简单的钢琴曲_天空之城超简单版本钢琴谱
  20. 2018软工实践_团队作业_1

热门文章

  1. 【Java】线程池的作用
  2. java快速排序两种方法
  3. unity Mirror使用心得一(玩家角色创建,控制,及其攻击其他玩家的血量同步设置)
  4. linux系统怎么使用
  5. [C语言]栈和队列的输入输出
  6. 树的前序中序后序遍历
  7. Beta函数/Gamma函数/二项分布概率分布
  8. 让计算成为公共服务,从ATF看阿里对世界创新的贡献
  9. 同步机制—读者写者问题
  10. VScode+Taro开发小程序