爬取豆瓣头号玩家短评

目标链接:https://movie.douban.com/subject/4920389/comments?start=0&limit=20&sort=new_score&status=P

来看看我们要爬哪些数据吧

作者
评论内容
时间
有用数

打开浏览器 F12查看源码看看我们要获取的数据在哪里

我们获取到id为comments下的每一个class为comment-item的div 然后解析其中的内容就可以啦

下面是代码部分：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/6 11:17
# @Author  : Xi.He
# @Desc    : 爬取豆瓣电影 头号玩家短评
import requests
import json
from pyquery import PyQuery as pqheaders = {'proxy': 'https: 59.57.151.126:37749','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36'' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}def get_page(url):"""发送请求获得源码"""r = requests.get(url)return r.textdef parse(text):"""解析数据 获得内容"""doc = pq(text)items = doc('div#comments div.comment-item').items()for item in items:scope = {}scope['name'] = item.find('span.comment-info a').text() # 作者scope['time'] = item.find('span.comment-time').text()   # 发表时间scope['speak'] = item.find('span.short').text() #评论scope['votes'] = item.find('span.votes').text() #有用数result_list.append(scope)return result_listdef write_json(result):"""将数据保存成json文件"""s = json.dumps(result, indent=4, ensure_ascii=False)with open('头号玩家评论.json', 'w', encoding='utf8') as f:f.write(s)print('写入完成!')if __name__ == '__main__':result_list = []# 获取10页链接for i in range(11):url = 'https://movie.douban.com/subject/4920389/comments?start={}' \'&limit=20&sort=new_score&status=P'.format(i * 20)text = get_page(url)result = parse(text)write_json(result)

运行程序：这里我们获取到的是10页的信息

爬取豆瓣头号玩家短评相关推荐

python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理
前言对于爬虫很不陌生,而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了,今天小编就介绍一下如果爬取豆瓣上面电影影评,以<我不是药神>为例. 基本环境配置版本:Python3.6 相关模 ...
python爬取豆瓣电影评论_python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
python项目开发案例集锦豆瓣-Python第三个项目：爬取豆瓣《哪吒之魔童降世》短评...
前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...
爬取豆瓣电影短评并使用词云简单分析top50
先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...
python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评
目的:爬取豆瓣[红海行动]电影的首页短评步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...
批量爬取豆瓣短评并批量生成词云
批量爬取豆瓣短评并批量制作为词云我分为两步实现获取短评和制作词云 1.批量爬取豆瓣短评 from bs4 import BeautifulSoup import requests import th ...
python爬取豆瓣短评_Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。
项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...
爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)
由于本人爬取豆瓣影评的时候,我想爬取的比较完善,因为我看大多都是爬取短评而已,本人想爬取其他内容所以写下这篇,希望对大家有帮助. 一.pip对库的调用下载命令 pip install -i http ...

爬取豆瓣头号玩家短评

爬取豆瓣头号玩家短评相关推荐

最新文章

热门文章