爬取评论

一、准备

浏览器：火狐浏览器

运行环境：Win10/Python3.6.5。

分析工具：jieba、wordcloud、pyecharts、matplotlib。

基本流程：下载内容 —> 分析获取关键数据 —> 保存本地文件 —> 分析本地文件制作图表

本文主要参考：https://www.cnblogs.com/reader/p/10070629.html

二、开始

电影地址：https://maoyan.com/films/1198925
按F12打开火狐浏览器的开发者模式，并进入手机响应模式，选取手机型号后刷新

下滑进入评论

然后下滑评论，直到出现json格式的链接，就可以得到我们想要的信息了

爬虫代码：

# -*- coding:utf-8 -*-
import requests
import json
import time
import random
import datetime
import pandas as pddef get_data(url):'''功能：访问 url 的网页，获取网页内容并返回参数：url ：目标网页的 url返回：目标网页的 html 内容'''headers = {'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3','user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',}try:r = requests.get(url, headers=headers)r.raise_for_status()return r.textexcept requests.HTTPError as e:print(e)print("HTTPError")except requests.RequestException as e:print(e)except:print("Unknown Error !")def parse_data(html):'''功能：提取 html 页面信息中的关键信息，并整合一个数组并返回参数：html 根据 url 获取到的网页内容返回：存储有 html 中提取出的关键信息的数组'''json_data = json.loads(html)['cmts']comments = []try:for item in json_data:comment = []comment.append(item['nickName'])comment.append(item['gender'] if 'gender' in item else '0')comment.append(item['cityName'] if 'cityName' in item else '')comment.append(item['content'].strip().replace('\n', ''))comment.append(item['score'])comment.append(item['startTime'])comment.append(item['userLevel'])comments.append(comment)return commentsexcept Exception as e:print(comment)print(e)def save_data(comments):'''功能：将comments中的信息输出到文件中/或数据库中。参数：comments 将要保存的数据'''filename = '蜘蛛侠.csv'dataframe = pd.DataFrame(comments)dataframe.to_csv(filename, mode='a', encoding='utf-8',index=False, sep=',', header=False)def main():'''功能：爬虫调度器，根据规则每次生成一个新的请求 url，爬取其内容，并保存到本地。'''start_time = datetime.datetime.now().strftime('%Y-%m-%d  %H:%M:%S')end_time = '2019-06-28 00:00:00'  # 电影上映时间，评论爬取到此截至while start_time > end_time:# 不太懂为啥链接的格式是这样的url = 'http://m.maoyan.com/mmdb/comments/movie/1198925.json?_v_=yes&offset=0&startTime=' + start_time.replace('  ', '%20')  # 不同的电影可以直接改编号就可以用这个程序爬了，比如将1198925改为1218141 html = Nonetry:html = get_data(url)time.sleep(random.random())except Exception as e:time.sleep(0.5)html = get_data(url)else:time.sleep(0.1)comments = parse_data(html)# print(url)start_time = comments[14][5]print(start_time)start_time = datetime.datetime.strptime(start_time, '%Y-%m-%d  %H:%M:%S') + datetime.timedelta(seconds=-1)start_time = datetime.datetime.strftime(start_time, '%Y-%m-%d  %H:%M:%S')save_data(comments)if __name__ == '__main__':main()print("完成！！")

太晚了，数据分析明天再写！

用Python 爬《蜘蛛侠：英雄远征》猫眼评论并分析相关推荐

阿凡达时隔十年重映，王者归来还是炒冷饭？Python爬取上千条评论并分析
[CSDN 编者按]<阿凡达>十年后再次重映,果不其然话题量十足,可能这就是神级影片的召唤力吧.在怀旧的氛围中,我们得以重新审阅这部曾经的现象级.划时代的作品. 作者 | 刘早起 ...
python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
python爬取微博评论并做词频分析_爬取李子柒微博评论并分析
爬取李子柒微博评论并分析微博主要分为网页端.手机端和移动端.微博网页版反爬太厉害,因此选择爬取手机端. 1 需求爬取李子柒微博中视频的评论信息,并做词频分析. 2 方法 2.1 运行环境运行平台 ...
python爬取当当网商品评论
python爬取当当网商品评论本案例获取某鞋评论作为例案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...
python爬取英雄联盟手游的全英雄皮肤初识selenium
python爬取英雄联盟手游的全英雄皮肤前言分析页面具体代码下载工具类获取英雄列表的每个英雄获取英雄皮肤链接并下载完整代码成果总结前言近期这个鸽了好久的英雄联盟手游终于上线了,虽 ...
python爬取苏宁商品评论
python爬取苏宁商品评论爬取其他电商物品评论的案例如下: https://blog.csdn.net/coffeetogether/article/details/114296159 https ...
python爬取网易云音乐评论分析_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
python爬b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
Python爬取英雄联盟全皮肤
Python爬取英雄联盟皮肤打开英雄联盟官网:https://lol.qq.com,点击游戏资料,按F12进入开发者模式.刷新,找到hero_list.js,里面有我们需要的网址以及其他信息. 代码 ...

用Python 爬《蜘蛛侠：英雄远征》猫眼评论并分析

用Python 爬《蜘蛛侠：英雄远征》猫眼评论并分析

爬取评论

一、准备

二、开始

用Python 爬《蜘蛛侠：英雄远征》猫眼评论并分析相关推荐

最新文章

热门文章