流浪地球影评爬取

大过年的,蹭个热度,看完电影后爬一下影评并作出词云。

本次影评取自豆瓣:

https://movie.douban.com/subject/26266893/

抓包

首先是拿到访问的url,一般先使用chrome浏览器自带的F12中的网络部分进行测试。好巧不巧的,点击XHR后直接拿到数据了,那就不搞什么乱七八糟的别的了。

image.png

下面开始分析这个请求的URL地址

https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P&comments_only=1

和搜索《流浪地球》结果的URL进行对比发现域名+subject+26266893都是一样的,所以这一块就是一个影片的唯一标示码了。

点击下一页抓包可以发现

start=40

,显然start就是显示的开始条数。然后去除后面的拼接部分大胆的使用以下地址:

https://movie.douban.com/subject/26266893/comments?start=20&limit=20https://movie.douban.com/subject/26266893/comments?start=40&limit=20...

所以如果爬取全部的话应该是

while True: url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20' requests.get(url) i += 1

当然这段代码中缺少了一个终止条件,由于没有直观的页码显示,所以按照正常逻辑来说,当拿不到数据的时候,代码就可以结束了。

数据解析

从IDE或者抓包工具中都能看到抓去到的东西的内容是个html

使用工具Xpath Helper可以获取到对应的Xpath是

//*[@id="comments"]/div/div[2]/p/span/text()

导入

from lxml import etree

使用以下几行就能获取到内容

from lxml import etree​response = requests.get(url).content # 获取网页源码html = etree.HTML(response) # 将网页源码转换为XPath可以解析的格式html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')

跳出While循环的条件

所以从上可以看出跳出While循环的条件就是拿到的内容为空

实际测试发现到12页之后就会出行

采用最简单的cookie来进行登录操作

把这里的cookie拿出来用就行了

获取数据部分代码

import timeimport requestsfrom lxml import etree​i = 1cookies = { 'cookie': '_ga=GA1.2.368359059.1504513008; gr_user_id=70cd8d8e-33f4-451f-9d2f-485e0972848b; _vwo_uuid_v2=DA531159C0543E8ED34CDA9307F4F5D42|952eca647e4324910504987dd6b3b16c; viewed="25862578"; douban-fav-remind=1; bid=BbpSXh-2l0I; UM_distinctid=1688ebe76ed917-00fc3d8ad313ab-10306653-13c680-1688ebe76eed09; ll="118172"; CNZZDATA1272964020=1342263888-1524923548-https%253A%252F%252Fwww.baidu.com%252F%7C1549549736; ap_v=0,6.0; __utma=30149280.368359059.1504513008.1548583074.1549551675.6; __utmc=30149280; __utmz=30149280.1549551675.6.5.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; __utmb=30149280.1.10.1549551675; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1549554516%2C%22https%3A%2F%2Fopen.weixin.qq.com%2Fconnect%2Fqrconnect%3Fappid%3Dwxd9c1c6bbd5d59980%26redirect_uri%3Dhttps%253A%252F%252Fwww.douban.com%252Faccounts%252Fconnect%252Fwechat%252Fcallback%26response_type%3Dcode%26scope%3Dsnsapi_login%26state%3DBbpSXh-2l0I%252523douban-web%252523https%25253A%252F%252Fwww.douban.com%252Fsearch%25253Fq%25253D%2525E6%2525B5%252581%2525E6%2525B5%2525AA%2525E5%25259C%2525B0%2525E7%252590%252583%22%5D; _pk_ses.100001.8cb4=*; douban-profile-remind=1; _pk_id.100001.8cb4=d2d47adf74234a9c.1504513005.8.1549554548.1549551671.; dbcl2="149765164:WENJVMTKslo"'}headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}f = open('wandering.txt', 'w')while True: url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20' response = requests.get(url, cookies=cookies, headers=headers).content  html = etree.HTML(response) new_text_list = html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()') f.writelines(new_text_list) if not new_text_list: break else: time.sleep(0.25) i += 1 print(f'正在爬取第{20*i}条内容')f.close()

制作词云

#!/usr/bin/env python# -*- coding:utf-8 -*-# Author:zhongxin# datetime:2019/2/7 11:57 PMimport re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库​with open('wandering.txt') as f: string_data = f.read()# 文本预处理pattern = re.compile(u'||.|-|:|;|)|(|?|"') # 定义正则表达式匹配模式string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除​# 文本分词seg_list_exact = jieba.cut(string_data, cut_all=False) # 精确模式分词object_list = []remove_words = [u'的', u',', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了', u'通常', u'如果', u'我', u'需要',u'也',u'电影','就'] # 自定义去除词库​for word in seg_list_exact: # 循环读出每个分词 if word not in remove_words: # 如果不在去除词库中 object_list.append(word) # 分词追加到列表​# 词频统计word_counts = collections.Counter(object_list) # 对分词做词频统计word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词print(word_counts_top10) # 输出检查​# 词频展示mask = np.array(Image.open('wordcloud.jpg')) # 定义词频背景wc = wordcloud.WordCloud( font_path='/System/Library/Fonts/STHeiti Medium.ttc', # 设置字体格式 mask=mask, # 设置背景图 max_words=200, # 最多显示词数 max_font_size=100 # 字体最大值)​wc.generate_from_frequencies(word_counts) # 从字典生成词云image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案plt.imshow(wc) # 显示词云plt.axis('off') # 关闭坐标轴plt.show() # 显示图像

数据获取部分代码

词云部分代码

推荐下我自己创建的Python学习交流群923414804,这是Python学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习Python的资料和入门教程。

python怎么爬取知乎回答并制作词云_使用python爬取流浪地球影评并制作词云,看看别人都说了些说什么...相关推荐

  1. python爬取知乎回答并进行舆情分析:爬取数据部分

    python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...

  2. python爬取知乎回答并进行舆情分析:舆情分析部分

    python爬取知乎回答并进行舆情分析:舆情分析部分 背景 生成词云 文本预处理(使用停用词.自定义分词) 统计词频 生成词云 折线图 统计每日回答数 生成折线图 展望 背景 在上一节中,利用爬虫爬取 ...

  3. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  4. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  5. python 词云_利用Python生成词云

    利用Python生成词云 一.第三方库的安装与介绍 1.1  Python第三方库jieba(中文分词) 1.介绍 "结巴"中文分词:做最好的 Python 中文分词组件. 2.特 ...

  6. python 小说 云_小说python操作PLC

    PLC(Programmable Logic Controller)可编程逻辑控制器,可以理解为一个微型计算机,广泛应用于工业控制中,如楼宇智控.精密机床.汽车电子等等. 随着物联网的兴起,越来越多的 ...

  7. python是非常依赖于已编译完成的代码吗_初识Python的几点疑惑

    一.python是什么? Python(英语发音:/ˈpaɪθən/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991 ...

  8. python怎样安装词云_在python中怎样安装词云-女性时尚流行美容健康娱乐mv-ida网...

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页 > 高级搜索 腾讯qq 云 词典正式发布无需下 ...

  9. python怎么爬取知乎回答并制作词云_用Python分析了国庆“坑爹”景点......

    每次假期后网友总爱去微博.知乎吐槽国庆旅游的坑爹景点,相关话题也频上热榜,在国庆期间也有相关文章[1]通过整理对应话题统计出最坑爹城市前五名分别为杭州.西安.厦门.北京.南京,而最坑爹景点则有西湖.兵 ...

最新文章

  1. postgresql学习笔记(三)连接管理
  2. 【Tools】Ubuntu中vscode安装和使用
  3. Java新手之Java 从代码到运行的过程
  4. java解析xml文件失败,在Java中解析大型XML文件时找不到文件异常
  5. 8plus基带电源供电线路_双电源供电与双回路供电的区别是什么?别再傻傻分不清了!...
  6. 小米被指记录用户的 Web 和手机使用数据;传瑞幸咖啡CTO因个人原因辞职;IntelliJ IDEA 新版发布 | 极客头条...
  7. 避免游戏中的批量 sql
  8. 葵花卫星数据介绍与下载教程
  9. 2021-09-09 一个python代码验证身份证号码
  10. 菜鸡的Java笔记 数字操作类
  11. Excel如何分组排序
  12. VR火灾隐患排查,模拟多种火灾场景
  13. 微软拼音变成繁体,如何修改为简体
  14. 浅谈CNN里的Lasso
  15. 个人建站系列步骤流程(四.域名备案)
  16. 二维图形平移变换c语言程序,[转载]计算机图形学Opengl实现二维图形的平移、旋转、缩放复合变换...
  17. 怎么用计算机做目录,word怎么生成目录,教您Word文档如何自动生成目录
  18. linux bios设置界面,BIOS怎么设置 史上最详细的bios设置图解教程
  19. postgres use
  20. 论文投稿指南——中文核心期刊推荐(数学)

热门文章

  1. 使用WSDL工具生成C#使用的WebService声明文件
  2. leetcode_day02
  3. 20162302 第七周作业
  4. 详解Spring中的CharacterEncodingFilter--forceEncoding为true在java代码中设置失效--html设置编码无效...
  5. Monkeyrunner脚本的录制与回放
  6. [转载] 令牌桶算法和漏桶算法python_排序算法(七):Bucket Sort 桶排序
  7. [转载] python中import问题
  8. [转载] 图片(tkinter,Python3.x)
  9. [转载] ml-8-1-聚类( ( Clustering) )
  10. [转载] Java之嵌套接口