前言

鱿鱼游戏是什么,相信大家都不陌生了,虽然说博主没看过这部剧,但是还是对豆瓣的评论有点好奇,刚刚好近期学习了selenium,就当练练手了,来吧来吧,爬爬爬。

分析页面

还是老样子,兄弟们先打开我们最喜欢的google浏览器,点击F12,开启爬虫快乐模式
来到页面,如下图步骤,逐个点击

然后我们就发现这个页面确实很简单,每一条评论就是包在了class为short的span标签内,那就可以开始写xpath了,如下图

这样一页的评论就拿到了,接下来就是换页了
有一个小技巧,不需要我们自己写xpath,直接用google浏览器可以生成xpath,如下图所示

点击这个Copy path这样就拿到了按钮的xpath的内容,然后实现点击页面就可以了,好了就这样分析完了,接下来开始写代码了。

重要代码

selenium打开豆瓣短评页面

# 待打开的页面url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'# 躲避智能检测option = webdriver.ChromeOptions()# option.headless = Trueoption.add_experimental_option('excludeSwitches', ['enable-automation'])option.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(options=option)driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})#打开页面driver.get(url)

根据xpath来获取评论内容

这里获取评论的xpath语句

//span[@class="short"]

获取评论代码

        options = driver.find_elements(By.XPATH, '//span[@class="short"]')for i in options:text=text+i.text

实现跳转下一页

下一页的按钮xpath

//*[@id="paginator"]/a

跳转按钮点击代码

        nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')nextpage.click()

完整代码

词云生成工具类

# -*- codeing = utf-8 -*-
# @Time : 2021/10/9 20:54
# @Author : xiaow
# @File : wordcloudutil.py
# @Software : PyCharmfrom wordcloud import WordCloud
import PIL.Image as image
import numpy as npimport jiebadef trans_CN(text):# 接收分词的字符串word_list = jieba.cut(text)# 分词后在单独个体之间加上空格result = " ".join(word_list)return resultdef getWordCloud(text):# print(text)text = trans_CN(text)# 词云背景图mask = np.array(image.open("E://file//pics//mask3.jpg"))wordcloud = WordCloud(mask=mask,# 字体样式文件font_path="C:\Windows\Fonts\STXINGKA.TTF",background_color='white').generate(text)image_produce = wordcloud.to_image()image_produce.show()

评论获取代码

# -*- codeing = utf-8 -*-
# @Time : 2021/6/27 22:29
# @Author : xiaow
# @File : test.py
# @Software : PyCharm
import timefrom selenium import webdriver
from selenium.webdriver.common.by import By
from api import wordcloudutil
if __name__ == '__main__':url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'# 躲避智能检测option = webdriver.ChromeOptions()# option.headless = Trueoption.add_experimental_option('excludeSwitches', ['enable-automation'])option.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(options=option)driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})driver.get(url)text=''# 获取所有的选项元素j=0while 1:# 定位到新跳转的页面time.sleep(1)driver.switch_to.window(driver.window_handles[0])options = driver.find_elements(By.XPATH, '//span[@class="short"]')for i in options:text=text+i.texttime.sleep(2)nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')nextpage.click()j=j+1if j>10:breakprint(text)wordcloudutil.getWordCloud(text)

成果

最后爬取的评论生成了词云图,如下图所示

就这样就结束了,还是很简单的

下面推荐下自己的专栏,关于爬虫的基础内容,适合新手练练手
❤️爬虫专栏,快来点我呀❤️

python爬取网易云评论 超简单教程

学会这个,全网视频任你爬取,一分钟学会you-get

敲代码累了怎么办,快用python爬小姐姐视频吧

聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包

两行代码爬取微博热搜,并实现邮件提醒功能,妈妈再也不用担心我吃不到瓜了 爬虫基础

python爬取4k小姐姐图片 人生苦短 我用python

python爬b站视频 人生苦短 我用python

Python爬取美女图片 爬虫基础

有缘再写,侵权立删

python爬鱿鱼游戏的评价 看看鱿鱼游戏到底值不值得看 初识selenium相关推荐

  1. 最新的Python爬取淘宝评价的教程

    自从上次写了一篇教师节送什么?Python教你挑选礼物,让我对淘宝的其他信息产生了产生了很大的兴趣,所以,利用中秋节假期研究了下怎么爬取淘宝商品评价. 由于淘宝现在的反爬机制不断增强,接口API发生了 ...

  2. Python爬取4399好wan的小游戏!

    #coding=utf-8 #爬取4399所有好玩的游戏 import re import os import requests# 基础url host_url = 'http://www.4399. ...

  3. 求求大佬救救孩子吧。按照书上敲的python爬取百度网盘权利的游戏案例,结果报错,其他都不报错,生成的txt文件也没有内容

    这是报的错误 这是结构,就二个py文件是自己敲的,其他都是生成的 代码 getCommeInfo.py #!/usr/bin/evn python3 # -*- coding:utf-8 -*-imp ...

  4. 【爬虫实战】Python 爬取起点热榜,再也不怕没有小说看了!

    最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库 我们使用 requests 来 ...

  5. Python爬取2900条数据,深度揭秘到底哪种防脱发洗发水最受欢迎?

    就在前段时间,一项由卫健委发起的脱发人群调查数据显示:中国受脱发问题困扰的人群高达2.5亿.听到这儿,远在韩国的各家媒体又开始出来搞事情了, 根据他们的计算,这些人完全脱发时的总脱发面积大约可达590 ...

  6. 差评近一半,用 Python 分析胡歌的《猎场》到底值不值得看?

    作者 | 布道 11 月 6 日,湖南卫视已经开播被称作年度压轴的大戏"猎场",迅速占领各大榜单,成为一部高热度的电视剧.但是在豆瓣上却形成了两极分化.截止 11 月 8 日,该剧 ...

  7. python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载

    每天一点点,记录学习 python 爬取菜鸟教程python100题 近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...

  8. python爬取地图地址_Python爬取百度地图poi数据 !

    锵锵锵,我来啦.10天过的好快呀,4月份都已经过了三分之一,我的体重还居高不下,qwq.今天给大家分享python爬取百度地图小区的数据,希望大家看后,可以尝试自己编写爬取自己所在市的中学,公园,银行 ...

  9. 用python爬取网上的睡前小故事,然后每天给女票发。哈哈哈

    今天看了有人用python爬故事,给女票每天发邮箱过去.看了一下感觉很棒,然后又看了评论,有说要是发微信就更好了. 所以...... 我就做了一个发微信的,哈哈. 先上结果 www.tom61.com ...

最新文章

  1. centos6.5配置linux dhcp
  2. rostcm6情感分析案例分析_卷积情感分析
  3. Redis集群添加节点
  4. 中3d库后接负载_500W电源横评:交叉负载放倒3款产品
  5. Java如何判断整数溢出,溢出后怎么得到提示?
  6. 子慕谈设计模式系列(二)——设计模式六大原则
  7. 《你必须知道的.NET》第五章读书笔记
  8. 孙鑫VC学习笔记:第二十讲 (一) Hook编程
  9. 使用XenApp/XenDesktop发布App-V应用——安装App-V服务器
  10. 2019年全国河流水系
  11. MySQL实验7存储过程_mySQL 教程 第7章 存储过程和函数
  12. 数模【数据的拟合方法-总结】【温度与电阻的关系模型、农业生产实验模型、血药浓度模型、化工氯气生产等级模型、人口预测模型】
  13. js获取传统节假日_js 两个时间之间工作日的计算问题(包含节假日)
  14. 数据中台,我还能爱你吗(文末送书)
  15. pycharm分辨率清晰度
  16. Win7 x64 Vad遍历模块
  17. JavaScript(第五天)—爱创课堂专业前端培训
  18. SOLID原理的详细信息。
  19. Java高并发程序设计(三)——JDK并发包(二)
  20. Java--获取本机网卡上的所有ip

热门文章

  1. LTE小区选择和小区重选(3
  2. matlab中分析时域波形,实验1 信号的MATLAB 表示及系统的时域分析
  3. Linux内网服务器实现外网登陆
  4. zedboard Linux JTAG驱动解决There is no current hw_target问题
  5. 网站建设合同案例——知化园公司网站建设合同
  6. 安恒信息HWS计划2021硬件冬令营 物联网安全课堂笔记 2021.1.10
  7. 怎样为用户写“招标书”
  8. 2023年大学计算机专业实习心得14篇
  9. c++ opencv数字图像处理:访问图像像素,遍历图像像素
  10. 思科wlc产品文档_案例:教你在思科官网查找文档解决你的问题