前言

鱿鱼游戏是什么，相信大家都不陌生了，虽然说博主没看过这部剧，但是还是对豆瓣的评论有点好奇，刚刚好近期学习了selenium，就当练练手了，来吧来吧，爬爬爬。

分析页面

还是老样子，兄弟们先打开我们最喜欢的google浏览器，点击F12，开启爬虫快乐模式
来到页面，如下图步骤，逐个点击

然后我们就发现这个页面确实很简单，每一条评论就是包在了class为short的span标签内，那就可以开始写xpath了,如下图

这样一页的评论就拿到了，接下来就是换页了
有一个小技巧，不需要我们自己写xpath，直接用google浏览器可以生成xpath，如下图所示

点击这个Copy path这样就拿到了按钮的xpath的内容，然后实现点击页面就可以了，好了就这样分析完了，接下来开始写代码了。

重要代码

selenium打开豆瓣短评页面

# 待打开的页面url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'# 躲避智能检测option = webdriver.ChromeOptions()# option.headless = Trueoption.add_experimental_option('excludeSwitches', ['enable-automation'])option.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(options=option)driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})#打开页面driver.get(url)

根据xpath来获取评论内容

这里获取评论的xpath语句

//span[@class="short"]

获取评论代码

        options = driver.find_elements(By.XPATH, '//span[@class="short"]')for i in options:text=text+i.text

实现跳转下一页

下一页的按钮xpath

//*[@id="paginator"]/a

跳转按钮点击代码

        nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')nextpage.click()

完整代码

词云生成工具类

# -*- codeing = utf-8 -*-
# @Time : 2021/10/9 20:54
# @Author : xiaow
# @File : wordcloudutil.py
# @Software : PyCharmfrom wordcloud import WordCloud
import PIL.Image as image
import numpy as npimport jiebadef trans_CN(text):# 接收分词的字符串word_list = jieba.cut(text)# 分词后在单独个体之间加上空格result = " ".join(word_list)return resultdef getWordCloud(text):# print(text)text = trans_CN(text)# 词云背景图mask = np.array(image.open("E://file//pics//mask3.jpg"))wordcloud = WordCloud(mask=mask,# 字体样式文件font_path="C:\Windows\Fonts\STXINGKA.TTF",background_color='white').generate(text)image_produce = wordcloud.to_image()image_produce.show()

评论获取代码

# -*- codeing = utf-8 -*-
# @Time : 2021/6/27 22:29
# @Author : xiaow
# @File : test.py
# @Software : PyCharm
import timefrom selenium import webdriver
from selenium.webdriver.common.by import By
from api import wordcloudutil
if __name__ == '__main__':url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'# 躲避智能检测option = webdriver.ChromeOptions()# option.headless = Trueoption.add_experimental_option('excludeSwitches', ['enable-automation'])option.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(options=option)driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})driver.get(url)text=''# 获取所有的选项元素j=0while 1:# 定位到新跳转的页面time.sleep(1)driver.switch_to.window(driver.window_handles[0])options = driver.find_elements(By.XPATH, '//span[@class="short"]')for i in options:text=text+i.texttime.sleep(2)nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')nextpage.click()j=j+1if j>10:breakprint(text)wordcloudutil.getWordCloud(text)

成果

最后爬取的评论生成了词云图，如下图所示

就这样就结束了，还是很简单的

下面推荐下自己的专栏，关于爬虫的基础内容，适合新手练练手
❤️爬虫专栏，快来点我呀❤️

python爬取网易云评论超简单教程

学会这个，全网视频任你爬取，一分钟学会you-get

敲代码累了怎么办，快用python爬小姐姐视频吧

聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包

两行代码爬取微博热搜，并实现邮件提醒功能，妈妈再也不用担心我吃不到瓜了爬虫基础

python爬取4k小姐姐图片人生苦短我用python

python爬b站视频人生苦短我用python

Python爬取美女图片爬虫基础

有缘再写，侵权立删

python爬鱿鱼游戏的评价看看鱿鱼游戏到底值不值得看初识selenium相关推荐

最新的Python爬取淘宝评价的教程
自从上次写了一篇教师节送什么?Python教你挑选礼物,让我对淘宝的其他信息产生了产生了很大的兴趣,所以,利用中秋节假期研究了下怎么爬取淘宝商品评价. 由于淘宝现在的反爬机制不断增强,接口API发生了 ...
Python爬取4399好wan的小游戏！
#coding=utf-8 #爬取4399所有好玩的游戏 import re import os import requests# 基础url host_url = 'http://www.4399. ...
求求大佬救救孩子吧。按照书上敲的python爬取百度网盘权利的游戏案例，结果报错，其他都不报错，生成的txt文件也没有内容
这是报的错误这是结构,就二个py文件是自己敲的,其他都是生成的代码 getCommeInfo.py #!/usr/bin/evn python3 # -*- coding:utf-8 -*-imp ...
【爬虫实战】Python 爬取起点热榜，再也不怕没有小说看了！
最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库我们使用 requests 来 ...
Python爬取2900条数据，深度揭秘到底哪种防脱发洗发水最受欢迎？
就在前段时间,一项由卫健委发起的脱发人群调查数据显示:中国受脱发问题困扰的人群高达2.5亿.听到这儿,远在韩国的各家媒体又开始出来搞事情了, 根据他们的计算,这些人完全脱发时的总脱发面积大约可达590 ...
差评近一半，用 Python 分析胡歌的《猎场》到底值不值得看？
作者 | 布道 11 月 6 日,湖南卫视已经开播被称作年度压轴的大戏"猎场",迅速占领各大榜单,成为一部高热度的电视剧.但是在豆瓣上却形成了两极分化.截止 11 月 8 日,该剧 ...
python 爬取菜鸟教程python100题，百度贴吧图片反爬虫下载，批量下载
每天一点点,记录学习 python 爬取菜鸟教程python100题近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...
python爬取地图地址_Python爬取百度地图poi数据 !
锵锵锵,我来啦.10天过的好快呀,4月份都已经过了三分之一,我的体重还居高不下,qwq.今天给大家分享python爬取百度地图小区的数据,希望大家看后,可以尝试自己编写爬取自己所在市的中学,公园,银行 ...
用python爬取网上的睡前小故事，然后每天给女票发。哈哈哈
今天看了有人用python爬故事,给女票每天发邮箱过去.看了一下感觉很棒,然后又看了评论,有说要是发微信就更好了. 所以...... 我就做了一个发微信的,哈哈. 先上结果 www.tom61.com ...

python爬鱿鱼游戏的评价看看鱿鱼游戏到底值不值得看初识selenium

前言

分析页面

重要代码

selenium打开豆瓣短评页面

根据xpath来获取评论内容

实现跳转下一页

完整代码

成果

python爬鱿鱼游戏的评价看看鱿鱼游戏到底值不值得看初识selenium相关推荐

最新文章

热门文章

python爬鱿鱼游戏的评价 看看鱿鱼游戏到底值不值得看 初识selenium

前言

分析页面

重要代码

selenium打开豆瓣短评页面

根据xpath来获取评论内容

实现跳转下一页

完整代码

成果

python爬鱿鱼游戏的评价 看看鱿鱼游戏到底值不值得看 初识selenium相关推荐

最新文章

热门文章

python爬鱿鱼游戏的评价看看鱿鱼游戏到底值不值得看初识selenium

python爬鱿鱼游戏的评价看看鱿鱼游戏到底值不值得看初识selenium相关推荐