python爬虫探索原神世界

文章目录

  • 一、前言
  • 二、页面分析
  • 三、完整代码
  • 四、完整代码---2
  • 五、补充

一、前言

《原神》是一款开放世界冒险游戏,有着丰富多彩的元素,可爱帅气的人物角色,五彩斑斓的风景,那我们怎么使用python爬虫打开“原神世界”的大门呢?我们今天就来用python爬虫探索一下游戏角色!

二、页面分析

首先,打开《原神》官网,找到“角色”:链接传送门

然后进行右击检查,寻找想要找的元素。
如:
人物图

人物名:

寻找完毕,右击复制xpath,准备编写爬虫程序!

三、完整代码

# -*- coding: UTF-8 -*-
"""
@Author  :远方的星
@Time   : 2021/3/3 20:18
@CSDN    :https://blog.csdn.net/qq_44921056
@腾讯云   : https://cloud.tencent.com/developer/column/91164
"""
import requests
from lxml import etree
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER'
}
url = 'https://ys.mihoyo.com/main/character/mondstadt?char=0'
response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
list_all = html.xpath('//*[@id="frame"]/div[4]/div/div/div[3]/div[1]/ul/li')
print(list_all)

运行结果:

emmmm,是个[ ],发生什么事了,是我xpath写错了了,不可能呀,我是复制的!
然后,我打印了“response”,哦~要命 ~,爬取的结果和页面的源代码不一样。
那我只好出动“秘密武器”了,就决定是你啦,“selenium

四、完整代码—2

# -*- coding: UTF-8 -*-
"""
@Author  :远方的星
@Time   : 2021/3/4 12:16
@CSDN    :https://blog.csdn.net/qq_44921056
@腾讯云   : https://cloud.tencent.com/developer/column/91164
"""
import requests
from lxml import etree
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import os
# 导入请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER'
}
# 创建文件夹
path = 'D:/原神/蒙德城'
if not os.path.exists(path):os.mkdir(path)
# 实现无可视化界面(固定写法)
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 蒙德城的初始页面
url = 'https://ys.mihoyo.com/main/character/mondstadt?char=0'
# 如果想下载璃月港角色,使用这个url = 'https://ys.mihoyo.com/main/character/liyue?char=0',建议path那里也改动一下哟
# 初始化browser对象
browser = webdriver.Chrome(executable_path='chromedriver.exe', options=chrome_options)
# 模拟浏览器进行访问
browser.get(url=url)
# 获取页面的源代码
page_text = browser.execute_script("return document.documentElement.outerHTML")
html = etree.HTML(page_text)
list_s = html.xpath('//*[@id="frame"]/div[4]/div/div/div[3]/div[1]/ul/li')  # 提取到图片的li节点
for i in range(len(list_s)):image_url = list_s[i].xpath('./img[1]/@src')[0]  # 获取图片的链接num = i + 1  # 代表着图片对应的名字的神秘数字# 获取角色名字name = html.xpath('//*[@id="frame"]/div[4]/div/div/div[3]/div[2]/div[1]/ul/li[{}]/p/text()'.format(num))[0]image_name = name + '.png'  # 得到图片名字image_path = path + '/' + image_nameimage_data = requests.get(url=image_url, headers=headers).content  # 获取图片内容with open(image_path, 'wb') as f:f.write(image_data)print(image_name, '===========>下载完毕!!!')f.close()

运行结果:


哦~ 舒服了~
可爱的可莉拿到了

五、补充

小伙伴如果想要自己尝试练习selenium,建议把“无可视化”的代码去掉嗷,要不然,你会发现你的CPU不知不觉就满了。

作者:远方的星
CSDN:https://blog.csdn.net/qq_44921056
腾讯云:https://cloud.tencent.com/developer/column/91164
本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。

python爬虫探索原神世界(角色篇)相关推荐

  1. python抽卡游戏_【python爬虫】原神公测预抽卡活动自动化抽卡脚本(一小时免登陆)...

    [Python] 纯文本查看 复制代码import requests import json import time #pyinstaller -D -i favicon.ico crawl.py c ...

  2. 极复杂编码,下载《原神》角色高清图、中日无损配音,爬虫 16 / 120 例

    各位 C 站的爬虫爱好者,今天咱们要采集的目标站点是 原神官网,核心目标数据为原神角色图,角色大头贴,角色昵称,角色配音文件. 文章目录 待爬取页面分析 技术细节强调 目标数据格式规定 编码时间 收藏 ...

  3. python爬虫挖掘平台搭建_一篇非常棒的安装Python及爬虫入门博文!

    原标题:一篇非常棒的安装Python及爬虫入门博文! 一. 大数据及数据挖掘基础(私信小编007即可获取大量Python学习资料!) 第一部分主要简单介绍三个问题: 1.什么是大数据? 2.什么是数据 ...

  4. python爬虫用途-Python爬虫入门知识:解析数据篇

    首先,让我们回顾一下入门Python爬虫的四个步骤吧: 而解析数据,其用途就是在爬虫过程中将服务器返回的HTML源代码转换为我们能读懂的格式.那么,接下来就正式进入到解析数据篇的内容啦. Part 1 ...

  5. python爬虫防呆笔记:正则表达式篇之一

    python爬虫笔记 第一部分:正则表达式 基本效果展示 加载猫眼电影网的html文本作为训练文本 这里先讲一下header,这里的header就写一项,不写就爬不出来,这一项是User-Agent, ...

  6. Python爬虫自学之第(①)篇——爬虫伪装和反“反爬”

    有些网站是防爬虫的.其实事实是,凡是有一定规模的网站,大公司的网站,或是盈利性质比较强的网站,都是有高级的防爬措施的.总的来说有两种反爬策略,要么验证身份,把虫子踩死在门口:要么在网站植入各种反爬机制 ...

  7. Python爬虫自学之第(⑤)篇——爬取某宝商品信息

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 能看到这里说明快进入动态网页 ...

  8. Python爬虫自学之第(④)篇——强大的正则表达式,re模块

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 如果把BeautifulSo ...

  9. Python爬虫自学之第(③)篇——实战:requests+BeautifulSoup实现静态爬取

    题外话: <Pi Network 免费挖矿国外热门项目 一个π币大约值3元到10元>相信过去BTC的人,信不信未来的PI,了解一下,唯一一个高度与之持平的项目 前篇全片都是生硬的理论使用, ...

最新文章

  1. 【转】Matlab axis用法
  2. java文本框背景_background 设置文本框背景图
  3. Spring Boot笔记-目前对Web后端开发的认识
  4. javascript 西瓜一期 03 机器语言与高级语言
  5. python怎么开始_Python自己学习怎么开始?
  6. UML交互图——鲁棒图的三元素:抽象对象,实体对象和控制对象
  7. Linux内存buffer和cpu cache的区别
  8. SkyDrive和Google Drive比较
  9. SQL SERVER 2012/2014 序列号密钥
  10. SI4463实验笔记
  11. 苹果手机连wifi很慢-解决方案
  12. 对象存储osd以及存储分类
  13. android程序设计排序方法,Android编程实现对文件夹里文件排序的方法
  14. 视频切片mp4格式转换m3u8
  15. 总结!通过网站设置解决谷歌浏览器不能自动播放音频问题的方案
  16. 在win10系统安装linux系统,win10系统安装Linux子系统的操作方法
  17. 网易云音乐解除灰色小工具 - 资源
  18. 电脑如何设置开机密码?详细教程来了
  19. 2018年最流行JavaScript明星项目
  20. Redis【2022最新面试题】

热门文章

  1. Win10更新后网络图标变成了英文怎么办?
  2. android WindowManager 应用内部悬浮窗口总结
  3. 入职体检(三甲医院)
  4. 多传感器融合综述---FOV与BEV
  5. android obb在哪,未解决:Android 使用obb步骤
  6. Spring学习笔记(一):眼见为实,先上一个简单例子
  7. 导热系数仪 德国PSL 德国培赛乐 快速阻垢性能测试仪 抗车辙剂 摇摆槽 水合物摇摆槽 水合物相变的固-液-气多相流动 水合物阻聚剂分析 沥青硫化氢分析 沥青絮凝点 沥青絮凝点测定仪 油田注水阻垢剂
  8. go gorm获取数据库报错:goexit: BYTE $0x90 // NOP
  9. uni-app实现仿微信前端(二)
  10. eCharts改变饼图的默认颜色