Python爬虫实战:爬取steam打折优惠数据
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
以下文章来源于云+社区,作者 Elapse
转载地址
https://blog.csdn.net/fei347795790?t=1
类似前言一样的东西
妈妈再也不用担心我不知道哪些游戏没有打折了,一键爬取steam优惠名单,就是写到钱的部分程序崩溃了,以至于只有游戏名
环境
环境需要 Python3.5.4的版本 需要的运行库有
- BeautifulSoup(解析html,安装方法:(pip install BeautifulSoup)
- requests(请求url,安装方法:(pip install requests)
代码部分
首先看一下,steam的网站结构
发现游戏名字是存在 <divclass="responsive_search_name_combined">下的再去看url链接https://store.steampowered.com/search/?specials=1&page=1其中page=1就是第一页的意思,所以整体思路就有了,先写一个页面的循环
pageid = 1
while pageid<599:url = "https://store.steampowered.com/search/?specials=1&page=" + str(pageid)res = requests.get(url)soup = bs4.BeautifulSoup(res.text) contents = soup.select('div[class="responsive_search_name_combined"]')
这样,599页的steam游戏优惠的界面都会被requests请求一遍,并查找指定的元素,也就是存放游戏名的元素 接下来把游戏名抓取下来
for content in contents:name = content.find("span",class_="title").string.strip()print(name)
运行一下
成功,右边,游戏名出来了,接下来把名字都保存成txt
要注意的是,有的游戏名很奇怪,有特殊符号,写不进去,那么就会报错,所以,添加一个异常处理就好了
下面贴出完整代码
爬虫的主要问题,基本就是字符串的编码问题,现在整理出来的,最好的方法应该就是直接把url编码的当作正常内容输入就好了
Python爬虫实战:爬取steam打折优惠数据相关推荐
- Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
- python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
- python爬虫实战-爬取视频网站下载视频至本地(selenium)
#python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
- python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...
- Python爬虫实战 爬取同城艺龙酒店信息
1.爬虫说明 同城艺龙的反爬做的是非常好的,本博主在与同城艺龙进行了一整天的殊死搏斗才将其完全的爬下来,本博主是以无锡为例,将无锡的所有酒店的相关信息都爬了下来,共3399条酒店数据,当 ...
- Python爬虫04-xpath爬取豆瓣韩剧数据
xpath爬取豆瓣韩剧数据 需求:爬取豆瓣韩剧的标题.评分.评论以及详情页地址. 1.导入模块 import requests from lxml import etree import csv 2. ...
- python爬虫实战-爬取小说
今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...
- Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载
(整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...
最新文章
- 服务器BMC、BIOS、IPMI、UEFI技术解析
- webpack4.0--如何安装和配置(一)
- 十以内的加减java编写程序_Java实现随机出题,10道10以内加减法计算代码实例
- 在不进入Guest OS的情况下,取得Guest OS的IP地址
- 如何将本地jar包放入本地maven仓库和远程私服仓库
- js - 执行上下文和作用域以及闭包
- 项目疑难杂症记录(一):fragment单例导致的界面异常
- Docker时代来临,你的团队准备好了吗?
- 【LeetCode】【数组】题号:*119,杨辉三角2
- android_get_control_socket 获取 UNIX 域套接字 FD
- macbook 安装iperf_三分钟学会iperf3的使用
- 微信小程序源码打包合集 游戏商城抽奖转盘预约点餐等-1
- 安装mysql电脑开机蓝屏_电脑开机蓝屏怎么解决。
- linux的火狐浏览器怎么用,火狐浏览器怎么用 火狐浏览器使用方法大全
- CoffeeScript 简介
- stm32f4晶振管理
- github上比较好用的第三方
- RocketMQ广播消费与集群消费
- 第二章,人脸识别与管理系统界面开发(WinForm界面增强,OpenCV-Python智能识别)
- 使用javaCV截取摄像头图片
热门文章
- python爬虫快速入门
- 手机批发业务-商品备选区
- PS网页设计教程XX——在Photoshop中创建一个七彩糖果店网站布局
- Redis高频面试题汇总(2021最新版)
- 华为鸿蒙搭载芯片,华为P50系列搭载麒麟9000系列芯片:提供鸿蒙和安卓两种版本...
- 曹茂永《数字图像处理》第一章习题(部分)
- PL/SQL LOOP循环
- mysql查询主键sql语句_MySQL数据库-表操作-SQL语句(一)
- linux 网站访问密码,Linux入门教程:如何在nginx下实现访问web网站密码认证保护的功能,nginxweb以便拒绝那些不速之客...
- python:基金净值与龙头股收盘价 数据的相关性分析