170312-python爬虫 steam愿望单打折商品
1625-5 王子昂 总结《2017年3月12日》 【连续第162天总结】
A.Python爬虫
B.因为平常总是收到steam愿望单商品打折的邮件,但是又懒得去打开,所以在想练习爬虫的时候马上就想到了爬它
本来以为需要网页登录steam,这样就需要考虑登录和header的信息,就麻烦很多了
结果看了一下,愿望单和个人资料页面一样,原来不需要登录就能看的……(似乎送礼就很方便了
在熟悉正则的机制以后,按照格式操作就格外简单了,因为难题基本都解决过了嘛~
利用多个分组把需要的信息捕获,然后用可读性更高的格式进行格式化输出即可
中间遇到一个编码问题:steam源码中的¥似乎不是UTF-8编码的,爬下来显示为\xc2\xa5。然后可以通过不捕获这个符号,自己添加来解决
利用pyinstall插件将它生成一个exe,发现在cmd环境下会出现乱码;查询后发现cmd默认支持的是简体中文(GB2312)码。
CHCP是MD DOS中的命令,用来显示或设置活动代码页编号的。用法是:
CHCP [nnn]
默认GB2312为936,而UTF-8为65001。输入chcp 65001即可。
这样就可以每天开一次看看剁什么手了呢~
等等我好像做出了什么恐怖的东西OTZ
#encoding:utf-8 import urllib2 import re url='http://steamcommunity.com/id/whklhh/wishlist' request=urllib2.Request(url) response=urllib2.urlopen(request) data=response.read() reg= r'<div class="discount_block discount_block_inline">.+?\n.+?>(-\d+%)(?:.+?\n.+?){2}¥ (\d+).+?\n.+?¥ (\d+)'+\r'(?:.+?\n.+?){4}href="(.+?)"(?:.+?\n.+?){6}>(.+?)<' imgre=re.compile(reg) imglist=re.findall(imgre,data) for pro in imglist:print ("%s\n\t现价:%s,原价:%s,折扣:%s,商品页面:%s,")%(pro[4],pro[2],pro[1],pro[0],pro[3])
C. 明日计划
cmd会出现编码上的问题让人很烦0.0明天做一个GUI的程序吧!
python 完善爬虫
170312-python爬虫 steam愿望单打折商品相关推荐
- 2018 UESTC Training for Data Structures 小埋的steam愿望单
小埋的steam愿望单 解题思路:set与map 这四个操作使用set<pair<int,string> >就可以完成,不过注意删除和修改时需要知道游戏的价格,所以用map&l ...
- 赚翻了,快速带你学会Python爬虫接私单
接了一个金主的单子,他想在淘宝开个零食的网店,想对目前这个市场上的商品做一些分析,这些信息都是对外展示的,只是手动比较麻烦,想托我帮个忙. 要求并不复杂,于是我用 Python爬虫 获取到数据之后从三 ...
- 赚翻,快速带你学会Python爬虫接私单
接了一个金主的单子,他想在淘宝开个零食的网店,想对目前这个市场上的商品做一些分析,这些信息都是对外展示的,只是手动比较麻烦,想托我帮个忙. 要求并不复杂,于是我用 Python爬虫 获取到数据之后从三 ...
- Python爬虫:爬取京东商品简介
Python爬虫 目录导航 1.前言 目的 关于爬虫 关于Python 2.准备 工具 安装第三方库和包 3.敲代码 1.爬取网站信息 2.筛选需要的信息 3.持久化数据 4.扩展(分页爬取) 4.代 ...
- Python爬虫抢购某宝秒杀商品
某宝秒杀,用毫秒级的精准度来抢购! 你还在为各种活动秒杀 抢不过别人而烦恼吗 应粉丝要求 今天出一期 利用Python爬虫 抢购秒杀商品的文章 目录 1,项目环境 2,某宝抢购流程分析 3,程序实现思 ...
- steam怎么看在哪些计算机上登录过,如何查看好友的steam愿望单?朋友爱玩哪些游戏一看就知道!...
软件大小: 1.6MB 软件版本: 2.10.91.91 软件类型: 游戏工具 查看详情 直接下载 Steam是一个开放性的游戏整合下载平台,任何用户都可以通过该平台来进行游戏的购买.下载等.而且在s ...
- 四、python爬虫抓取购物网站商品信息--图片价格名称
本篇博客参考:python爬虫入门教程 http://blog.csdn.net/wxg694175346/article/category/1418998 Python爬虫爬取网页图片 http:/ ...
- Python爬虫之获取淘宝商品数据
爬取淘宝信息数据 首先需要先导入webdriver from selenium import webdriver webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等 然 ...
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...
- Python爬虫之获取淘宝商品信息
首先需要先导入webdriver from selenium import webdriver 复制代码 webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等 然后可以创 ...
最新文章
- matlab有没有查找替换,matlab-字符查寻与替换
- 静态方法mock 和verify
- python软件开发-哪个开发软件可以写python啊,VS可以么?
- chrome使用技巧
- 0.1uf与47uf并联_UF是什么形式?
- 多项式的链式存储方案
- mac composer 安装
- 搭建你的Spring.Net+Nhibernate+Asp.Net Mvc 框架 (三)实现数据库接口层和业务逻辑层(转)...
- c语言随机生成算式的对错判断,蔡奇宏软件工程第二次作业--四则运算
- 16. XML DOM
- (转)Aladdin PK SimCorp Dimension
- 【LaTeX安装】如何在windows电脑上安装 texlive2021
- css3径向渐变详解-遁地龙卷风
- python 爬取网易云音乐歌单
- 目前游戏行业内部主要几款游戏引擎的技术对比
- 医护人员计算机专业培训内容,电子病历-住院医生工作站的前期培训
- 中国人大计算机保研生源学校,中国人民大学2021届保研、拟录取总结
- 什么是闰年?闰年为什么是366天?为什么不能是100的倍数?
- linux 相关快捷键
- 关于Ubuntu18.04双系统安装后无法连接WiFi问题解决方法