1625-5 王子昂 总结《2017年3月12日》 【连续第162天总结】

A.Python爬虫

B.因为平常总是收到steam愿望单商品打折的邮件,但是又懒得去打开,所以在想练习爬虫的时候马上就想到了爬它

本来以为需要网页登录steam,这样就需要考虑登录和header的信息,就麻烦很多了

结果看了一下,愿望单和个人资料页面一样,原来不需要登录就能看的……(似乎送礼就很方便了

在熟悉正则的机制以后,按照格式操作就格外简单了,因为难题基本都解决过了嘛~

利用多个分组把需要的信息捕获,然后用可读性更高的格式进行格式化输出即可

中间遇到一个编码问题:steam源码中的¥似乎不是UTF-8编码的,爬下来显示为\xc2\xa5。然后可以通过不捕获这个符号,自己添加来解决

利用pyinstall插件将它生成一个exe,发现在cmd环境下会出现乱码;查询后发现cmd默认支持的是简体中文(GB2312)码。

CHCP是MD DOS中的命令,用来显示或设置活动代码页编号的。用法是:

CHCP [nnn]

默认GB2312为936,而UTF-8为65001。输入chcp 65001即可。

这样就可以每天开一次看看剁什么手了呢~

等等我好像做出了什么恐怖的东西OTZ

#encoding:utf-8
import urllib2
import re
url='http://steamcommunity.com/id/whklhh/wishlist'
request=urllib2.Request(url)
response=urllib2.urlopen(request)
data=response.read()
reg= r'<div class="discount_block discount_block_inline">.+?\n.+?>(-\d+%)(?:.+?\n.+?){2}¥ (\d+).+?\n.+?¥ (\d+)'+\r'(?:.+?\n.+?){4}href="(.+?)"(?:.+?\n.+?){6}>(.+?)<'
imgre=re.compile(reg)
imglist=re.findall(imgre,data)
for pro in imglist:print ("%s\n\t现价:%s,原价:%s,折扣:%s,商品页面:%s,")%(pro[4],pro[2],pro[1],pro[0],pro[3])

C. 明日计划

cmd会出现编码上的问题让人很烦0.0明天做一个GUI的程序吧!

python 完善爬虫

170312-python爬虫 steam愿望单打折商品相关推荐

  1. 2018 UESTC Training for Data Structures 小埋的steam愿望单

    小埋的steam愿望单 解题思路:set与map 这四个操作使用set<pair<int,string> >就可以完成,不过注意删除和修改时需要知道游戏的价格,所以用map&l ...

  2. 赚翻了,快速带你学会Python爬虫接私单

    接了一个金主的单子,他想在淘宝开个零食的网店,想对目前这个市场上的商品做一些分析,这些信息都是对外展示的,只是手动比较麻烦,想托我帮个忙. 要求并不复杂,于是我用 Python爬虫 获取到数据之后从三 ...

  3. 赚翻,快速带你学会Python爬虫接私单

    接了一个金主的单子,他想在淘宝开个零食的网店,想对目前这个市场上的商品做一些分析,这些信息都是对外展示的,只是手动比较麻烦,想托我帮个忙. 要求并不复杂,于是我用 Python爬虫 获取到数据之后从三 ...

  4. Python爬虫:爬取京东商品简介

    Python爬虫 目录导航 1.前言 目的 关于爬虫 关于Python 2.准备 工具 安装第三方库和包 3.敲代码 1.爬取网站信息 2.筛选需要的信息 3.持久化数据 4.扩展(分页爬取) 4.代 ...

  5. Python爬虫抢购某宝秒杀商品

    某宝秒杀,用毫秒级的精准度来抢购! 你还在为各种活动秒杀 抢不过别人而烦恼吗 应粉丝要求 今天出一期 利用Python爬虫 抢购秒杀商品的文章 目录 1,项目环境 2,某宝抢购流程分析 3,程序实现思 ...

  6. steam怎么看在哪些计算机上登录过,如何查看好友的steam愿望单?朋友爱玩哪些游戏一看就知道!...

    软件大小: 1.6MB 软件版本: 2.10.91.91 软件类型: 游戏工具 查看详情 直接下载 Steam是一个开放性的游戏整合下载平台,任何用户都可以通过该平台来进行游戏的购买.下载等.而且在s ...

  7. 四、python爬虫抓取购物网站商品信息--图片价格名称

    本篇博客参考:python爬虫入门教程 http://blog.csdn.net/wxg694175346/article/category/1418998 Python爬虫爬取网页图片 http:/ ...

  8. Python爬虫之获取淘宝商品数据

    爬取淘宝信息数据 首先需要先导入webdriver from selenium import webdriver webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等 然 ...

  9. 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页  4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  10. Python爬虫之获取淘宝商品信息

    首先需要先导入webdriver from selenium import webdriver 复制代码 webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等 然后可以创 ...

最新文章

  1. matlab有没有查找替换,matlab-字符查寻与替换
  2. 静态方法mock 和verify
  3. python软件开发-哪个开发软件可以写python啊,VS可以么?
  4. chrome使用技巧
  5. 0.1uf与47uf并联_UF是什么形式?
  6. 多项式的链式存储方案
  7. mac composer 安装
  8. 搭建你的Spring.Net+Nhibernate+Asp.Net Mvc 框架 (三)实现数据库接口层和业务逻辑层(转)...
  9. c语言随机生成算式的对错判断,蔡奇宏软件工程第二次作业--四则运算
  10. 16. XML DOM
  11. (转)Aladdin PK SimCorp Dimension
  12. 【LaTeX安装】如何在windows电脑上安装 texlive2021
  13. css3径向渐变详解-遁地龙卷风
  14. python 爬取网易云音乐歌单
  15. 目前游戏行业内部主要几款游戏引擎的技术对比
  16. 医护人员计算机专业培训内容,电子病历-住院医生工作站的前期培训
  17. 中国人大计算机保研生源学校,中国人民大学2021届保研、拟录取总结
  18. 什么是闰年?闰年为什么是366天?为什么不能是100的倍数?
  19. linux 相关快捷键
  20. 关于Ubuntu18.04双系统安装后无法连接WiFi问题解决方法

热门文章

  1. 等额本金等额本息计算器
  2. laravel发送邮件
  3. python贪吃蛇游戏代码详解外加中文_Python贪吃蛇游戏编写代码
  4. 高级辅助驾驶(ADAS)整理(炒鸡详细)
  5. 作者用心之作,机器学习总结
  6. 13丨性能测试场景:如何进行场景设计
  7. 小米MIUI夺冠!鲁大师发布2021年Q3季度UI排行!
  8. 2018中国民营企业500强榜单
  9. 小米运动蓝牙耳机重新配对_小米运动蓝牙耳机怎么连接手机
  10. 管理活动目录域服务实训_工商管理学院党总支举行校园公益服务活动