身在澳洲,近期和ld决定开始做代购,一拍即合之后开始准备工作。众所周知,澳洲值得买的也就那么点东西,奶粉、UGG、各种保健品,其中奶粉价格基本万年不变,但是UGG和保健品的价格变化可能会比较大。所以,打算写个爬虫解决一下经常需要手动查询价格的不便。以前用python写过一些爬虫,urllib123、requests略微有点了解,不过前段时间碰巧也留意到了几个框架,所以这次尝试了一下Scrapy,感觉还好。本次也只是使用Scrapy的其中一小部分特性,但比起正则,还是方便了很多,同时,还有很多用法还没有发掘,以后再说。课业繁重,代码很丑,只是可用。

环境

Mac OS 10.12.6 + Python 2.7.9

1. 安装Scrapy

很简单,一行代码

 sudo pip install scrapy

或许,你也会看到这样的错误,同时也有可能会有其他类型的错误,具体原因具体分析

    OSError: [Errno 1] Operation not permitted: '/tmp/pip-TnNzkf-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info'

解决办法

sudo pip install scrapy —-upgrade —ignore-installed six

2. 创建一个Scrapy项目

在Terminal中,进入想要创建项目的目录

scrapy startproject XXXXXXX

XXXXXX为项目名

Appendix

源代码

https://github.com/s65b40/aus_spider

Ref

  1. Scrapy官方文档,写的还是很不错的,还有中文

Python Scrapy简单爬虫-爬取澳洲药店,代购党的福音相关推荐

  1. mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...

    基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

  2. Python+scrapy+mysql实现爬取磁力链接

    Python+scrapy+mysql实现爬取磁力链接 作为老司机中的一员,所以试试爬取磁力链接,看看效果咋样. 直接上代码: class torrentSpider(scrapy.Spider):n ...

  3. python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩

    python + selenium +pyquery 爬虫  爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver  包含wi ...

  4. 【Python】使用Python做简易爬虫爬取B站评论

    目录 一.前言 二.分析网页 三.代码 1.头 2.获取根评论 3.获取子评论 四.总代码 五.总结 一.前言 B站评论没有查找功能,就随手写了一个爬虫爬取B站评论存储到本地txt中 首先需要安装py ...

  5. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

  6. 简单爬虫,爬取天猫商品信息

    前言 这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了. 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法. 对于没有反爬技术的网 ...

  7. python爬取百度百科词条-python简单爬虫爬取百度百科python词条网页

    目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...

  8. python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页

    目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...

  9. scrapy简单入门 - 爬取伯乐在线所有文章

    推荐我的个人博客 http://blog.wuzhenyu.com.cn scrapy 是一个用 python 语言编写的,为了爬取网站数据,提取结构性数据而编写的应用框架. 环境 本文使用的环境: ...

最新文章

  1. C/C++结构体的区别
  2. LeetCode 88. 合并两个有序数组(Merge Sorted Array)
  3. 下拉插件dropload js时间计算(几天前)
  4. linux防火墙没看3306访问不,Linux配置防火墙,开启80端口、3306端口
  5. win8计算机可用内存不足,Win8.1玩游戏提示计算机内存不足,Win8.1内存不足怎么办?...
  6. android textview 白色,android – AutoCompleteTextview默认情况下,颜色设置为白色
  7. Matlab——图像平移
  8. opencv python3 找图片色块_如何使用OpenCV在Python中找到图像的平均颜色?
  9. 为什么要用SpringCloud alibaba作为微服务开发框架?
  10. [Data Pump]expdp导出笔记
  11. 通过wifi使用nfs把ubuntu挂载到android
  12. Android——GSON解析JSON
  13. 买腾讯云服务器怎么选择
  14. Visual reasoning
  15. python圆形_利用 Python 实现裁剪圆形头像
  16. chrome浏览器加载图片失败问题
  17. 什么是白金域名?白金域名为什么更贵?
  18. 插件小王子的插件源码汇总
  19. 使用Python对Dicom文件进行读取与写入的实现(pydicom 和 SimpleITK)
  20. 谈谈我对这个互联网时代的理解

热门文章

  1. 不死的LYM NOIP模拟 二分+状压DP
  2. alin的学习之路:Qt与多线程
  3. iOS开发之Code:-402653103,Code:5
  4. (项目)在线教育平台(九)
  5. The Tomcat server configuration at\...详细步骤
  6. 手机端html跑马灯效果,使用css3和js在手机上实现简单的跑马灯效果
  7. 利用燃尽图跟踪迭代开发进展
  8. 巴比特| 元宇宙每日必读:百度转向海外布局NFT,梦想打造“Web3迪士尼”,胜算几何?...
  9. 2022届秋招面经--秋招面试(3)
  10. 关于MUR1100ERLG