鉴于爬虫初学者们,往往也是编程的初学者,我在这里介绍一套最常用的技术栈,不求多,只求精。

毕竟我们的目标是采集到数据,只要能够成功实现目标的工具就是好工具。

  1. 爬虫框架scrapy:该框架是scrapinghub公司开发并开源的,经历过时间的检验,好用,性能佳。
  2. http请求库requests:requests官方是这样介绍这个库的:“Requests 是个为Python而写的优雅又简单的HTTP库”我们可以在爬虫代码开发过程中使用这个库进行调试,甚至一些简单的爬虫完全可以只用requests来实现。
  3. http请求curl:说起调试爬虫,就一定得提到curl,这个工具非常好用。在chrome中可以一键生成某个请求的curl命令,然后修改参数以调试可验证接口可接受参数的范围。

一个爬虫所需要的工具就这么多了。除了上面介绍的这些,你可能还需要一台电脑和一根网线。

在本教程中,不会过多涉及存储。你完全可以将采集回来的数据以任何你认为方便的方式存储。如果你不太会使用数据库的话,直接用文件存储也可以。

如果你还想了解更多的话,可以看看下面这些工具。

  1. urllib3:其实还有urllib和urllib2,是比较底层的原生http请求库。如果你没有直接使用过它们,那说明你不需要学习它们。
  2. grab:另一个爬虫框架,并非python爬虫业界主流。有兴趣可以读读源码。
  3. asyncio:py3中的一个异步协程库。
  4. aiohttp:基于asyncio实现的一个异步协程http请求库。
  5. pyspider:爬虫专家binux业余开发的一套爬虫框架,带UI展示。但是维护不频繁,也不如scrapy好用。大家有空可以读读源码学习一下,不推荐工业使用。

模拟浏览器:

  1. 以前常用技术栈有selenium+phatomjs,其中selenium是个自动化测试框架,phatomjs是个无界面浏览器,但phatomjs已经停止开发了。
  2. 目前更为常用的方案应该是selenium+chrome headless,或是pyppeteer跟splash。
  3. chrome headless就是chrome浏览器的无界面版本,我们将在后续文章中着重介绍。
  4. pyppeteer则是基于puppeteer进行封装的另一个chrome headless自动化测试框架。
  5. splash则是scrapinghub公司研发的,比较适合只对js进行渲染,而不进行点击或任何其他步骤的操作。

抓包分析工具:

  1. 最常用的还是chrome和firefox的开发者工具,我们的教程中几乎都是chrome开发者工具作为示例。
  2. app抓包可以使用fiddler和charless,如果搞不定就得上更加高端的wireshark。甚至是mitmproxy或anyproxy进行抓包。
  3. 后续在我们讲解到app抓取时,我们会比较详细的介绍app如何反编译,找到加密算法。但其实app抓取更常用的手段是Appium模拟,这类似于PC端使用浏览器进行渲染。

建议爬虫初学者不要一次学习太多工具,只要先对每个工具的作用做一个初步了解,后续伴随着项目的进行,遇到合适的场景下选择合适的工具即可。

python selenium采集速卖通_2.不苟的爬虫小教程系列:python爬虫技术栈介绍相关推荐

  1. Python之采集速卖通商品数据

    访问网页类: 1.模拟浏览器登陆,获取cookies 2.利用requests访问页面源码 3.cookies具有时效性,如果超出设定时间则重新登陆并更新它 class Browser:req = N ...

  2. python爬取b站排行榜_实时爬取B站排行榜并保存为表格——每周一个爬虫小教程系列...

    从这周开始,每周来一个爬虫小教程,希望对你们有所帮助,这次的目标是B站排行榜至于爬取什么内容,目前感觉就把序号,名称以及评分爬取下来吧(因为我是边写教程边写代码的) 这次需要用到的知识:Request ...

  3. aliexpress 速卖通主图、SKU、属性、详情Python 测试爬取

    aliexpress 爬取测试 解析对应的网页 解析对应的网页 搜索关键词 SEARCH_TEXT = goggles 获取页面总数 获取页面索引信息 解析页面索引信息 获取产品页面信息 解析产品信息 ...

  4. python爬虫反爬策略_抖音字体反爬,爬虫字体反爬策略——每周一个爬虫小教程系列...

    在B站上看到一个关于抖音字体反爬的视频,看完之后,精神抖擞,不禁感觉,我又行了,于是在模拟器上下载了一个抖音,打开了我尘封已久的抖音号. 可以看见显示的数字是正常的,但是查看源码就是错误的. 既然是字 ...

  5. 怎么把html放到速卖通详情,速卖通详情页布局怎么弄?

    速卖通详情页布局怎么弄?很多朋友不知道速卖通详情页布局,要知道,速卖通详情页布局对于一名卖家来说是一件重要的事,布局做好了,使你的店铺排版更加有效地给顾客介绍你的店铺商品,那么速卖通详情页布局怎么弄? ...

  6. 速卖通打印标签快递单条形码太细小导致打印出来的条形码挤在一起,扫描枪无法识别,如何打印出清晰的条形码

    所有东西的原则都是慢工出细活的,打印机也一样,除非是价格昂贵的机器,一般普通的热敏打印机,高速打印是无法满足精度要求的,速卖通打印标签快递单条形码太小的话,即要求打印机要打出精度高的条形码.这时可以通 ...

  7. 新版速卖通接口对接实现

    转自:https://www.cnblogs.com/xiyang1011/p/8481768.html 速卖通AE平台+聚石塔+奇门 完整教程 前言 速卖通AE开放平台改版,并入淘宝开放平台后,变更 ...

  8. 速卖通关键词挖掘工具_速卖通长尾词采集新增断续功能免费体验7天

    跨境电商AliExpress全球速卖通长尾词采集插件 免费体验仅支持新用户,没有安装过插件的用户,活动有效期7天. 本次更新断续功能,意外中断后,下次打开可以继续上次任务. 强烈建议更新 一.介绍 挖 ...

  9. 淘宝商品api,天猫商品api,京东商品api,1688商品api,速卖通商品api,微商相册api,拼多多商品api

    用商城助理软件可以 从淘宝.天猫.京东.1688.alibaba国际站.速卖通.微商相册.拼多多等平台采集商品,并把数据通过API接口以josn的格式,发送到客户指定的API地址 商城助理是软件,需要 ...

最新文章

  1. 【Oracle报错】ORA-01795: 列表中的最大表达式数为 1000 问题解决(使用JDK8的 stream 实现)
  2. 1.5亿元奖金,给了这50位青年科学家
  3. 微信无连接服务器1.104,微信成语猜猜看太子少师答案汇总 太子少师1-104关攻略...
  4. 作者:李超(1988-),男,上海交通大学硕士生,主要研究方向为大数据网络。...
  5. 系统架构师学习笔记-分布式系统
  6. 用Create Fishnet来生成格网
  7. 浅析Microsoft .net PetShop程序中的购物车和订单处理模块(Profile技术,异步MSMQ消息)
  8. 转:jQuery常用插件
  9. SQL数据库收缩日志
  10. oracle数据库怎么保存表,oracle从各个表取得数据保存到另一个表
  11. Java I/O系统之转换流
  12. Python实现自动完成打字测试
  13. python视频解析UI界面
  14. php 405,php-Laravel异常405 MethodNotAllowed
  15. 数据库--分库分表--垂直分表与水平分表
  16. 【转】Andorid-APP 安全测试
  17. 如何使用音频剪辑软件,快速剪辑任意格式音频!
  18. 我做游戏交互实习这段时间,总结了这8个点
  19. qs大学计算机专业排名,2018QS计算机专业排名深度解析,这些大学千万不要错过!...
  20. php开发c盘多大,win10占用c盘多大空间

热门文章

  1. MYSQL--三种锁
  2. linux应用程序课程设计,linux操作系统与应用课程设计 .pdf
  3. java rsa 公钥加密_java – 使用公钥进行RSA解密
  4. python第六章函数课后答案_浙大PTA-Python题库 函数题(6-1~6-6)题解
  5. C语言定义外部变量或函数使得另一个C文件可以调用
  6. C++中派生类隐式调用与显式调用基类的构造函数
  7. TypeError: 'numpy.ndarray' object is not callable
  8. 图像处理与图像识别笔记(六)图像增强3
  9. Deep Alignment Network(人脸对齐)
  10. 移动端 爬虫工具 与 方法 介绍