一,可以使用神剑手已经做好的爬虫市场直接跑,不需要自己定义爬取规则

二,爬虫市场里没有的网站,需要自己去定义规则来爬数据。

三,爬取的数据可以先存放在神剑手,也可以放到七牛暂存。(提醒下,网站需要数据备份如果数量不大可以到七牛做备份,有免费版)

四,爬取的数据可以直接发布到数据库,也可以发布到具有支持神剑插件的网站。可以手动发布,也可以自动发布。

五,可以使用代理IP,防封

六:常用的几个辅助工具:http://docs.shenjianshou.cn/develop/tools/tools.html

------------------------------------------------------------------------------------------------------

如何写规则

<1>  定义config 对象,运行config对象

<2> 需要掌握Xpath,Jsonpath,正则表达式

-------------------------------------------------------------------------------------------------------

恶补下正则表达式吧

转载于:https://www.cnblogs.com/frankiephp/p/7010368.html

神箭手爬虫学习笔记(二)相关推荐

  1. Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)

    Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...

  2. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

  3. Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

    Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...

  4. Python3 爬虫学习笔记 C16【数据储存系列 — Redis】

    Python3 爬虫学习笔记第十六章 -- [数据储存系列 - Redis] 文章目录 [16.1]关于 Redis [16.2]使用 Redis [16.3]Key(键)操作 [16.4]Strin ...

  5. Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】

    Python3 爬虫学习笔记第十四章 -- [验证码对抗系列 - 点触验证码] 文章目录 [14.1]关于点触验证码 [14.2]点触验证码攻克思路 [14.3]模拟登录 12306 - 总体思路 [ ...

  6. Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】

    Python3 爬虫学习笔记第十二章 -- [验证码对抗系列 - 图形验证码] 文章目录 [12.1]关于普通图形验证码 [12.2]tesserocr 库识别验证码 [12.3]pytesserac ...

  7. Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】

    Python3 爬虫学习笔记第十一章 -- [数据储存系列 - MongoDB] 文章目录 [11.1]关于 MongoDB [11.2]MongoDB 基本操作语句 [11.3]连接 MongoDB ...

  8. Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】

    Python3 爬虫学习笔记第九章 -- [数据储存系列 - 文件储存] 文章目录 [9.1]TXT 文本存储 [9.1.1]基本示例 [9.1.2]打开方式 [9.2]JSON 文件存储 [9.2. ...

  9. 爬虫学习笔记(三)——利用JSON爬取豆瓣热映的使用

    系列文章目录 爬虫学习笔记(一):requests基础用法之爬取各类主流网站1 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 文章目录 系列文章目录 前言 一.JSON是什么? 二 ...

最新文章

  1. python 把列表或者元组转成集合
  2. Java、Python、Go 哪个后端编程语言适合web前端工程师学习?
  3. Access-Control-Allow-Origin与跨域
  4. 怎么打败腾讯[纯讨论]
  5. Inno Setup 打包安裝判斷是否安裝.net freamework 3.5 和 access2007的數據連接
  6. 关系型数据库 vs 非关系型数据库
  7. java script 环境搭建_TypeScript环境搭建
  8. Android多媒体应用开发-控制摄像头拍照
  9. mysql菜鸟教程面向对象_第一节--面向对象编程
  10. mysql运维基础_mysql基础运维
  11. 插入图像标签(HTML)
  12. VS11中添加PagedList引用
  13. 计算机网络期末课后题模2运算CRC
  14. 购机测试软件重装上阵
  15. DELL RAID卡管理工具 MegaRAID Storage Manager(偏重RAID常用管理命令)
  16. ref:使用Dezender对zend加密后的php文件进行解密
  17. So Easy! HDU - 4565(构造共轭+矩阵快速幂)
  18. 木瓜移动每日快讯0511:谷歌Chrome引入新隐私功能fenced frame
  19. PPT转HTML手机软件,《PPT转换成Html》PPT转Htm、Html软件和方法大全
  20. YOLOv8 从环境搭建到推理训练

热门文章

  1. OPMS 1.2 版本更新发布
  2. How to POST JSON data with Curl from Terminal/Commandline to Test Spring REST?
  3. 第一个Sprint冲刺第十天
  4. 异步消息队列zeromq实现服务器间高性能通信
  5. mysql事务并发控制_mysql事务和多版本并发控制详解
  6. matlab多维数组、结构体数组
  7. Xilinx基于模型的设计工具—Model Composer
  8. 运放使用中不稳定怎么办?
  9. 神经网络模拟逻辑推理-演绎推理
  10. pandas版xml json excel互转