神箭手爬虫学习笔记(二)
一,可以使用神剑手已经做好的爬虫市场直接跑,不需要自己定义爬取规则
二,爬虫市场里没有的网站,需要自己去定义规则来爬数据。
三,爬取的数据可以先存放在神剑手,也可以放到七牛暂存。(提醒下,网站需要数据备份如果数量不大可以到七牛做备份,有免费版)
四,爬取的数据可以直接发布到数据库,也可以发布到具有支持神剑插件的网站。可以手动发布,也可以自动发布。
五,可以使用代理IP,防封
六:常用的几个辅助工具:http://docs.shenjianshou.cn/develop/tools/tools.html
------------------------------------------------------------------------------------------------------
如何写规则
<1> 定义config 对象,运行config对象
<2> 需要掌握Xpath,Jsonpath,正则表达式
-------------------------------------------------------------------------------------------------------
恶补下正则表达式吧
转载于:https://www.cnblogs.com/frankiephp/p/7010368.html
神箭手爬虫学习笔记(二)相关推荐
- Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)
Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...
- 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件
一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...
- Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】
Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...
- Python3 爬虫学习笔记 C16【数据储存系列 — Redis】
Python3 爬虫学习笔记第十六章 -- [数据储存系列 - Redis] 文章目录 [16.1]关于 Redis [16.2]使用 Redis [16.3]Key(键)操作 [16.4]Strin ...
- Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】
Python3 爬虫学习笔记第十四章 -- [验证码对抗系列 - 点触验证码] 文章目录 [14.1]关于点触验证码 [14.2]点触验证码攻克思路 [14.3]模拟登录 12306 - 总体思路 [ ...
- Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】
Python3 爬虫学习笔记第十二章 -- [验证码对抗系列 - 图形验证码] 文章目录 [12.1]关于普通图形验证码 [12.2]tesserocr 库识别验证码 [12.3]pytesserac ...
- Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】
Python3 爬虫学习笔记第十一章 -- [数据储存系列 - MongoDB] 文章目录 [11.1]关于 MongoDB [11.2]MongoDB 基本操作语句 [11.3]连接 MongoDB ...
- Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】
Python3 爬虫学习笔记第九章 -- [数据储存系列 - 文件储存] 文章目录 [9.1]TXT 文本存储 [9.1.1]基本示例 [9.1.2]打开方式 [9.2]JSON 文件存储 [9.2. ...
- 爬虫学习笔记(三)——利用JSON爬取豆瓣热映的使用
系列文章目录 爬虫学习笔记(一):requests基础用法之爬取各类主流网站1 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 文章目录 系列文章目录 前言 一.JSON是什么? 二 ...
最新文章
- python 把列表或者元组转成集合
- Java、Python、Go 哪个后端编程语言适合web前端工程师学习?
- Access-Control-Allow-Origin与跨域
- 怎么打败腾讯[纯讨论]
- Inno Setup 打包安裝判斷是否安裝.net freamework 3.5 和 access2007的數據連接
- 关系型数据库 vs 非关系型数据库
- java script 环境搭建_TypeScript环境搭建
- Android多媒体应用开发-控制摄像头拍照
- mysql菜鸟教程面向对象_第一节--面向对象编程
- mysql运维基础_mysql基础运维
- 插入图像标签(HTML)
- VS11中添加PagedList引用
- 计算机网络期末课后题模2运算CRC
- 购机测试软件重装上阵
- DELL RAID卡管理工具 MegaRAID Storage Manager(偏重RAID常用管理命令)
- ref:使用Dezender对zend加密后的php文件进行解密
- So Easy! HDU - 4565(构造共轭+矩阵快速幂)
- 木瓜移动每日快讯0511:谷歌Chrome引入新隐私功能fenced frame
- PPT转HTML手机软件,《PPT转换成Html》PPT转Htm、Html软件和方法大全
- YOLOv8 从环境搭建到推理训练