既然你来到了这里,想必你肯定已经知道了神箭手云爬虫平台是干什么的,目的也是非常的明确。
那么接下来的过程中,我将给你演示如何在最快时间内编写一个简单的爬虫,每一个属性的讲解,将会让你一路顺风。

demo项目GitHub地址:
https://github.com/zhou1178539345/shenjianshou_spiders/


####进入爬虫市场

首先进入爬虫市场,登录,链接在这–爬虫市场。

在这里也可以使用别人的爬虫和API,但是这不是我们的目的,况且博主自己把大部分爬虫看了,很少会有人将爬虫的代码开源出来,只有去官方的GitHub能看到几个例子,但是对于初学者来说,还是稍微难了一点。

这里是神箭手的开发文档,如果你想真的写爬虫,最好还是先过一遍文档,链接在这–开发文档。

第一遍应该能了解个大概,但是又不知从何入手,没关系,主题来了。


####创建爬虫

进入我的控制台或者我的爬虫,点击新建应用。

然后弹窗中选择自己开发,输入名字,点击创建。

进入到项目中。


####编辑代码

这里是我一个采集名叫牛人微信的一个小网站。

var configs = {domains: ["weixin.niurenqushi.com"],//定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提高爬取速度scanUrls: ["http://weixin.niurenqushi.com/"],//定义爬虫的入口链接, 爬虫从这些链接开始爬同时这些链接也是监控爬虫所要监控的链接contentUrlRegexs: "http://weixin\\.niurenqushi\\.com/article/list\\-\\d+.html",//定义”内容页”url的规则“内容页”是指包含要爬取内容的网页, 比如,“http://www.qiushibaike.com/article/117844937“就是糗事百科一个”内容页”helperUrlRegexes: ["http://weixin\\.niurenqushi\\.com/article/2016-11-30/\\d+.html"],//定义”列表页”url的规则对于有列表页的网站, 使用此配置可以大幅提高爬虫的爬取速率“列表页”是指包含”内容页”列表的网页, 比如,“http://www.qiushibaike.com/8hr/page/2/?s=4867046“就是糗事百科的一个”列表页”enableJS: false,//是否使用JS渲染默认值是false, 如果需要使用JS渲染, 可以设置此项为trueinterval: 3000,//爬虫爬取每个网页的时间间隔单位: 毫秒fields: [//定义”内容页”的抽取规则规则由一个个field组成, 一个field代表一个数据抽取项{name: "article_title",//名称字段,可以随便取selector: "//div[contains(@class,'contitle')]/h1",//指的是你要抓取的内容在哪个标签中,这里就是在一个名叫contitle的div中的h1中抓取内容required: false//是否能为空},{name: "article_content",selector: "//div[contains(@id,'contentbody')]",required: false},{name: "article_publish_time",selector: "//div[contains(@class,'contitle')]//div",required: false},{name: "article_topic",selector: "//a[contains(@class,'ly')]",required: false}]
};//下面这个方法,当一个field的内容被抽取到后进行的回调, 在此回调中可以对网页中抽取的内容作进一步处理
configs.afterExtractField = function(fieldName, data, page){if (fieldName == "article_content") {return cacheImg(data); // 返回可被托管到图片云服务器上的url,如果你只想将数据保存在本地,那么这个可以不写。}if(fieldName=="article_publish_time"){data = Date.parse(new Date())/1000+"";//将抓取到的时间转换成2016-12-4形式}return data;
};var crawler = new Crawler(configs);
crawler.start();//开启爬虫

可以在右边测试栏先测试。

####抓取结果

点击左侧总览,然后右上角启动。

稍作等待。

点击左侧爬取结果。

####发布结果
不论你是想发布到网站上还是保存数据下来,平台都有方法。

如果想要导出Excel表格形式,点击左侧导出到文件。按需求选择,点击生成文件即可。

如果是想发布到网站上,点击这里,会有很好的解释。–数据发布

这里有很多集成式网站的接口,可以直接使用,博主就是用的wecenter发布的数据,www.nicesunny.com,网站没啥东西。

如果在发布过程后,数据被发布了,但是其中的图片没有显示出来,那么可以试试神箭手平台的图片托管,有三种,阿里,七牛,神箭手,为了方便,我用的神箭手。

如何将图片托管到神箭手?

如果喜欢的话,请在GitHub上给上一颗star吧!

神箭手云爬虫平台 如何在1小时内编写简单爬虫相关推荐

  1. 联系我们-神箭手云爬虫开发平台

    联系我们-神箭手云爬虫开发平台 联系我们-神箭手云爬虫开发平台 posted on 2016-07-22 17:54 lexus 阅读(...) 评论(...) 编辑 收藏 转载于:https://w ...

  2. 神箭手-云爬虫开发平台

    神箭手-云爬虫开发平台 神箭手-云爬虫开发平台 posted on 2016-07-22 17:55 lexus 阅读(...) 评论(...) 编辑 收藏 转载于:https://www.cnblo ...

  3. 如何在神箭手云爬虫上写爬虫

    摘要   上一篇博客跟大家详细介绍了如何写出<黄焖鸡米饭是怎么火起来的>这样的数据分析类的文章,相信很多人都对数据来源也就是如何爬取到黄焖鸡米饭商家信息很感兴趣.那么今天我就跟大家具体讲一 ...

  4. 如何在24小时内0成本获取到25000+精准粉丝的?

    今天看到一篇干货分享文章:<如何在24小时内0成本获取到25000+精准粉丝的?>,阿泽特意分享出来,希望对大家有帮助.好了,上干货: 前言:最近做了一个公众号,试水推了一个分享链接得资源 ...

  5. 使用 Python 3 编写简单爬虫

    使用 Python 3 编写简单爬虫 本文主要是学习Python3一个小阶段的记录,边看视频边做的一个爬虫--抓取主播名字和人气然后进行降序排序,当作复习. 学习视频:https://coding.i ...

  6. 引导分区 pbr 数据分析_如何在1小时内引导您的分析

    引导分区 pbr 数据分析 by Tim Abraham 蒂姆·亚伯拉罕(Tim Abraham) 如何在1小时内引导您的分析 (How to bootstrap your analytics in ...

  7. 如何在2小时内用1块钱赚到100块钱?

    本文来源:道君说财(微信公众号:touzijuiebu) 这篇文章将会告诉大家,如何跳出自己的思维去看待问题.跳出思维的盒子,你的生活也会增加许多可能性. 如何在2小时内用1块钱赚到100块钱? 别担 ...

  8. 爬虫系统基础框架 何时使用爬虫框架? requests库 + bs4来实现简单爬虫

    转载请注明出处https://www.cnblogs.com/alexlee666/p/10180519.html,谢谢! 文中图片来自于我的简书博客. 一. 爬虫用途和本质: 网络爬虫顾名思义即模仿 ...

  9. 云管平台中租户以及多租户概念简单说明

    随着云计算兴起,上云企业的增加,云管平台的作用越来越明显.但大家对于云管平台中一些名词还不是很清楚,现在我们就来简单说一下云管平台中租户以及多租户概念. 云管平台中租户的概念 云管平台中的租户是一个逻 ...

最新文章

  1. mysqluc安装MYSQL_安装mysql几种方法
  2. Scala基础教程(九):提取器、文件I/O
  3. 如何使用代码获得ABAP repository object不同版本的内容
  4. html5怎么圆圈怎么打开,HTML5动感圆圈
  5. 循环上传导致oom_java之OOM排查
  6. LeetCode 473. 火柴拼正方形
  7. java adf是什么_在ArcIMS9.2中使用JAVA ADF实现图层要素的查询
  8. CH14 Android中的多媒体
  9. 【单片机】2.5 AT89S52的并行I/O端口
  10. kubernetes dns详解
  11. android手机脱网分析,网络营销-13款手机浏览器分析(Android).pptx
  12. HCIP/HCIE RoutingSwitching / Datacom备考宝典系列(九)STP知识点全面总结(生成树协议)
  13. 输入1-365 的一个数字判断它是几月几日
  14. Redis应用项目---抢红包功能(三)
  15. 静心,多听,善思--学习之道也
  16. SSL/TLS 双向认证
  17. Arduino改装蓝牙控制风力仿生兽
  18. java四个方向的九乘九乘法表
  19. excel自动筛选_Excel 2010自动筛选中的新搜索功能
  20. Maemo Linux手机平台分析系列:3 安装Maemo平台宿主Linux系统

热门文章

  1. 广西省桂林市谷歌卫星地图下载
  2. Unity网络(三)-服务器数据解析
  3. 图片压缩免费-免费图片高清无损批量压缩
  4. 远程操控其它电脑--详细教程
  5. JS把对象赋值给另一个对象,一方发生变化另一个不受影响
  6. Lesson 1 A puma at large 内容鉴赏
  7. ajax什么是异步和同步,ajax异步和同步的区别
  8. 阿里云— 第二篇:云服务器的购买方式和搭建部署(图文结合,一目了然)
  9. 浅谈常用的几种显微镜相比的区别
  10. 数学分析_空间几何——法向量和梯度的关系