var scanUrl = "http://www.leiphone.com/news/201610/9EbxjV73a9kGhN3a.html"
;//@input(scanUrl, 文章url, 请输入正确的url)var configs = {domains: ["leiphone.com"],scanUrls: [scanUrl],fields: [{// 抽取文章页面的标题name: "article_title",selector: "//h1[contains(@class,'headTit')]",required: true},{// 抽取文章页面的内容name: "article_content",selector: "//div[contains(@class,'lph-article-comView')]",required: true},{// 抽取文章页面的发布日期name: "article_publish_time",selector: "//td[contains(@class,'time')]",required: true},{// 抽取文章页面的作者name: "article_author",selector: "//td[contains(@class,'aut')]/a",required: true}]
};// 在"afterExtractField回调函数"中将爬取到的时间转换为秒级时间戳
configs.afterExtractField = function(fieldName, data, page, site) {if (fieldName == "article_publish_time") {var timestamp = Date.parse(data);return isNaN(timestamp) ? 0 : parseInt(timestamp/1000);}return data;
};// 使用以上配置创建一个实时API
var fetcher = new Fetcher(configs);
// 运行实时API
fetcher.start();

爬虫技术(02)神箭手爬虫实时API相关推荐

  1. 爬虫技术:携程爬虫阳光问政数据

    爬虫技术:携程爬虫阳光问政数据 携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间. 代码如下: import time impor ...

  2. 爬虫技术(04)神箭手爬虫field的属性

    **field定义一个从内容页中抽取数据的抽取项. 如果根据抽取规则没有从内容页中抽取到数据, field的值是null.** 一个抽取项包含下面这些信息: (1) name 1). 给抽取项起个名字 ...

  3. 爬虫技术(05)神箭手爬虫回调函数

    回调函数是在神箭手应用爬取并处理网页的过程中设置的一些系统钩子, 通过这些钩子可以完成一些特殊的处理逻辑. 回调函数需要设置到configs对象中才起作用 下图是采集爬虫爬取并处理网页的流程图, 矩形 ...

  4. 爬虫技术(03)神箭手爬虫Configs详解

    (1)domains 定义神箭手应用爬取哪些域名下的网页, 非域名下的网页会被忽略以提高爬取速度. **数组类型 在神箭手应用的代码中均可使用** 通用栗子1: var configs = {// 单 ...

  5. 小散量化炒股记|基于多任务爬虫技术, 实现A股实时行情Level1采样

    前言 股票行情数据对量化交易者来说非常重要,无论是短线交易者还是中长线交易着. 对于短线交易者来说,获取实时行情数据的方案涉及到盘中分析和买卖点监测的时效性. 对于中长线交易中来说,盘后更新全市场数据 ...

  6. 神箭手 爬虫操作(1)

    今天有一个任务,是要将微博用户的昵称从数据库导入到神箭手中. 以前一直是手动操作,现在有一个需求是要直接导入到设置中. 数据库使用的是mysql,数据库连接使用的是JDBCtemplate,使用spr ...

  7. 利用python爬虫技术本福特_Python爬虫技术(一)--模拟登陆

    好了,最后上完整代码,当当当当~ # -*- coding: utf-8 -*- import requests import sys import urllib2 import re if __na ...

  8. python爬虫技术可以干什么-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

    很久之前就看到老爬虫 @何明科 的回答,在后续的几年里面,一致在思考和践行爬虫赋能业务运营的结合点和场景.爬虫是虾米东东?真的是盗取数据的不法之徒吗? 真相却恰恰相反,而且很多场景下都能极大的赋能业务 ...

  9. 爬虫技术(01)神箭手爬虫初学案例解读

    var configs = {//要爬取的域名domains: ["leiphone.com"], //爬虫的入口URL scanUrls: ["http://www.l ...

最新文章

  1. Android环信爬坑指北(二)头像昵称好友备注显示
  2. Motan的SPI机制实现分析
  3. github可视化_Github上 10 个超好看可视化面板
  4. 重磅发布!最新版《动手学深度学习》PDF 版今天终于可以下载
  5. 二叉树的建立以及先序、中序、后序遍历C语言实现---【递归方式】
  6. 闲鱼把各种玩法做成了一个平台:哆啦A梦
  7. 基于VS Code创建Java command-line app
  8. vs linux版本,VSCodium:100% 开源的 VS Code | Linux 中国
  9. jQuery 缩放 旋转 裁剪图片 Image Cropper
  10. 差分放大电路的构成(零点漂移、差分放大电路是怎么构成的、共模信号、差模信号)
  11. [Android稳定性] Android Fd Leak问题分析方法
  12. wx.scanCode(Object object)使用详解
  13. 华为防火墙笔记-安全策略
  14. mysqlfrm初步使用
  15. excel数据库_Excel再厉害的高手,也敌不过Access数据库的新手
  16. 数据中心解决方案之灾备方案设计(下)
  17. 【5G RLC】AM模式的数据传输详解
  18. ubuntu如何降级到之前的版本
  19. 在docker中出现的僵尸进程怎么处理
  20. 3. MySQL之PyMySQL的安装使用

热门文章

  1. 编程实践--决策树分类算法--隐形眼镜材质分类
  2. 微软自动调参工具—NNI安装与快速上手,AutoML必备工具
  3. Exp7 网络欺诈防范 20164323段钊阳
  4. java ImageIO处理
  5. python快速接手别人的代码_Python 爬虫代码,网上找的别人的,但是报错,求高手指点...
  6. python计算excel平均值_python计算excel平均值和标准差
  7. Windows系统下的百度云不限速
  8. intellIj idea修改英文字体解决大写的“I”和小写的“l”显示冲突问题
  9. c语言写字机器人,写字机器人(基于STM32简易实现)
  10. 安装AmaterasUML插件和GEF插件的详细步骤