使用教程——单页面采集

当前版本

测试版

单页面采集

功能

采集单个页面。单个页面是指:一个页面中只包含一条采集信息的页面,例如文章详情页面,一个url对应一篇文章信息。

使用

打开“配置中心” > “新建爬虫” > “单页面类型” 菜单,进入爬虫配置界面:

基本配置:

是否必填 说明 示例
爬虫名字 任意字符,不可与以有的爬虫名称重复 微信文章爬虫
采集源 采集的网站名称 微信
源页面 要采集的源链接,必须为规范的url https://baidu.com
匹配开头 以该值开头的链接才会被采集 https://baidu.com
最大采集量 单个爬虫最大支持采集量为10000 500
线程数 一个爬虫所启用的线程数,最大值为3 1
允许JS 启用JS可以采集动态网页,但是采集速度将会变慢,默认不启用 不启用
描述 任意值,对爬虫的表述 这是一个微信文章爬虫

基本配置完成后,点击“下一步”进行采集规则配置。

配置规则:

是否必填 说明 示例
字段code 采集字段唯一标识,同一个爬虫中的字段code不可重复 title
字段标题 采集字段唯的名称 文章标题
采集规则 采集规则,使用css选择器,很重要。 .div > .title
采集类型 TEXT:采集文本内容,HTML:采集HTML内容,ATTR:采集属性值,当选择ATTR时,下面的属性值必填 TEXT
属性值 当采集类型为ATTR时必填,其他情况不填 href
非空字段 是否为非空字段,若是,则当该字段为空时,数据将不会被保存
去重字段 是否是去重字段,若是则会更具该字段进行去重,重复的数据将不会被保存

采集规则配置说明:

目前使用css选择器的方式来定位html元素,所以可以使用浏览器自带的检查元素功能来快速找到css选择器路径(以谷歌浏览器为例)

比例如需要采集csdn博客首页的文章:

在需要采集的链接上右键,选择“检查”:


然后浏览器自动定位到所选元素,再右键“copy” -> “copy selector”


在将复制的内容粘贴到“采集规则”输入框即可。

配置完成

采集规则配置完成后,点击“下一步”,选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫,需要在“数据采集” > “状态管理” 中找到刚配置的爬虫,点击“启动”。

【数据采集平台】教程-单页面采集相关推荐

  1. 拼多多商品详情采集上架至京东店铺接口(无货源商品数据采集接口,一键复制采集商品宝贝接口,整店宝贝采集接口)代码对接教程

    拼多多商品详情采集上架至京东店铺接口(无货源商品数据采集接口,一键复制采集商品宝贝接口,整店宝贝采集接口)代码对接教程如下: 1.公共参数 名称 类型 必须 描述(接口代购教程wx1997010801 ...

  2. Java快速开发平台,JEECG 3.7.5 Vue SPA单页面应用版本发布

    JEECG 3.7.5 Vue SPA单页面应用版本发布 导读            ⊙ Vue+ElementUI SPA单页面应用 ⊙Datagrid标签快速切换BootstrapTable列表风 ...

  3. Kendo UI开发教程(23): 单页面应用(一)概述

    Kendo单页面应用(Single-Page Application,缩写为SPA)定义了一组类用于简化Web应用(Rich Client)开发,最常见的单页面应用为Gmail应用,使用单页面可以给用 ...

  4. 【Web API系列教程】1.3 — 实战:用ASP.NET Web API和Angular.js创建单页面应用程序(上)

    前言 在传统的web应用程序中,客户端(浏览器)通过请求页面来启动与服务器的通信.然后服务器处理该请求,并发送HTML页面到客户端.在随后页面上的操作中--例如,用户导航到一个链接或提交一个包含数据的 ...

  5. ForeSpider采集教程:如何采集图片及链接地址

    前嗅ForeSpider采集教程:如何采集图片及链接地址 12/11 13:54 前嗅大数据 一. 网站结构 1. 网站截图说明 采集昵图网某页面中所有图片及链接地址 [昵图网某页面] 2. 采集结果 ...

  6. 雨尘SEO静态页面生成系统版本源码3秒钟可生成上千条单页面SEO必备神器

    简介: 一款随机静态页面生成系统,一秒钟可生成上千条单页面,批量生成单页用来做SEO是非常不错的源码. 雨尘SEO静态页面生成系统PHP网站源码v1.3版本,支持文章采集,功能,多模板选择批量生成单页 ...

  7. 关于单页面应用一些随想

    前面不短时间持续投入了时间在做 React 应用架构方面的考量 一个是冒险进行了一次应用架构的调整, 另一个是跟进了 Redux 的进展 当然, 实际上是同一个事情. 也许错过的比收获的还多一些 不过 ...

  8. 1688平台商品详情接口采集方法

    1688平台商品详情接口采集方法如下: 1.请求参数 请求参数:num_iid=533816674053 参数说明:num_iid:1688商品ID 备注:支持高并发请求响应 2.请求示例(CURL. ...

  9. VUE单页面应用的内页很难被百度收录

    这两年自己写了几个WEB项目,前端都是用的vue框架,后台大部分用的nodejs,也有用的spring的:但是他们有一个共同点:都是SPA单页面应用,并且使用HEXO框架在二级目录搭建了一个静态博客. ...

最新文章

  1. CSS魔法堂:更丰富的前端动效by CSS Animation
  2. 互联网1分钟 |1217
  3. php发请求的方法,php发送http请求的几种方法
  4. union 和 union all
  5. linux中人脸识别不了,虹软人脸识别在 linux中so文件加载不到的问题
  6. jquery-自定义通用方法-jquery通用方法-所有对象的通用方法
  7. leetcode 594 最长和谐子序列
  8. 主板bios修改、刷新
  9. CDA LEVEL I 数据分析认证考试模拟题库(一)
  10. 直击进博会 | 强生、默沙东、史赛克、雅培、丹纳赫、罗氏、拜耳等医药巨头带来哪些新产品、新技术?...
  11. 视觉检测售价_视觉自动化检测设备多少钱一台,它是如何报价的?
  12. Redis(三) Redis的持久化 RDB与AOF
  13. Ubuntu18.04风扇狂转的解决办法
  14. windows专业版升级企业版
  15. c语言数组顺时针转90°
  16. 2022“杭电杯”中国大学生算法设计超级联赛(1)C.Backpack
  17. 传奇服务器npc位置文件,传奇GEE引擎服务端自定义NPC示列工具
  18. Noip前的大抱佛脚----赛前任务
  19. 美国宾州计算机学校,美国宾州有什么好大学
  20. 断裂韧性、冲击强度、抗弯强度——烧结钕铁硼的力学性能

热门文章

  1. 【C语言练习——打印下三角及其变形】
  2. 几张图片生成3D模型?距离真正的AI建模还有多远?
  3. python爬斗鱼直播房间名和主播名_斗鱼爬虫,爬取颜值频道的主播图片和名字
  4. web 服务器安全维护,Web服务器安全攻击及防护机制详解
  5. 阿里云服务器一直提示安全事件如何解决
  6. 高德地图怎么画圈_点标记-覆盖物-教程-地图 JS API | 高德地图API
  7. 工业物联网解决方案:该如何打造智能工厂
  8. pl/sql完全破解
  9. Java面试复习提纲
  10. Unity中的宏定义