采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

  • 输入采集规则名称和目标网站编码(可自动检测)
  • 页面渲染:自动加载出ajax内容,适用于js脚本较多的页面
  • 自动补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
  • 网址不排重:默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面
  • 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息

起始页网址

添加需要采集的目标列表页

点击“+”号可批量添加网址,勾选“设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

多级网址获取:适用于小说、影视等连载形式的内容

只要内容页网址不是直接从起始页抓取的,都可以通过多级来获取

关联页网址获取:适用于数据分散在多个页面中

如需要抓取的字段不在内容页,而在其他页面中,则可以使用该功能将其他页面也作为内容源

获取内容

“添加默认”可以自动设置几个常见的字段,能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式

“数据处理”可将采集到的字段值进行过滤或替换内容,每个字段都可单独处理或使用通用处理

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

测试规则

采集器配置完成后需点击保存按钮,刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮

测试列表页中抓取网址

测试页面中抓取数据

测试抓取分页

蓝天采集器起始页网址添加需要采集的目标列表页相关推荐

  1. python做动态数据采集仪代理_九四采集器(py/python)采集器设置动态代理IP图文教程...

    说明:为什么要使用动态代理进行采集,主要是因为针对封ip之类问题解决,使用了动态代理ip就无法进行ip封禁,不影响采集. 直入正题,首先要配置搭建采集器,这里不做赘述. 注:下载地址在底部. 采集器配 ...

  2. vue.js实现的,添加和删除代办事项列表页面源码

    大家好,今天给大家介绍一款,vue实现的,添加和删除代办事项列表页面源码(图1).送给大家哦,获取方式在本文末尾. 图1 可以添加代办事项.删除代办事项.将未完成任务移动到列表前面(图2) 图2 代码 ...

  3. 网页采集器哪个好-免费网页采集器排行榜

    网页采集器哪个好,今天给大家分享这款网页采集器哪个好.为什么今天给大家分享这款免费的网页采集器?因为这款免费的网页采集器只要点点鼠标就能轻松获取你想要的数据.很多站长都用过这款爬虫采集器实现内容自动更 ...

  4. 火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据

    使用分页采集有分页的数据 分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到.采集要点: 1.采集规则要对每个分页都适用. 2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了 ...

  5. 后羿采集器怎么导出数据_后羿SEO:如何用后羿采集器查收录?(附详细步骤图)...

    摘要:不知道大家查收录是用啥查的,或许市面上有工具,可以批量查,但是这些工具不是收费就是查询结果不太准确.今天狠人SEO教大家一个查询结果比较准确的方法.如标题写的,... 不知道大家查收录是用啥查的 ...

  6. 火车头采集保存html,火车头采集器用正则提取方式获取当前页面URL

    火车采集器虽然能够采集到url,但如果我们内容中想要引用这个url怎么搞呢? 利用火车头采集获取当前网址url参数可以从URL里截取有用的信息发布到自己的网站上去.接下来就教大家如何获取: 火车头采集 ...

  7. 最简单的免费采集器——易数云

    最简单的免费采集器--易数云采集器 为什么说易数云采集器简单呢?这个采集器已经包含有大量的采集规则,对于小白来说简直是轻松上手而且当前采集器还属于迭代中客服非常的认证几乎达到一对一服务,当前采集器拥有 ...

  8. 火车头采集器保存任意格式-免费火车头采集发布配置教程

    火车头采集器保存,在使用火车头采集器之前你需要有HTML方面的知识,必须能够看懂网页源码和网页结构.不然完全没办法上手!如果要用到web自动发布或数据库自动发布,则需要对自己网站系统及数据存储结构非常 ...

  9. 比Python爬虫简单的爬虫方法1-后羿采集器

    后羿下载器:下载地址 step 1:下载 step 2:打开需要下载数据的网页 step 3:打开采集器 输入网址 step 4: 点击智能采集(第一次爬取数据建议用智能采集) step 5: 点击导 ...

最新文章

  1. 巧用MySQL InnoDB引擎锁机制解决死锁问题
  2. 《追风行动》有点儿意思
  3. Ubuntu apt-get和pip源更换
  4. 下一代 Node 强势来袭:Deno
  5. 科技通讯PSD分层海报出击!Hello 5G时代
  6. 用python求两个人的平均身高_黄哥Python:分治算法(Divide-and-Conquer)
  7. 腾讯第一大股东 Prosus 18亿美元收购 StackOverFlow
  8. 用VBS脚本实现软件定条件开启
  9. 蓝桥杯每日一练----字符串逆序
  10. MSSQL 和 MYSQL 复制表结构和数据(B复制A)
  11. 什么是Power BI?
  12. FLASK开启调试模式,使程序修改即时生效
  13. LabVIEW学习心得
  14. Ant Design 省市区联动数据
  15. 按键精灵提交表单发起post请求
  16. 计算机系统结构相关的论文,计算机系统结构毕业论文题目.doc
  17. Poi 自定义封装方法 合并excel中的单元格
  18. ps cs6 mac破解方法
  19. Docker安装openjdk-11,并查看对应的版本
  20. Solr的精确匹配搜索

热门文章

  1. 关于BQ40Z50-R1使用过程中的点点滴滴
  2. 机器翻译虽然火,但距离取代人工翻译还有一段距离
  3. 2020机械式停车设备司机证考试及机械式停车设备司机考试试题
  4. webview跳转外部浏览器以及https
  5. 普通用户无密码登陆(运维面试题)
  6. 阿里Android高级架构师:一个牛逼的插件又双叒诞生了!
  7. Golang 打印耗时统计、纳秒级耗时统计(统计函数执行时间)
  8. 记一次有教益的内存碎片转储文件分析经历
  9. error C2226: 语法错误 : 意外的“HFONT”类型
  10. 全国三级联动----省市县 原生js前端