使用正则匹配模式采集数据

正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一 下。

1.纯正则:

先看一下图

在标签中用正则表达式采内容的格式是这样:

开始代码(?正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用转义。

比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写

论坛记 事、活动、培训区|||悬赏求助区|||采集器讨论区|||使用教程区|||模块资源区|||站点任务规则资源区|||BUG报告|||采集器资源求购 区|||程序建议区|||火车嘉宾,VIP会员,捐助会员技术支持区|||Discuz! | & Supsite|||PHPWind & VeryCMS|||PHPCMS|||DedeCMS|||Powereasy动易|||WordPress 等Blog程序|||ECMS帝国|||新云程序|||建站交流|||SEO技术交流|||网站系统经验分享

然后就可以获得我们需要的版块名称了。

2.参数正则

这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果参数几是按匹配内容的顺 序来写的,我们还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。

测试一下,是可以获得我们需要的结果了。^_^  。

正则基本就这样,主要是写表达式的问题。如果您对这有兴趣,可以下载相关一些资料研究一下。

最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据相关推荐

  1. 最大化参数 火车头_火车头使用正则匹配模式采集数据

    正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音. ...

  2. 最大化参数 火车头_初级火车头采集器教程分享

    古人云:"工欲善其事,必先利其器".在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍 ...

  3. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)

    作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...

  4. 疯子网页采集器教程之采集需要保存图片的教程

    疯子网页采集器教程之采集需要保存图片的教程 第一步:选中 "保存图片"第二步:填写规则图片开始标签:默认为 (?:src)=" 一般不需要修改图片规则:(.*?\.jpg ...

  5. 疯子网页采集器教程之图片本地化教程

    疯子网页采集器教程之图片本地化教程 第一步: 选中 "图片本地化" 填写首页地址,比如http://www.zhuvl.com 必需填写http://否则会出错 第二步:在服务器根 ...

  6. 后羿采集器怎么导出数据_推荐爬虫神器后羿采集器,小白也能一键采集数据

    你有没有烦恼过,如何将网页中包含的各种信息转变为有用的数据呢? 粘贴复制??太累 开发软件??太贵 写python爬虫??太难学 下载了一些工具??太难用 这里推荐第2款采集数据的神器,后羿采集器,无 ...

  7. 最大化参数 火车头_火车头采集器菜鸟使用手册

    <火车头采集器菜鸟使用手册>由会员分享,可在线阅读,更多相关<火车头采集器菜鸟使用手册(36页珍藏版)>请在人人文库网上搜索. 1.www.okyanli.com OK眼力 精 ...

  8. 最大化参数 火车头_火车头采集:网址参数设置教程[参数N]

    看到标题时有没有一种相见恨晚的感觉? 小采之前没有想到会有用户在这里犯晕,直到我们的一位用户在后台留言几十条同我探讨这个问题,随后小采又在百度知道中,发现另一位用户也曾感到不解过,这才觉得十分有必要为 ...

  9. 最大化参数 火车头_火车头采集(LocoySpider)设置技巧

    火车头采集(LocoySpider)是一款非常专业的批量采集网络数据工具,火车头采集(LocoySpider)功能强大软件功能非常强大,界面简洁明晰.操作方便快捷,设计得很人性化,火车采集器(Loco ...

最新文章

  1. Nature Methods | TooManyCells:单细胞聚类和可视化方法
  2. UFLDL:稀疏自编码器
  3. 请别埋没了URL Routing
  4. 使用Docker Compose安装mysql
  5. yum 更新_CentOS7 - 使用yum-cron自动更新软件
  6. 【转】c++虚函数实现原理
  7. Android之adb shell dumpsys activity获取task里面的所有actitiy
  8. Mysql数据库安全管理配置
  9. mysql学习笔记06分组语句的使用
  10. html协商缓存没起作用,用了CDN缓存,就会跳过强缓存和协商缓存吗?
  11. 从操作系统内核看设计模式--linux内核的facade模式
  12. Selenium与Cypress的比较
  13. git 删除分支_深入浅出图解Git,入门到精通(保姆级教程)
  14. Vue脚手架中添加favicon.ico图标失效问题
  15. 通过创建一个位图的XY Chart来学习Android绘图类Rect,Paint,Bitmap,Canvas(附源码)
  16. php网站 视频马赛克,给视频打马赛克的软件 如何在视频上打马赛克 怎样给视频的局部打马赛克...
  17. 商业银行资产托管业务读书笔记
  18. 【速记】英语多个形容词(定语)搭配规则
  19. mac电脑投屏到小米盒子_苹果手机,小米盒子投屏,连接不上,什么情况?
  20. 牛客小白月赛2 I.艺

热门文章

  1. gpt分区 linux 4k对齐,磁盘对齐与4K对齐
  2. VScode前端插件安利
  3. 设置Ubuntu 20.04的静态IP地址
  4. 【第八章】 C语言之牛客网力扣刷题笔记 【点进来保证让知识充实你一整天】
  5. Window端Qt Create dmp的生成与解析
  6. 合泰杯 | 合泰单片机入门 定时器详解(三)
  7. Oracle字符集AL32UTF8 改ZHS16GBK字符集
  8. 小程序Cannot set property 'userInfo' of undefined
  9. 【Unity】获取模型的材质球贴图中的像素点色值
  10. Android通讯录模糊匹配搜索实现(号码 首字母 简拼 全拼)